我从一个有多个主要类别的网站上抓取数据,其中有多个次要类别。我得到了抓取部分完成,但我不确定如何以适当的方式存储数据,以便当它转换为DataFrame对象时,数据被正确显示。
这是我所拥有的数据的分类:
主要类别列表->子类别列表->与该子类别
相对应的链接列表categories = ['Cat1', 'Cat2', ...]
subcat = ['Subcat1', 'Subcat2', ...] etc
这是抓取数据时的最终输出。我的问题是,我怎样才能建立一个数据框架,使它最终变成这样:
Category1 Category2
Subcat1 Link1 Subcat1 Link1
Subcat2 Link2 Subcat2 Link2
我曾想过将数据存储在一个字典列表中,并在每个字典中存储一个子类别列表,但它不能正确显示。
我认为最好的方法是使用多个索引。请参考https://pandas.pydata.org/docs/user_guide/advanced.html#hierarchical-indexing-multiindex