所以我试图打开一些json文件来查找发布年份,并对它们进行相应的排序。但在此之前,我决定在一个文件上进行实验。不过我遇到了麻烦,因为尽管我可以获得文件和字符串,但当我尝试打印一个单词时,它会开始打印字符。
例如:
打印数据2[1]#打印
新娘饰品,Viz。五种药物,Moral和Diuine#结果
但是现在打印数据2[1][0]#应打印
T#打印T
这是我现在的代码:
json_data =open(path)
data = json.load(json_data)
i=0
data2 = []
for x in range(0,len(data)):
data2.append(data[x]['section'])
if len(data[x]['content']) > 0:
for i in range(0,len(data[x]['content'])):
data2.append(data[x]['content'][i])
我可能需要查看您的json文件才能绝对确定,但在我看来,data2列表是一个字符串列表。因此,data2[1]是一个字符串。当您执行data2[1][0]时,预期的结果就是您得到的结果——字符串中第0个索引处的字符。
>>> data2[1]
'THE BRIDES ORNAMENTS, Viz. Fiue MEDITATIONS, Morall and Diuine.'
>>> data2[1][0]
'T'
为了得到第一个单词,天真地,你可以用空格分割字符串
>>> data2[1].split()
['THE', 'BRIDES', 'ORNAMENTS,', 'Viz.', 'Fiue', 'MEDITATIONS,', 'Morall', 'and', 'Diuine.']
>>> data2[1].split()[0]
'THE'
然而,这会导致标点符号问题,因此您可能需要标记文本。此链接应该有助于-http://www.nltk.org/_modules/nltk/tokenize.html