Json文件解析



所以我试图打开一些json文件来查找发布年份,并对它们进行相应的排序。但在此之前,我决定在一个文件上进行实验。不过我遇到了麻烦,因为尽管我可以获得文件和字符串,但当我尝试打印一个单词时,它会开始打印字符。

例如:

打印数据2[1]#打印

新娘饰品,Viz。五种药物,Moral和Diuine#结果

但是现在打印数据2[1][0]#应打印

T#打印T

这是我现在的代码:

json_data =open(path)
data = json.load(json_data)
i=0
data2 = []
for x in range(0,len(data)):
    data2.append(data[x]['section'])
    if len(data[x]['content']) > 0:
        for i in range(0,len(data[x]['content'])):
            data2.append(data[x]['content'][i])

我可能需要查看您的json文件才能绝对确定,但在我看来,data2列表是一个字符串列表。因此,data2[1]是一个字符串。当您执行data2[1][0]时,预期的结果就是您得到的结果——字符串中第0个索引处的字符。

>>> data2[1]
'THE BRIDES ORNAMENTS, Viz. Fiue MEDITATIONS, Morall and Diuine.'
>>> data2[1][0]
'T'

为了得到第一个单词,天真地,你可以用空格分割字符串

>>> data2[1].split()
['THE', 'BRIDES', 'ORNAMENTS,', 'Viz.', 'Fiue', 'MEDITATIONS,', 'Morall', 'and', 'Diuine.']
>>> data2[1].split()[0]
'THE'

然而,这会导致标点符号问题,因此您可能需要标记文本。此链接应该有助于-http://www.nltk.org/_modules/nltk/tokenize.html

相关内容

  • 没有找到相关文章

最新更新