将JSON文件导入Python字典格式时遇到问题



我在导入json文件(从USPTO网站下载(时遇到问题-以下是数据的外观:

JSON文件的图像

我尝试使用的代码是:

import json
with open('2020.json') as json_file:
data = json.load(json_file)

我收到一个错误"期望':'分隔符:第1行第20列显示图像。

我尝试将该位置的","更改为":",数据似乎可以作为字典加载到"data"变量中。但是,当我运行print(len(data((时,它会返回"1"。

条目数量显然不是"1"。我希望最终能够将数据转换为数据帧,以便进行进一步的数据操作。关于如何纠正这个问题,有什么建议吗?

谢谢!

我认为该文件可能有一些奇怪的字符,这些字符只能以二进制格式读取。这在Windows:上的Python 3.7中对我有效

>>> import json
>>> with open('2020.json', 'rb') as f:
...     data = json.loads(f.read())
...
>>> type(data)
<class 'dict'>
>>> len(data.keys())
1
>>> list(data.keys())
['PatentBulkData']
>>>

在没有使用"rb"作为格式的情况下,我得到了一些奇怪的东西(尽管与您看到的不一样:

>>> f = open('2020.json', 'r')
>>> json.load(f)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:Python37libjson__init__.py", line 293, in load
return loads(fp.read(),
File "C:Python37libencodingscp1252.py", line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 11411895: character maps to <undefined>

此外,在未来,包含json文件的来源位置(如果它是可公开下载的(可能会很有用。(我相信(我是从这里找到的https://ped.uspto.gov/peds/.

相关内容

最新更新