解析按标签分隔的亚马逊评论<span>



我正在尝试从.csv文件中读取一些数据。数据示例如下所示:

4.0 /gp/customer-reviews/RKMO449VT48H3?ASIN=1491590173  4.7573214851  Stars "<span class=""a-size-base review-text"">I'm a hard-science science  fiction fan ....  (Btw, I like those stories, too, but good ones are hard to find.)<br/><br/>Somebody did their homework on this one -- and that's what  stands out above all else.</span>"

如果我尝试像这样读取数据:

with open("Andy-Weir-The-Martian.csv", 'r') as csvfile:
 df_total = pd.read_csv(csvfile, sep=",")  

它会引发以下错误:

文件 "pandas\

parser.pyx", 第 1865 行, in pandas.parser.raise_parser_error (pandas\parser.c:23325) pandas.io.common.CParserError:标记数据时出错。C 错误:第 3 行中预期有 32 个字段,锯 35

关于将这些数据读取到python中的最佳实践有什么想法吗?

这意味着文件

CSV 文件在第 3 行具有不同的布局。您可以使用选项"error_bad_lines"忽略第三行。此外,我在您的示例数据中看不到逗号。它可能是一个标签?

 df_total = pd.read_csv(csvfile, sep=",", error_bad_lines=False)

请注意,当使用 error_bad_lines=False 时,将删除违规行。如果您不想忽略坏行,请调查为什么第 3 行具有不同的列数

相关内容

最新更新