我有一个巨大的txt文件(超过90000行(,我想在pandas-df中作为单列读取,并且我有一种特定的符号来标记每行/每行的末尾I.d.‡
。
到目前为止,我已经尝试过:df = pd.read_csv(fic, sep='t', lineterminator='‡', header = None, encoding="utf-8")
输出确实是一个df,但它跳到第(3932(行,就好像第一个在那里存在一样。事实并非如此,因为以前有很多(>2000(†。
所需的输出将类似于:
索引 | Text_initial |
---|---|
1 | Lorem ipsum dolor sit amet,consectetur adipiscing elit Ut enim ad minim veniam |
2 | Sed do eiusmod tempor incidicount ut labore et dolore magna aliqua 被判有罪的人是一个不称职的官员 |
由于lineterminator='‡'
似乎不适合我,我发布了一个"典型的";解决方法
正在读取txt文件,
with open('corpus.txt') as f:
corpus = f.read()
在我的";分离器";然后将其分配/读取到df等。
corpus_segm = corpus.split("‡")
附言:我仍然很好奇lineterminator
是否会起作用。如果有人有什么建议,请随时发表评论。