将txt文件读取到带有特定行终止符(行)符号的pandas-df



我有一个巨大的txt文件(超过90000行(,我想在pandas-df中作为单列读取,并且我有一种特定的符号来标记每行/每行的末尾I.d.

到目前为止,我已经尝试过:df = pd.read_csv(fic, sep='t', lineterminator='‡', header = None, encoding="utf-8")

输出确实是一个df,但它跳到第(3932(行,就好像第一个在那里存在一样。事实并非如此,因为以前有很多(>2000(†。

所需的输出将类似于:

索引 Text_initial
1 Lorem ipsum dolor sit amet,consectetur adipiscing elit
Ut enim ad minim veniam
2 Sed do eiusmod tempor incidicount ut labore et dolore magna aliqua
被判有罪的人是一个不称职的官员

由于lineterminator='‡'似乎不适合我,我发布了一个"典型的";解决方法

正在读取txt文件,

with open('corpus.txt') as f:
    corpus = f.read()

在我的";分离器";然后将其分配/读取到df等。

corpus_segm = corpus.split("‡")

附言:我仍然很好奇lineterminator是否会起作用。如果有人有什么建议,请随时发表评论。

最新更新