加载(双)结构化txt文件，带有熊猫

我尝试将公共TXT文件加载到熊猫中的数据框架中，以稍后以德语执行名称实体识别。原始的TXT文件具有＃单词[date]的结构，其后是一个数字(句子中的位置(，一个单词和名称符合识别的名称，并且单词被选项卡分开。因此结构是：

text [21-03-1991] 1 Aufgrund O O 2 des O O # text [22-04-1993] 1 Aber O P

有任何人都知道如何将其纳入这种格式：

Aufgrund 0 0
des 0 0
Aber O P

新列中的每个＃最佳情况？

我想使用

pd.read_csv(...)

文本文件示例

text  [21-03-1991]    1   Aufgrund    O   O   2   des O   O   #   text    [22-04-1991]    1   Aber    O   P
text  [21-04-1992]    2   Aufgrund    O   O   3   des O   O   #   text    [22-04-1992]    1   Aber    O   P
text  [21-06-1993]    3   Aufgrund    O   O   5   des O   O   #   text    [22-04-1993]    1   Aber    O   P

import pandas as pd
# Reading tab separated text file
df = pd.read_csv("source.txt",sep='t')
df1 = df.iloc[:,[3,4,5]]
df1.columns = ['V1','V2','V3']
df2 = df.iloc[:,[7,8,9]]
df2.columns = ['V1','V2','V3']
df3 = df.iloc[:,[14,15,16]]
df3.columns = ['V1','V2','V3']
d_one = df1.append(df2, ignore_index=True)
final_df = d_one.append(df3, ignore_index=True)
print(final_df)

相关内容

最新更新

热门标签：