大熊猫基于一个符合条件的行将两个数据范围子集



我有两个dataframes。一个包含一长串不同语言的字符串,另一种包含第一种语言的标签。

train_data.head()
string
0   Klement Gottwaldi surnukeha palsameeriti ning ...
1   Sebes, Joseph; Pereira Thomas (1961) (på eng)....
2   भारतीय स्वातन्त्र्य आन्दोलन राष्ट्रीय एवम क्षे...
3   Après lo cort periòde d'establiment a Basilèa,...
4   ถนนเจริญกรุง (อักษรโรมัน: Thanon Charoen Krung...

和:

labels.head()
language
0   est
1   swe
2   mai
3   oci
4   tha

只能将两个数据范围用于仅使用西班牙语或英语的字符串的最佳方法?第二个数据框中的语言等于" en"或" es"。

您可以加入两个数据框架,例如:

joinedDf = train_data.join(labels)

然后

joinedDf[(joinedDf['language'] == 'en' )|(joinedDf['language'] == 'es' )]

应该只能获得英文和西班牙语文本。

最新更新