如何组合两个语料库



我有语料库corpus_1,两种大小都是1*3000,第一个语料库被描述为"标题",第二个语料库(corpus_1)被描述为标题的"文本"。我怎么能只在熊猫中制作最终语料库。例如:"corpus_final = 语料库 + corpus_1"

以下是使用 applyjoin 的解决方案:

df["final"] = df.apply(lambda x: "".join(
    [
        str(x.corpus),
        str(x.corpus_1)
    ]
), axis=1)

你描述的语料库变量称为字符串。在开发中,对字符串求和称为串联。要在python中连接两个字符串,您只需执行以下操作:

finalstring = string1 + string2

在熊猫中,您可以使用:

data = data["your column"].str.cat(new column, sep =" ")

最新更新