我有两个不同行数的数据帧。它们都有一列作为文本。我的目标是比较它们,找到相似性,找到相似率,并将该分数添加到最终数据集中。比较来自df1的标题和来自df2的标题。这些文本行的位置不同。
df1
持续时间 |
| publish_start_date|
---|---|---|
129.33 | 走私者的逃亡… | 2021-10-29T10:21:…|
49.342 | 安切斯。成立 | 2021-10-29T06:00: |
69.939 | 由Diego Angel在… | 2021-10-29T00:33:… |
102.60 | Orange County sch | 2021-10-28T10:24: |
您要查找的是Cross Join
。通过这种方式,DF1
中的每一行都将与DF2
中的所有行连接,之后您可以应用一个函数来比较它们之间的相似性。