如何使用pyspark计算数据帧中两个文本列之间的相似性



我有两个不同行数的数据帧。它们都有一列作为文本。我的目标是比较它们,找到相似性,找到相似率,并将该分数添加到最终数据集中。比较来自df1的标题和来自df2的标题。这些文本行的位置不同。

df1

publish_start_date2021-10-29T10:21:…
持续时间 标题
129.33 走私者的逃亡…
49.342 安切斯。成立 2021-10-29T06:00:
69.939 由Diego Angel在… 2021-10-29T00:33:…
102.60 Orange County sch 2021-10-28T10:24:

您要查找的是Cross Join。通过这种方式,DF1中的每一行都将与DF2中的所有行连接,之后您可以应用一个函数来比较它们之间的相似性。

最新更新