小贝子编程

如何使用pyspark计算数据帧中两个文本列之间的相似性

本文关键字：文本两个之间相似性 pyspark 何使用计算数据帧 dataframe apache-spark pyspark
更新时间 : 2023-09-19
英文 : How to compute the similarity between two text columns in dataframes with pyspark?

我有两个不同行数的数据帧。它们都有一列作为文本。我的目标是比较它们，找到相似性，找到相似率，并将该分数添加到最终数据集中。比较来自df1的标题和来自df2的标题。这些文本行的位置不同。

df1

publish_start_date2021-10-29T10:21:…

持续时间	标题
129.33	走私者的逃亡…
49.342	安切斯。成立	2021-10-29T06:00：
69.939	由Diego Angel在…	2021-10-29T00:33:…
102.60	Orange County sch	2021-10-28T10:24:

您要查找的是Cross Join。通过这种方式，DF1中的每一行都将与DF2中的所有行连接，之后您可以应用一个函数来比较它们之间的相似性。

最新更新

两个主类的子类构造函数
Spring GET Rest - 原因：预期在路径 $ 中查找具有属性 ['id'] 的对象，但找到 'net.minidev.json.JSONArray'
应用程序指标发生了什么，例如进程使用的CPU在刮擦间隔prometheus中没有被刮擦
每个脚本发送GDoc / GSheet
apoc.col .zip()的一些奇怪的结果
unboundfield对象不可调用
在jQuery刀片文件中使用php larval helper函数
排序颜色，似乎不明白出了什么问题
在supabase的颤振sdk中，如何使用.contains("group_members"，[my_uid])之类的东西过滤流？
为什么我无法在 AWS API Gateway 中访问我的 REST API？
Roku RAF在连续播放视频时抛出错误
JSON的树层次图从SQL Server
GWT应用程序中的POST请求
Azure管道未运行
在Mac上的VS Code中包含Boost(未找到文件)
如何使用字典分离重复值和唯一值
每个keyIsDown对应一个函数
React在获取数据后不渲染数组
c++概念和转换问题
用于持有移动注册令牌的最佳数据结构
我怎么能得到Webpack解析JSX在我的index.js?
java.lang.IllegalArgumentException: API声明必须是接口
将ENI中继附加到cloudformation中的自定义安全组
我可以使用findFiles没有脚本标签的詹金斯声明式管道?
如何使用JPQL编写带有where子句的左连接
清理sphinx-doc原型类型
如何在AWS API网关前设置AWS应用程序负载均衡器
投影矩阵与全息透镜1上的PhotoCapture不可用
不能为所有连接的客户端更改标签的内容
p2p chat on python

如何使用pyspark计算数据帧中两个文本列之间的相似性

相关内容

最新更新

热门标签：