小贝子编程

使用Spark中的LSH在数据框架中的每个点上运行最近的邻居查询

本文关键字：运行最近查询邻居使用 LSH 中的数据框架 Spark apache-spark pyspark apache-spark-mllib apache-spark-sql
更新时间 : 2023-09-07
英文 : Using LSH in spark to run nearest neighbors query on every point in dataframe

我需要k最近的邻居，对于数据框架中的每个特征向量。我正在使用Pyspark的BucketedRandompoctionlShmodel。

用于创建模型的代码

brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)
model = brp.fit(data_df)
df_lsh = model.transform(data_df)

现在，如何在data_df中的每个点运行大约最近的邻居查询。

我尝试广播该模型，但出现了泡菜错误。另外，定义UDF访问该模型会给出错误Method __getstate__([]) does not exist

使用应使用 .approxSimilarityJoin

model.df_lsh(df_lsh, df_lsh)

最新更新

不能使标签固定在顶部的导航栏部分后，点击
在.net中实现一个API服务，向Apple Wallet发送后台通知
如何在React中创建动态表单
写入使用导入流链接模块或运行子进程或操作系统.系统命令吗?
如何通过http创建远程git存储库
如何在Background-image:url中调用vue.js对象
不能转义带有计时器的for循环
SQL Server 中的术语"列"和"字段"之间有什么区别？
如何在gradle多模块项目中创建可重用的任务?
如何结合RXJS后的结果?
SQL Row Count Over Partition By
Lombok:在构造函数中只生成几个参数的注释
复选框setTextPosition(TOP)不工作
CSRF验证失败.请求中止-即使添加了{% csrf_token %}
使用 psql 的复制语句时如何压缩数据？
如何在Flutter中更改键盘
FXMLLoader无法找到JavaFX类，但手动创建JavaFX创建工作
尝试用Intent解释Android Studio中的Java方法
"无法获取/api/items"
如何使用PowerShell确认系统初始化完成?
将值从文本框传递给actionlink
正确解析jobobject
如何使用Hedera JS SDK生成一组基于BIP-39种子短语和自定义派生路径的ECDSA密钥对?
Java 8流嵌套ForEach与不同的条件
如何对包含句点(.)的关键字进行语法高亮显示?
属性图像 URL 在类型 {} 上不存在
写一个约束来强制一个值至少出现一次
基于锚展开手风琴
React+Jest:每当我试图访问DOM属性(即:toHaveStyle)时，测试将永远挂起
如何在WPF中显示数据网格中的用户输入?

使用Spark中的LSH在数据框架中的每个点上运行最近的邻居查询

相关内容

最新更新

热门标签：