使用Spark中的LSH在数据框架中的每个点上运行最近的邻居查询



我需要k最近的邻居,对于数据框架中的每个特征向量。我正在使用Pyspark的BucketedRandompoctionlShmodel。

用于创建模型的代码

brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)
model = brp.fit(data_df)
df_lsh = model.transform(data_df)

现在,如何在data_df中的每个点运行大约最近的邻居查询。

我尝试广播该模型,但出现了泡菜错误。另外,定义UDF访问该模型会给出错误Method __getstate__([]) does not exist

使用应使用 .approxSimilarityJoin

model.df_lsh(df_lsh, df_lsh)

相关内容

  • 没有找到相关文章

最新更新