我需要k最近的邻居,对于数据框架中的每个特征向量。我正在使用Pyspark的BucketedRandompoctionlShmodel。
用于创建模型的代码
brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)
model = brp.fit(data_df)
df_lsh = model.transform(data_df)
现在,如何在data_df中的每个点运行大约最近的邻居查询。
我尝试广播该模型,但出现了泡菜错误。另外,定义UDF访问该模型会给出错误Method __getstate__([]) does not exist
使用应使用 .approxSimilarityJoin
model.df_lsh(df_lsh, df_lsh)