ML . net算法,用于预测一个集合中的短文本与另一个集合中的短文本之间的对应关系



我有两组数据,由一个简短的文本标识,它们的名称加上一些小的添加。每个项目从一组有另一个记者在另一组项目,根据名字和一些小转换。

但是两个集合中的一些项目之间没有任何联系。但是基于现有的链接,我可以训练一个机器学习模型来预测和建议从这两个集合中相互关联的项目。

因此,作为输入,它应该从一个集合和整个集合中获取一个项目的名称,并尝试从该集合中找到与提供的项目最匹配的项目。

但是我被困在弄清楚该使用什么算法。也许我可以遍历集合中的每一项,计算它的名称与引用名称的相似度,然后使用相似度最高的项。也许应该根据相似度来排序。

如果相似度算法可以在。net中使用,那将是很有用的。

听起来你的问题需要一个无监督算法。(我假设您没有标记数据来识别您的集合中的匹配案例)。

也许像K-Means这样的聚类算法会有所帮助。这就像你描述的"相似度"算法。