交叉数据匹配算法(独立数据集)在R或任何机器学习平台



我有两个数据集。一个是合同的细节,另一个是组织的细节。例如:一个数据集有详细信息——公司名称、描述、公司类型。其他数据集有详细信息-合同名称,合同描述,CPV代码。我想要一个算法,1)给定一家公司,我们能否找到与该公司关系最密切或可能最有趣的前10个合同。2. 或者给定一份合同,我们能找到最有可能投标或赢得合同的公司吗?这可能是一个一次性的实时算法,用于将第一个数据集的一行与第二个数据集中的最佳匹配集群进行匹配。有可能在两个不同的数据集中做这种逐行交叉匹配吗?是否可以使用文本描述进行这种匹配?这将是很大的帮助,如果有人有代码示例。谢谢你!我还在这里附加了示例数据集。

公司数据

合同数据

你的问题实际上是"有人会免费为我做价值1万美元的数据科学吗?"你正在寻找的是一个推荐系统,更具体地说,是一个基于内容的过滤系统。为了使这些工作,你将不得不查看你的两个数据集,并开发可用于定量描述合同和客户的特征。如果您有组织感兴趣的以前合同的信息,您可以使用包含协作过滤方面的混合算法。

R有一个可以帮助你解决这类问题的包。我还没用过,但粗略地看一下,它似乎很结实。如果你想要一些更少选项的即插即用的东西,我建议你看看AzureML。它使用GUI界面来帮助指导用户完成数据科学过程,包括推荐教程。你也可以使用他们的一些文本分类器教程来帮助从包含自由格式文本的字段中设计功能。

祝你好运。

最新更新