如何匹配来自不同电子商务来源的标题中的产品? 提取产品的属性



这是我的第二个问题,所以,如果有任何错误,请道歉。

我的主要目标是从不同的电子商务网站收集数据,然后比较它们之间的数据。为此,我需要匹配来自不同网站的相同产品。由于不同的网站以不同的方式编写标题,我需要从标题中提取产品的属性以正确匹配。我使用scrapy收集了数据,但无法匹配来自不同网站的相同产品。

我的尝试:

首先,我收集品牌、型号等,然后以传统方式匹配标题中的品牌、型号等。但它不起作用,因为无法收集所有模型名称进行比较。另外,不同品类的产品属性是不同的,不相似。我正在尝试找到适用于各种产品的解决方案。可以学习和识别品牌,型号,属性(RAM,英寸,ROM,相机等(

我也尝试应用机器学习,但不了解哪种方法适合我的需求。大多数文本分类方法对类别进行分类,而不是提取属性。

我也读过马利特。 但不确定这是否能解决我的问题。还尝试了scikit-learn本教程。

来自不同网站的示例产品标题。三星银河S9加

  • 三星Galaxy S9 Plus与免费无线充电器和5GB孟加拉链接数据 - pickaboo
  • 三星银河S9加 - 基克沙
  • 三星银河S9+ - 移动多坎
  • 三星银河S9加 - 智能手机 - 6.2" - 6GB 内存 - 64GB ROM - 12 MP相机 - 淡紫色 - 达拉兹

请分享我如何以哪种方式是最好的方式解决这个问题。 如果可能的话,分享一些类似目标的链接或资源。

使用 sentence2vec 或 word2vec 库将文本转换为向量。之后使用向量之间的余弦相似性。

保留一些相似性的阈值,否则具有最大相似性值的向量将是匹配的乘积。

这就是您可以比较它们的方式。

相关内容

  • 没有找到相关文章

最新更新