这是我的第二个问题,所以,如果有任何错误,请道歉。
我的主要目标是从不同的电子商务网站收集数据,然后比较它们之间的数据。为此,我需要匹配来自不同网站的相同产品。由于不同的网站以不同的方式编写标题,我需要从标题中提取产品的属性以正确匹配。我使用scrapy收集了数据,但无法匹配来自不同网站的相同产品。
我的尝试:
首先,我收集品牌、型号等,然后以传统方式匹配标题中的品牌、型号等。但它不起作用,因为无法收集所有模型名称进行比较。另外,不同品类的产品属性是不同的,不相似。我正在尝试找到适用于各种产品的解决方案。可以学习和识别品牌,型号,属性(RAM,英寸,ROM,相机等(
我也尝试应用机器学习,但不了解哪种方法适合我的需求。大多数文本分类方法对类别进行分类,而不是提取属性。
我也读过马利特。 但不确定这是否能解决我的问题。还尝试了scikit-learn本教程。
来自不同网站的示例产品标题。三星银河S9加
- 三星Galaxy S9 Plus与免费无线充电器和5GB孟加拉链接数据 - pickaboo
- 三星银河S9加 - 基克沙
- 三星银河S9+ - 移动多坎
- 三星银河S9加 - 智能手机 - 6.2" - 6GB 内存 - 64GB ROM - 12 MP相机 - 淡紫色 - 达拉兹
请分享我如何以哪种方式是最好的方式解决这个问题。 如果可能的话,分享一些类似目标的链接或资源。
使用 sentence2vec 或 word2vec 库将文本转换为向量。之后使用向量之间的余弦相似性。
保留一些相似性的阈值,否则具有最大相似性值的向量将是匹配的乘积。
这就是您可以比较它们的方式。