在一个项目中,有一个模块获取URL,并确定它是"电子商务"网站还是"非电子商务"网页。
我尝试了以下方法:
-
使用Apache mahout,分类:URL--->Take html dump--->通过a) 删除所有html标签
b) 删除停止词(也称为常用词),如CDATA、href、value、and、of、between等。
c) 训练模型,然后对其进行测试。
以下参数我已用于训练
bin/mahout训练分类器-i训练数据-o贝叶斯模型-类型贝叶斯-ng 1
测试:
/bin/mahout testclassifier
-d test-data
-m bayes-model
-type bayes -source hdfs -ng 1 -method sequential
准确率我得到73%和cbayes算法得到52%。
我正在考虑通过提取电子商务网站中的信息来改善预处理阶段,如"结账按钮"、"支付宝链接"、"价格/美元符号"、"货到付款"、"30天保证"等。
关于如何提取这些信息或任何其他预测网站为电子商务或非电子商务的方法,有什么建议吗?
我非常惊讶,您只需简单的html提取和贝叶斯分类器就可以获得如此好的准确性。
但你似乎走在了正确的轨道上,有了结账按钮和价格等功能。
这是我昨天在阅读Yandex:时发现的一篇论文
"查找或购买?产品评论与网店分类器"
这是关于如何区分这两个网站和他们使用的一些技术。他们还使用了支持向量机而不是朴素贝叶斯。