NLP-亚马逊评论特征提取



我正在处理amazon评论数据集。目标是提取每个产品的正面和负面特征。

例如:对于"这款产品的电池寿命很长"这句话,我想提取"电池"这个词作为一个积极的特征。

数据集包含以下字段:

审阅者ID-审阅者的ID,例如A2SUAM1J3GNN3B

asin-产品ID,例如0000013714

reviewerName-审核人的名称

有用-审查的有用性评级,例如2/3

审查文本-审查的文本

总体-产品评级

总结-审查总结

unixReviewTime-审核时间(unix时间(

审查时间-审查(原始(的时间

到目前为止,我将评论分为两个列表:positive_reviews和negative_reviews。

positive_reviews=所有评分>3的评论,negative_reviews=具有评级<3

我清理了文本并标记了它。之后,我提取了形容词后面的名词,希望这些特定的名词能成为我想要的特征。之后,我尝试使用聚类算法(k-means,DBSCAN(,希望它能创建一个组来表示我想要提取的特征。

结果一点也不好,我希望这里的人可能会有一个想法,让工作

您可能希望探索主题建模,而不是集群;这将让你从你的评论中提取出一般的主题。

这是一本指南。

最新更新