问题:To classify the user product as banned or approved
。
如果产品包含"濒危物种"、"虎皮"等禁用词,则将被标记为禁用。
- 输入:标题+产品描述
- 相应标签:批准/禁止
我使用监督学习算法多项式NB对产品进行分类,它给出了92%的双元准确率。
但我有一个问题,就是"虎皮"产品被批准的分类错误。原因是我们有很多"虎皮花岗岩/虎皮对虾"的产品被标记为已批准。
为了解决这个问题,我想创建一些规则以及多项式NB算法,以改进这些错误分类。
规则应该是这样的:-如果关键词"老虎"附近3/4个单词也有花岗岩/对虾,那么标记/认为它是批准的。
请帮我一下。我该怎么做。
您可能想尝试使用另一种类型的分类器,例如GradientBoostedClassifier
,它可以捕获变量之间的交互;这可能会解决你的问题。否则,您可以只使用正则表达式来实现您的自定义规则:
import re
if re.search(tiger (w+ ){0,4}(prawn|granite),text):
return 'allowed'