我有一个来自NLP的技术文档数据集
my dataset has60,000记录
有30000数据集中的特征
,其值为单词/特征出现的重复次数
下面是数据集
的一个示例RowID Microsoft Internet PCI Laptop Google AWS iPhone Chrome
1 8 2 0 0 5 1 0 0
2 0 1 0 1 1 4 1 0
3 0 0 0 7 1 0 5 0
4 1 0 0 1 6 7 5 0
5 5 1 0 0 5 0 3 1
6 1 5 0 8 0 1 0 0
-------------------------------------------------------------------------
Total 9,470 821 5 107 4,605 719 25 8
Appearance
有一些单词的出现时间小于10整个数据集的时间
该技术是只选择在数据集中出现的单词/特征超过一定数量(例如100)
这个技术叫什么?一种只使用出现总数超过一定数量的特征。
这种特征选择技术相当微不足道,所以我不认为它有一个特别的名字,除了一些直观的东西,比如"低频特征过滤",">k-出现特征过滤";top k-occurrence feature selection&;在机器学习的意义上;和"频项滤波";和"稀有词删除";在自然语言处理(NLP)意义上。
如果你想使用更复杂的特征选择方法,我建议你研究各种可用的监督和非监督方法。Cai等人[1]提供了一个全面的调查,如果您无法访问文章,那么这个页面由JavaTPoint涵盖了一些有监督的方法。在网上快速搜索有监督/无监督的特征选择也会产生许多好的博客,其中大多数都使用了sciPy
和sklean
Python库。