这代表了NLP的哪些特征选择技术



我有一个来自NLP的技术文档数据集

my dataset has60,000记录

30000数据集中的特征

,其值为单词/特征出现的重复次数

下面是数据集

的一个示例
RowID       Microsoft  Internet  PCI  Laptop  Google  AWS  iPhone  Chrome
1              8          2       0      0      5      1      0       0
2              0          1       0      1      1      4      1       0
3              0          0       0      7      1      0      5       0
4              1          0       0      1      6      7      5       0
5              5          1       0      0      5      0      3       1
6              1          5       0      8      0      1      0       0
-------------------------------------------------------------------------
Total          9,470     821      5     107     4,605  719    25      8
Appearance

有一些单词的出现时间小于10整个数据集的时间

该技术是只选择在数据集中出现的单词/特征超过一定数量(例如100)

这个技术叫什么?一种只使用出现总数超过一定数量的特征。

这种特征选择技术相当微不足道,所以我不认为它有一个特别的名字,除了一些直观的东西,比如"低频特征过滤",">k-出现特征过滤";top k-occurrence feature selection&;在机器学习的意义上;和"频项滤波";和"稀有词删除";在自然语言处理(NLP)意义上。

如果你想使用更复杂的特征选择方法,我建议你研究各种可用的监督和非监督方法。Cai等人[1]提供了一个全面的调查,如果您无法访问文章,那么这个页面由JavaTPoint涵盖了一些有监督的方法。在网上快速搜索有监督/无监督的特征选择也会产生许多好的博客,其中大多数都使用了sciPyskleanPython库。

引用

[1]蔡军,罗军,王胜,杨生,2018。机器学习中的特征选择:一个新的视角。神经计算,300,pp.70-79.

最新更新