这代表了NLP的哪些特征选择技术

我有一个来自NLP的技术文档数据集

my dataset has60,000记录

有30000数据集中的特征

，其值为单词/特征出现的重复次数

下面是数据集

的一个示例

RowID       Microsoft  Internet  PCI  Laptop  Google  AWS  iPhone  Chrome
1              8          2       0      0      5      1      0       0
2              0          1       0      1      1      4      1       0
3              0          0       0      7      1      0      5       0
4              1          0       0      1      6      7      5       0
5              5          1       0      0      5      0      3       1
6              1          5       0      8      0      1      0       0
-------------------------------------------------------------------------
Total          9,470     821      5     107     4,605  719    25      8
Appearance

有一些单词的出现时间小于10整个数据集的时间

该技术是只选择在数据集中出现的单词/特征超过一定数量(例如100)

这个技术叫什么?一种只使用出现总数超过一定数量的特征。

这种特征选择技术相当微不足道，所以我不认为它有一个特别的名字，除了一些直观的东西，比如"低频特征过滤"，">k-出现特征过滤";top k-occurrence feature selection&;在机器学习的意义上;和"频项滤波";和"稀有词删除";在自然语言处理(NLP)意义上。

如果你想使用更复杂的特征选择方法，我建议你研究各种可用的监督和非监督方法。Cai等人[1]提供了一个全面的调查，如果您无法访问文章，那么这个页面由JavaTPoint涵盖了一些有监督的方法。在网上快速搜索有监督/无监督的特征选择也会产生许多好的博客，其中大多数都使用了sciPy和skleanPython库。

引用

[1]蔡军，罗军，王胜，杨生，2018。机器学习中的特征选择:一个新的视角。神经计算，300,pp.70-79.

相关内容

最新更新

热门标签：