我正在尝试使用在线教程自学python和自然语言处理
http://www.nltk.org/book/ch01.html#sec-自动自然语言理解
在每一节的结尾,他们都会给出练习题,在第一节中,除了一个,我已经完成了所有的练习题。这一次真的难倒了我。
在nltk中,有一个名为set()的函数,它给出了一个列表中所有vocab的集合,其中删除了所有重复的单词。
我们一直在使用集合来存储词汇。尝试以下Python表达式:set(sent3)<设置(文本1)。尝试使用不同的参数来设置()。它做什么?你能想出一个实际的应用程序吗?
我一直在为set运行一些不同参数的代码,但在输出中看不到模式。有人知道是什么把一个集合归类为大于另一个集合吗?为什么这可能很重要?
谢谢!
对于集合,<
用于测试集合a是否是集合B的适当子集。例如,
In [147]: set('ab') < set('abc')
Out[147]: True
因为CCD_ 2是CCD_。相反,
In [149]: set('abc') < set('abc')
Out[149]: False
因为CCD_ 4不是其自身的适当子集。
此操作员记录在此处。
这不是子集的测试。我做了以下修改。
sent3 + ['manoj']
text1.count('manoj') # returns 0
set(sent3) < set(text1) # returns True but it is not a subset