当我调查生成的 dtm 矩阵时,我发现除非设置设置为 False,否则标记是小写的。此外,带有下划线的单词在标记化之前被拆分。
当我查找文档时,我无法检索默认设置,或者如果没有提供显式控件,则使用了哪些设置。
我在哪里可以找到这个?
DocumentTermMatrix
的文档说"有关可用的本地控制选项,请参阅termFreq
"。
如果您这样做:
?termFreq
您将看到所有可能的默认值选项(其中包括您所指的"默认值tolower
"(。