何时使用Word2vec和单词袋



我仍然不确定何时使用word2vec,何时依赖单词袋。例如,如果我想开发一个以文本为输入并为每个输入输出一个聚类的文本聚类模型,我应该关心单词表示并使用word2vec,还是应该依赖单词袋并将输入文本视为文档?请与我分享更多的阅读和理解资源;我对文本预处理和聚类非常感兴趣,我想尽我所能了解它

此外,如果我想使用k-Means进行聚类,我应该分割数据吗?还是可以将整个数据集中处理?

没有硬性规定。一般来说,对于任何一组你认为合适的技术,&在你的技能/预算范围内,你会根据你的具体数据进行尝试;任务,并选择更好的。

(随着时间的推移,你可能会对某些情况产生一些模糊的直觉,在这些情况下,某些方法更有可能反映你任务的"基本"部分,但它们必须在StackOverflow的答案中传达,而不是所有的可能性。(

如果你尝试过特定的东西&对结果感到惊讶或失望,这可能会产生一个更容易回答的问题,你可以提供你的数据/任务的细节,&你尝试过的,&你的结果是什么,并询问具体的意外行为,或你想要纠正/改进的具体方面。

最新更新