哪种方法最适合从文本数据回归



我有一堆与数值性能值相关的句子。

我想做两件事:

  • 基于新句子预测绩效
  • 找出哪些单词与高分具有最高相关性

从句子中提取功能的最佳方法是什么?有人可以建议我一种最适合上述模型的车型吗?

谢谢!查尔斯

ps:下线文本输入将与其他数值特征相结合以预测性能。

编辑:文本样本:

巴里是一个很棒的主人!他的位置非常好,巴里非常 善良帮助人。我会推荐他给我所有的朋友 前往阿姆斯特丹短途旅行!他的位置 公寓非常方便,可以通过电车轻松进入。只是 乘坐短暂的电车或几分钟的步行或骑自行车,我们是 家。感谢Barry如此美好的时光!祝你好运 再次感谢!

文本的所有数据分析的基本前提,以将句子转换为固定维空间中的向量,并使用您喜欢的方法进行回归。这可以通过几种方式完成:

单词袋

这是"传统"完成此任务的方法。如果您还可以用nltk来完成单词,这可能会更好。

深度学习

神经网络最近解决了许多任务。文本分析是其中之一。您可以查看https://github.com/ryankiros/skip-thoughts,或找到将句子转换为向量的RNN。但是,很难解释这些模型,因此发现哪些单词与高分相关。

最新更新