r - 如何矢量化文本以将其用作时间序列预测的特征?(凯拉斯)



矢量化文本以将其用作时间序列预测的众多特征之一的最佳方法是什么?

时间序列是每天的,每个日期我有 8 到 10 个不同的新闻标题(总共 ~16,000 个标题)。每个标题最多包含 25 个单词。标题被清理(小写、标点符号和数字删除、停用词删除和词形还原)并在单词级别进行标记化。

如何矢量化标题并在每日级别上聚合它们,以便将它们用作输入功能?因为所有其他功能(例如联邦基金利率、黄金价格等)每个日期只是一个整数。

我想到使用单词嵌入。但是,仅在16,000个标题上训练单词嵌入模型(word2vec或GloVe)可能不会取得好的结果。但是,即使我使用预先训练的词向量,我也担心 R 中时间序列数据帧的列维数。由于单词向量是 100 维的,每个标题有 25 个单词,每个日期有 8-10 个标题,因此我的时间序列的维度将是 100x25x10 = 25,000 列和 1,700 行(1,700 天)。

那么,您对如何将新闻标题作为时间序列预测的功能有任何想法吗?如果有帮助,我计划使用 R 在 Keras 中实现一个 LSTM 神经网络来预测交易资产的趋势(上涨或下跌)。

非常感谢您的想法和建议。

多谢。

您可以使用 LSTM 来学习低维句子嵌入,将每个标题视为一个向量序列,并为每个标题生成更紧凑的特征空间。然后,您可以将每个标题的这些抽象特征用作第二个 LSTM 的输入特征,该 LSTM 现在学习日期随时间变化的时间特征。

您可以为低维词嵌入训练自己的模型。一旦学会了这些词嵌入。您可以将其与其他输入要素一起传递给下一个 LSTM。

最新更新