我们可以将所有数据集用于DOC2VEC和CNN吗?

我有一个数据集，任务是多类分类。段向量代表文档，并且对CNN进行了建模。为此，我将数据集分为培训(75％(和测试(25％(。对于DOC2VEC，使用训练集。然后，剩余的数据(测试(为也分为CNN的2部分。但是，我的问题是，在DOC2VEC之后，我们可以使用CNN的所有数据吗？

您可以"在想要的任何地方使用所有数据。

，但是要进行分类步骤，如果您正在评估算法＆amp;Metaparameter，如果根据某些不影响分类器的培训/调整的持续数据计算，则对分类器对未来("尚未看到(数据的表现(尚未看到(数据的任何估计都会更好。

由于Doc2Vec是一种无监督的算法，并且训练它的经典方式(每个文档具有唯一的ID(根本不会显示到该算法的分类标签，因此使用所有用于培训的文本都可以辩护模型步骤。

对于下游分类步骤(例如，您提到的" CNN"(，您会保留一些数据以进行准确的评估。也许如果这是一个学术项目，那将是您的练习/实验的终结。

但是，如果实际部署了系统，那么您很可能会使用所有数据来重新培训生产部署模型 - 放弃准确的评估，以换取未知的实际性能，但可能会改善实际尚未尚未看到输入。

相关内容