我有一个数据集,任务是多类分类。段向量代表文档,并且对CNN进行了建模。为此,我将数据集分为培训(75%(和测试(25%(。对于DOC2VEC,使用训练集。然后,剩余的数据(测试(为也分为CNN的2部分。但是,我的问题是,在DOC2VEC之后,我们可以使用CNN的所有数据吗?
您可以"在想要的任何地方使用所有数据。
,但是要进行分类步骤,如果您正在评估算法&Metaparameter,如果根据某些不影响分类器的培训/调整的持续数据计算,则对分类器对未来("尚未看到(数据的表现(尚未看到(数据的任何估计都会更好。
由于Doc2Vec
是一种无监督的算法,并且训练它的经典方式(每个文档具有唯一的ID(根本不会显示到该算法的分类标签,因此使用所有用于培训的文本都可以辩护模型步骤。
对于下游分类步骤(例如,您提到的" CNN"(,您会保留一些数据以进行准确的评估。也许如果这是一个学术项目,那将是您的练习/实验的终结。
但是,如果实际部署了系统,那么您很可能会使用所有数据来重新培训生产部署模型 - 放弃准确的评估,以换取未知的实际性能,但可能会改善实际尚未尚未看到输入。