我想了解训练持续时间是否由文档编号决定?假设 100 个文档需要 4 小时,而 200 个文档需要 8 小时?我在实践中没有看到这种线性关系。
目前训练时间不直接取决于数据集大小或标签。我们在后端的培训有很多组件。其中一些取决于数据集大小,而另一些则不依赖于数据集大小。然而,总体的最终结果是,最长的极点决定了最终的训练时间,这通常不直接取决于数据集的大小。
在一个例子中,我们看到公共 Kaggle 数据集 HappyDB 花费了 3.5 小时的训练时间,其中包含大约 12,000 个项目。