TensorFlow.记录文件在导致性能问题之前可以有多大



在TensorFlow对象检测API中,如果数据集包含"数千个以上的示例",他们主张进行分片,注意:

  • tf.data.Dataset API可以并行读取输入示例,从而提高吞吐量
  • tf.data.Dataset API可以使用分片文件更好地对示例进行混洗,这略微提高了模型的性能

几千有点模糊,最好有一个更精确的答案,比如文件大小。换言之,在一个.record文件开始导致性能问题之前,它能有多大?在对数据进行分片时,我们的目标文件大小应该是多少?

TensorFlow团队似乎建议使用约100MB的碎片。https://www.tensorflow.org/guide/performance/overview您还可以在培训时考虑与批量大小相关的性能影响。https://www.pugetsystems.com/labs/hpc/GPU-Memory-Size-and-Deep-Learning-Performance-batch-size-12GB-vs-32GB----1080Ti-vs-Titan-V-vs-GV100-1146/

最新更新