如何从大文件中删除未知的、额外的数据值

我正在开发Python、TensorFlow、图像分类模型，在我的训练图像中，我有12611个图像，但在我的培训标签中，我只有12613个。(每个图像都有一个数字作为标题，这个数字对应于CSV文件中的相同数字以及该图像的附带信息(。

从这里开始，我需要做的就是简单地删除我没有图片的2个额外数据点。我如何编写代码来帮助完成此操作？

(如果代码告诉我哪些数据点是额外的，我可以手动从CSV文件中删除它们(

谢谢你的帮助。

这很简单，你可以尝试这样的方法(因为我不知道你是如何以及在哪里保存图像的，你可能需要更新代码来满足你的用例(：

dir_path = r'/path/to/folder/of/images'
csv_path = r'/path/to/csv/file'
images = []
# Get all images labels
for filename in os.listdir(dir_path):
images.append(int(filename.split('.')[0]))
# Read CSV
df = pd.read_csv(csv_path)
# Print which labels are extra
for i in df['<COLUMN_NAME>'].tolist():
if i not in images:
print(i)

相关内容

最新更新

热门标签：