如何从大文件中删除未知的、额外的数据值



我正在开发Python、TensorFlow、图像分类模型,在我的训练图像中,我有12611个图像,但在我的培训标签中,我只有12613个。(每个图像都有一个数字作为标题,这个数字对应于CSV文件中的相同数字以及该图像的附带信息(。

从这里开始,我需要做的就是简单地删除我没有图片的2个额外数据点。我如何编写代码来帮助完成此操作?

(如果代码告诉我哪些数据点是额外的,我可以手动从CSV文件中删除它们(

谢谢你的帮助。

这很简单,你可以尝试这样的方法(因为我不知道你是如何以及在哪里保存图像的,你可能需要更新代码来满足你的用例(:

dir_path = r'/path/to/folder/of/images'
csv_path = r'/path/to/csv/file'
images = []
# Get all images labels
for filename in os.listdir(dir_path):
images.append(int(filename.split('.')[0]))
# Read CSV
df = pd.read_csv(csv_path)
# Print which labels are extra
for i in df['<COLUMN_NAME>'].tolist():
if i not in images:
print(i)

最新更新