如何确保 glob 命令"找到"我需要聚合的文件？

我正在尝试训练一个新的Tensorflow模型，需要将.xml文件聚合到一个.csv中。我找到了一个脚本来执行此操作，但它使用 glob 模块 - 我不熟悉的东西。

我正在寻求帮助来理解这段代码是如何工作的，以便我可以适当地调整它。

我正在从包含两个子目录的目录中执行.py，其中包含.jpg和.xml文件。

import os
import glob
import pandas as pd
import xml.etree.ElementTree as ET

def xml_to_csv(path):
xml_list = []
for xml_file in glob.glob(path + '/*.xml'):
tree = ET.parse(xml_file)
root = tree.getroot()
for member in root.findall('object'):
value = (root.find('filename').text,
int(root.find('size')[0].text),
int(root.find('size')[1].text),
member[0].text,
int(member[4][0].text),
int(member[4][1].text),
int(member[4][2].text),
int(member[4][3].text)
)
xml_list.append(value)
column_name = ['filename', 'width', 'height', 'class', 'xmin', 'ymin', 'xmax', 'ymax']
xml_df = pd.DataFrame(xml_list, columns=column_name)
return xml_df

def main():
image_path = os.path.join(os.getcwd(), 'annotations')
xml_df = xml_to_csv(image_path)
xml_df.to_csv('raccoon_labels.csv', index=None)
print('Successfully converted xml to csv.')

main()

运行代码没有问题 - 它创建了.csv文件，但由于标题下没有数据，我假设它找不到任何.xml文件。

你的glob电话写得不好。您需要要求它进入子文件夹

glob.glob(path + '**/*.xml')

发现问题！ "注释"文件夹需要重定向，这解决了它。

另外，找到了这个脚本的更好版本：https://github.com/EdjeElectronics/TensorFlow-Object-Detection-API-Tutorial-Train-Multiple-Objects-Windows-10/blob/master/xml_to_csv.py

相关内容

最新更新

热门标签：