如果这不是讨论这个问题的合适论坛,我真诚地道歉,但我不确定去哪里或什么是最好的选择。
基本上,我试图找到一个数据库友好的退伍军人事务医院列表。我能找到的最接近的东西是www.va.gov/ocadmin/docs/CATB.pdf,因为它有我想要的所有信息:
- 地区
- 地址
- 单独列中的城市
- 单独列中的邮政编码
- 州
- 设施#(也称为StationID)
- VISN
- 符号
我试过将PDF导出为CSV,但这完全是一场噩梦。所以,我很好奇是否有人对我如何完成这项任务有任何想法或见解。
首先,这里有一个CSV文件,包含在CATB.pdf中找到的数据。第一行包含列标题,文件的其余部分包含内容。
http://tmp.alexloney.com/CATB.csv
现在,更详细的解释。。。我取了你提供的链接到的PDF,使用Adobe Acrobat将其转换为HTML文档,然后我使用了很多正则表达式来解析文件并清理它。一旦文件被清理干净,我就可以编写一个程序来解析文件的其余部分,获取状态和区域,并将其全部输出到格式良好的CSV中。
希望对你有所帮助!
我相信PDFILL有一个选项,可以将PDF文件转换为Excell。一旦进入Excell,转换为CSV文件应该不会有任何问题。