获得退伍军人事务医院数据库友好列表的最佳方式



如果这不是讨论这个问题的合适论坛,我真诚地道歉,但我不确定去哪里或什么是最好的选择。

基本上,我试图找到一个数据库友好的退伍军人事务医院列表。我能找到的最接近的东西是www.va.gov/ocadmin/docs/CATB.pdf,因为它有我想要的所有信息:

  • 地区
  • 地址
  • 单独列中的城市
  • 单独列中的邮政编码
  • 设施#(也称为StationID)
  • VISN
  • 符号

我试过将PDF导出为CSV,但这完全是一场噩梦。所以,我很好奇是否有人对我如何完成这项任务有任何想法或见解。

首先,这里有一个CSV文件,包含在CATB.pdf中找到的数据。第一行包含列标题,文件的其余部分包含内容。

http://tmp.alexloney.com/CATB.csv

现在,更详细的解释。。。我取了你提供的链接到的PDF,使用Adobe Acrobat将其转换为HTML文档,然后我使用了很多正则表达式来解析文件并清理它。一旦文件被清理干净,我就可以编写一个程序来解析文件的其余部分,获取状态和区域,并将其全部输出到格式良好的CSV中。

希望对你有所帮助!

我相信PDFILL有一个选项,可以将PDF文件转换为Excell。一旦进入Excell,转换为CSV文件应该不会有任何问题。

最新更新