将'improper' HTML 表格转换为机器可读的内容



我需要将数千个"迷你表"复制到CSV中。从本质上讲,每个"迷你表"实际上都应该是CSV表中的一行。问题是,来自网站的代码看起来像这样:

<li class="searchResult"> <div> <strong> <a href="www.link.com/">Junior Sales Rep</a> </strong> 
</div> <div class="tableTable"> <div class="tableRow"> <div class="tableCell"> Date of notification: 2022-09-23 <br> End date of waiting period: 2022-09-28 <br> Company Name <br> Toronto (Ontario) 
</div> <div class="tableCell"> PB-78 <br> Selection process: <span>22-563-ZB-B7S/span> </div> 
</div> </div> <div> <br><strong> Name of person being considered: </strong> Samuel Adams </div> <hr class="searchJobHrLine"> </li>

仅凭您的专业知识,这是否需要自定义大量代码来抓取并转换为CSV,或者有现成的方法吗?我曾考虑使用Beautiful Soup,但在我继续之前,我希望有一个聪明人来指导我应该采取的方向,或者如果这是一个失败的原因?

怎么样:

  1. 在浏览器中查看网页
  2. 将文本复制到Sublime或VScode等代码编辑器中
  3. 使用多行选择(或"高光标"(将光标放在每行的末尾(或开头(
  4. 在每行末尾加一个逗号,然后删除换行符
  5. 如果表之间已经有一个额外的换行符,那么您就有了记录分隔符(您可能需要删除一些逗号(。或者,您可能必须找到数据的某个部分,您可以找到/替换该部分以添加换行符

我最终成功地使用了BS4。

相关内容

  • 没有找到相关文章

最新更新