从HTML页面上的多个帖子中提取三个文本项为csv或类似的格式



我有几个html页面,每个页面都有一些遵循给定模式的帖子,其中包含许多不同的信息,其中包括一个识别良好的url和相关的名称和日期。我想在单独的列中生成一个包含日期+名称+ url的表,并忽略文档中的其余文本(包括数据和html格式)。

我在考虑使用OpenOffice和它的正则表达式函数这样做,但我不知道我将如何做从html到表的实际提取(我熟悉搜索和替换,但不确定有一种方法来做提取;关于如何从随机图像中提取文件名的问题Jan Dvorak的第三个评论

是否有一个好的方法来做这个文本提取,在OpenOffice或与任何其他工具?

是否有一个好的方法来做这个文本提取,在OpenOffice或与还有其他工具吗?

因为要解析HTML,所以使用HTML解析引擎会更容易。例如,在PHP中,您可以通过几行简单的代码从页面中提取所有链接或所有图像。

// Create DOM from URL or file
$html = file_get_html('path and file name');
// Find all images 
foreach($html->find('img') as $element) 
       echo $element->src . '<br>';
// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';

如果您有关于所提取的值以及它们如何存储在文件中的其他信息,则可以进一步改进。

相关内容

  • 没有找到相关文章

最新更新