从HTML页面上的多个帖子中提取三个文本项为csv或类似的格式

我有几个html页面，每个页面都有一些遵循给定模式的帖子，其中包含许多不同的信息，其中包括一个识别良好的url和相关的名称和日期。我想在单独的列中生成一个包含日期+名称+ url的表，并忽略文档中的其余文本(包括数据和html格式)。

我在考虑使用OpenOffice和它的正则表达式函数这样做，但我不知道我将如何做从html到表的实际提取(我熟悉搜索和替换，但不确定有一种方法来做提取;关于如何从随机图像中提取文件名的问题Jan Dvorak的第三个评论

是否有一个好的方法来做这个文本提取，在OpenOffice或与任何其他工具?

是否有一个好的方法来做这个文本提取，在OpenOffice或与还有其他工具吗?

因为要解析HTML，所以使用HTML解析引擎会更容易。例如，在PHP中，您可以通过几行简单的代码从页面中提取所有链接或所有图像。

// Create DOM from URL or file
$html = file_get_html('path and file name');
// Find all images 
foreach($html->find('img') as $element) 
       echo $element->src . '<br>';
// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';

如果您有关于所提取的值以及它们如何存储在文件中的其他信息，则可以进一步改进。

相关内容

最新更新

热门标签：