我是初学者。我想知道如何使用 LWP 模块从源 HTML 文件中获取一个表?是否可以将正则表达式与 LWP 一起使用?
您可以使用 LWP 获取网页的 HTML 源代码。最简单的方法是使用 LWP::Simple 中的 get()
函数。
my $html = get('http://example.com/');
现在,在$html
中,您有一个包含HTML的文本字符串(可能是一个非常长的文本字符串(。您可以使用任何要从该字符串中提取数据的技术。
(提示:使用正则表达式来执行此操作可能是一个非常糟糕的主意。它将比你预期的要困难得多,而且可能非常脆弱。也许使用更好的工具 - 比如HTML::TableExtract。
use Web::Query::LibXML 'wq';
wq('https://www.december.com/html/demo/table.html')
->find('table th')
->each(sub {
my (undef, $e) = @_;
print $e->text . "n";
});
__END__
Outer Table
Inner Table
CORNER
Head1
Head2
Head3
Head4
Head5
Head6
Little