如何使用 lwp 模块从 HTML 源文件中获取一个表



我是初学者。我想知道如何使用 LWP 模块从源 HTML 文件中获取一个表?是否可以将正则表达式与 LWP 一起使用?

您可以使用 LWP 获取网页的 HTML 源代码。最简单的方法是使用 LWP::Simple 中的 get() 函数。

my $html = get('http://example.com/');

现在,在$html中,您有一个包含HTML的文本字符串(可能是一个非常长的文本字符串(。您可以使用任何要从该字符串中提取数据的技术。

(提示:使用正则表达式来执行此操作可能是一个非常糟糕的主意。它将比你预期的要困难得多,而且可能非常脆弱。也许使用更好的工具 - 比如HTML::TableExtract。

use Web::Query::LibXML 'wq';
wq('https://www.december.com/html/demo/table.html')
    ->find('table th')
    ->each(sub {
        my (undef, $e) = @_;
        print $e->text . "n";
    });
__END__
Outer Table
Inner Table
CORNER
Head1
Head2
Head3
Head4
Head5
Head6
Little

最新更新