如何使用 lwp 模块从 HTML 源文件中获取一个表

我是初学者。我想知道如何使用 LWP 模块从源 HTML 文件中获取一个表？是否可以将正则表达式与 LWP 一起使用？

您可以使用 LWP 获取网页的 HTML 源代码。最简单的方法是使用 LWP：：Simple 中的 get() 函数。

my $html = get('http://example.com/');

现在，在$html中，您有一个包含HTML的文本字符串(可能是一个非常长的文本字符串(。您可以使用任何要从该字符串中提取数据的技术。

(提示：使用正则表达式来执行此操作可能是一个非常糟糕的主意。它将比你预期的要困难得多，而且可能非常脆弱。也许使用更好的工具 - 比如HTML：：TableExtract。

use Web::Query::LibXML 'wq';
wq('https://www.december.com/html/demo/table.html')
    ->find('table th')
    ->each(sub {
        my (undef, $e) = @_;
        print $e->text . "n";
    });
__END__
Outer Table
Inner Table
CORNER
Head1
Head2
Head3
Head4
Head5
Head6
Little

相关内容

最新更新

热门标签：