我正在研究InstaPaper API
我正在使用这个字符串来拉取文章的内容。
$Bookmark_Text = $connection->getBookmarkText($Bookmark['bookmark_id']);
不幸的是,它正在拉取整个 html,基本上将 HTML 结构放在我的 HTML 中。
例。
<html>
<head></head>
<body>
<html>
<head>Instapaper Title</head>
<body>InstaPaper Article Content</body>
</html>
</body>
</html>
关于如何获取"Instapaper文章内容"的任何想法
谢谢!
这里有一些JS代码,它只提取文章并删除Instapaper的内容(例如顶部和底部栏(。
html.replace(/^[sS]*<div id="story">|</div>[^<]*<div class="bar bottom">[sS]*$/gim, '');
请注意,它可能会随着 Instapaper 的 HTML 输出的变化而改变。
使用解析器提取<body>
的内容。PHP有一些内置的,但还有其他的可能更容易使用。
如果$Bookmark_Text
是有效的 HTML 文档,则应执行此操作。
$dom = new DOMDocument();
$dom->loadHTML($Bookmark_Text);
$body = $dom->getElementsByTagName('body')->item(0);
$content = $body->ownerDocument->saveHTML($body);