在html中保存网页内容的问题



我在推特上请求查找一段时间的推文。在那之后,我开始向下滚动页面到最后一次。接下来我将保存这个页面的html代码(右键单击->另存为…(。这个html文件中只显示最新的推文。如何将所有推文保存为html格式?

Twitter可能会动态添加到他们的html代码中或从中删除。很可能它使用了无限滚动和看似无穷无尽的页面。使用浏览器时,您只能看到所有推文的"快照",并且永远无法保存所有推文。我的证明或检查方法是使用浏览器的检查器,然后滚动。我从未尝试过,但在代码检查器中,您可以看到添加/删除或隐藏的内容。Javascript对您看到的内容和您可以保存为的内容负责。

使用Firefox Ctrl+Shift+C,我发现HTML代码标记为"aria label="Timeline:Your Home Timeline"。在它下面你可以找到可见的推文。当你滚动时,你只能看到那些可以保存在文件中的内容。这里只有11条推特。当您滚动时,会添加和删除一个数字,但只有一个减少的数字可用。

查看所有推文的唯一方法是,当推特允许您访问他们的推文数据库时,可能是通过程序员界面,但仍然会有太多推文无法全部保存。

最新更新