我需要下载一个存档的谷歌群组。例如,以下链接是该组的消息之一。https://groups.google.com/forum/#!主题/sci.aeronautics/ViFtpXfVm7M
问题是,我在浏览器中看到的内容不会出现在下载的网页中。
由于我的知识非常有限,在我看来,这背后的原因是这些内容是由java脚本动态创建的。或者,这些下载的文件具有所谓的"mbox"扩展名,该扩展名是加密的?
到目前为止我尝试了什么
首次试用
-
简单下载wgethttps://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M
-
带镜子wget—镜像https://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M
假设其已加密
-
使用cookie。wget--加载cookies=cookies.txthttps://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M
-
让雷鸟来设置我的gmail和开场白。没有正确打开
假设内容是javascript生成的
-
使用phantomJS下载https://askubuntu.com/questions/411540/how-to-get-wget-to-download-exact-same-web-page-html-as-browser
-
使用不同脚本的phantomJS下载https://gist.github.com/giocomai/247d54e097b5083e2451
使用Github提供的脚本
- https://github.com/henryk/gggd
- https://github.com/icy/google-group-crawler
但到目前为止没有一个不起作用。
有人能告诉我们如何下载这个页面,并将其消息作为可读的html或txt文件吗?
干杯AyyoSalli
您可以使用https://groups.google.com/forum/feed/sci.aeronautics/msgs/atom.xml?num=100以获得一些帖子,但在这种情况下,它只获得大约一半的帖子。它将所有主题的所有信息放在一起。在Firefox或Classic Opera中查看,以更人性化的形式直接查看。
但是,既然你说你已经得到了一个标准mbox格式的文件,那么它到底出了什么问题——你有没有试图将它导入本地安装的电子邮件或新闻客户端?(像雷鸟(