我想重置我的一个组(一个类讨论),但我想保留该讨论以供参考。帖子不多(可能有50条),我可以手工完成,但有没有办法通过谷歌应用程序脚本或python来完成?
我发现了一些可能性,但都不是用我熟悉的语言(尽管我可能会翻译):
此链接:http://saturnboy.com/2010/03/scraping-google-groups/
这个Perl代码:
#!/usr/bin/perl
# groups2csv.pl
# Google Groups results exported to CSV suitable for import into Excel.
# Usage: perl groups2csv.pl < groups.html > groups.csv
# The CSV Header.
print qq{"title","url","group","date","author","number of articles"n};
# The base URL for Google Groups.
my $url = "http://groups.google.com";
# Rake in those results.
my($results) = (join '', <>);
# Perform a regular expression match to glean individual results.
while ( $results =~ m!<a href=(/groups[^>]+?rnum=[0-9]+)>(.+?)</a>.*?
<br>(.+?)<br>.*?<a href="?/groups.+?class=a>(.+?)</a> - (.+?) by
(.+?)s+.*?(([0-9]+) article!mgis ) {
my($path, $title, $snippet, $group, $date, $author, $articles) =
($1||'',$2||'',$3||'',$4||'',$5||'',$6||'',$7||'');
$title =~ s!"!""!g; # double escape " marks
$title =~ s!<.+?>!!g; # drop all HTML tags
print qq{"$title","$url$path","$group","$date","$author","$articles"nn};
}
看看这个webapps问题和这个论坛讨论中提到的HTTrack实用程序。
注意,我假设您实际上并不想筛选和处理数据,而只是拥有一份讨论副本以供将来参考。
编辑:如果你真的想刮屏,你也可以这样做,但写一个脚本来做可能会占用大量时间。屏幕抓取更多的是从html文档中提取特定的数据片段,而不是抓取整个html文档。一个你可能需要截屏的例子是,如果你在看危险网站,想获取个人问题、他们的分值、谁答对了、他们在哪个游戏中出现等,以便插入数据库。