我们可以从博客或论坛中为网络抓取项目提取什么样的数据



我即将进行一个关于"分析博客或论坛中的数据"的项目,所以我想知道我们可以从博客或论坛提取什么样的数据,以及我应该如何开始

首先,您应该决定使用哪种编程语言。然后,你应该考虑使用刮网器。

不同的编程语言有不同的程序。对于Java,例如有jsoup。

至于可以获得什么数据,你必须首先考虑页面的格式。但我建议收集的数据包括:

用户名现场照片与用户名相关的数据(加入日期、帖子数量、高级会员状态、照片、电话号码、电子邮件地址、全名、地址等(如适用)),博客文章的标题,论坛上提出的问题,每个问题的答案数,博客文章中的打字,日期相关信息。

最新更新