一组 3 名研究人员是否可以共享/汇集 Twitter API 代币来加速/改进情感分析项目的数据收集?



我们小组正在开展一个情感分析研究项目。我们正在尝试使用 Twitter API 来收集推文。目标数据集涉及大量查询词和过滤器。但是,由于我们每个人都有一个开发人员帐户,我们想知道是否可以汇集 API 访问令牌来加速数据收集。例如,我们将创建一个应用程序,允许我们定义一个配置文件,其中包含我们的访问令牌列表,该应用程序将尝试使用该令牌来搜索推文。此应用程序将在我们的本地计算机上运行。由于该应用使用我们的个人访问令牌,因此我们认为我们实际上并没有绕过或更改任何 Twitter 限制,因为每个访问令牌都会保留记录。这种方法是否可能产生任何法律/技术问题?谢谢!=D

这是我们尝试执行的操作的伪代码:

1. define a list of search terms such as 'apple', 'banana' 
and 'oranges' (we have 100 of these search terms, we are okay 
with the 100 limit per tweet)
2. define a list of frequent emotional adjectives such as 'happy', 'sad', 'crazy', etc. (we have have 100 of these) using TF-IDF
3. get the product of the search terms and emotional adjectives, 
in total we have 10,000 query terms and we have computed
through the rate limit rules that we would need at least 
55 runs of 15-minute sessions with 180 tweets per 15-minute. 
55 * 15 = 825 minutes or ~14 hours to collect this amount of tweets. 
4. we were thinking of improving the data collection by 
pooling access tokens so that we can trim down the time 
of collection from 14 hours to ~4 hours, e.g. by dividing the query items into subsets and letting a specific access token work on a subset  
We were pushing for this since we just think it's efficient if it's possible and permitted since why not and it might help future researches as well?

问题是,我们这样做真的违反了任何Twitter规则或政策吗?通过我们三个人每人共享一个访问令牌并创建一个我们命名为研究项目克隆的应用程序,我们相信反过来我们也失去了一些东西,这是我们完全控制的另一个应用程序的余地。

到目前为止,我在Twitter上找不到关于此的具体规则。我们关心的是,我们将发表一篇论文,并将发布我们将编程并用于文档的应用程序以及我们计划构建的应用程序。免责声明:由于 Twitter 关于数据集的明确规则,只会发布应用的源代码,而不是数据集。

根据 Twitter 开发者政策和协议,这是绝对不允许的。

推特开发者政策 5a:

请勿执行以下任何操作: 对多个用例使用单个应用程序 API 密钥,或对同一用例使用多个应用程序 API 密钥。

请随时直接通过开发者论坛与 Twitter 联系。StackOverflow并不是这个问题的最佳位置,因为它不是专门的编码问题。

最新更新