在大数据平台上'Near Real Time'从新闻 Web API 中提取数据的最佳方法



我有一个用例,第一步是将数据从新闻API或新闻聚合器API摄取到HDFS中。此数据获取将在NRT的基础上完成(例如每15分钟一次( 目前,我正在研究两种方法:

  1. 基于Python的解决方案。目前,它不是通用代码(。
  2. 基于Apache NiFi的框架。(但NiFi似乎在Hortonworks以外的其他发行版上存在一些兼容性问题(

如果能对一种独立于平台并且可以跨不同Hadoop发行版(Cloudera,HW等(使用的方法提出更多建议,那就太好了。

谢谢。

Apache NiFi绝对可以处理你的进程,它在Windows,MacOS和大多数Linux发行版上运行良好(我已经在Ubuntu,Redhat,CentOS,Amazon Linux和Raspbian上运行过它(。 它不需要Hadoop,但可以与Hortonworks或Cloudera Hadoop发行版一起使用。

我用NiFi构建了一个RSS查看器,它使用GetHTTP -> TransformXML -> PutFile获取,提取并将RSS保存到磁盘。 然后,NiFi监听浏览器请求,并使用HandleHttpRequest -> GetFile -> TransformXML -> HandleHttpResponse将RSS作为HTML表返回。

最新更新