加载斯坦福 NLP 模型时 AWS EMR 上出现"HTTPConnectionPool(host='127.0.0.1', port=9000): [Errno 111] Connection



我在一个算法中使用Stanford CoreNLP模型,该算法包括一个到服务器的Java客户端(StanfordCoreNLPClient(,以便通过命令行或其web服务与用Java编写的CoreNLP进行交互。因此,Stanford CoreNLP开发了一个名为Stanza的Python包,其中包括一个对Stanford CoreNLP服务器进行请求的API。

该模型在笔记本电脑上运行良好;在我的个人电脑上然而,我没有设法在AWS EMR集群上安装stanza,我总是有以下错误无法处理:

在此处输入图像描述

因此,我尝试使用另一个python包来使用Stanford CoreNLP服务器,而我唯一能在我的AWS EMR上简单安装的是PyNLP(https://github.com/sina-al/pynlp),这是新浪为Stanford CoreNLP提供的Python包装。同样,它在笔记本电脑和我的个人电脑上都能很好地工作,但这次我设法在电子病历集群上安装了它(pypi库(但是,每当我启动StanfordCoreNLP对象时,我都会得到以下错误:;HTTPConnectionPool(主机='27.0.0.1',端口=9000(:url超过了最大重试次数:/?properties=%7B%22序列化程序%22%3A+%22 edu.stanford.nlp.pipeline.ProtobufAnnotationSerializer%22%2C+%22 outputFormat%22%3C+%22序列化的%22%2C+%22注释器%22%3A+%22实体%22%7D(由NewConnectionError引起("<urlib3.connection.HTTPConnection对象位于0x7f6face84110>:无法建立新连接:[Erno 111]连接被拒绝"(">。。。我真的不明白为什么,最重要的是为什么它能在笔记本上工作;不在AWS EMR上。

作为参考,我能够通过在AWS EMR集群上运行的算法连接到互联网,因为我可以使用";请求";模块&do requests.get…运行良好。

有人能解释一下为什么我在AWS EMR上出现了这个错误,而不是在笔记本或我的个人电脑上吗?AWS EMR上的端口是否被阻塞?我该怎么做才能让它发挥作用

提前感谢您的宝贵帮助!!!

这个问题与我们正在使用的python请求一起出现。那些python请求被我们经常访问的域阻止了。需要使用scrapy而不是python请求。

相关内容

最新更新