python - PipeMapRed.waitOutputThreads():子进程失败，代码为1 - python - PipeMapRed.waitOutputThreads(): subprocess failed with code 1 小贝子编程网

最近，我想解析网站，然后使用BeautifulSoup过滤我想要的内容，并在hdfs中写入csv文件。

现在，我正在用BeautifulSoup过滤网站代码。

我想用mapreduce方法来执行它:

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.3.0-mr1-cdh5.0.2.jar 
-mapper /pytemp/filter.py 
-input /user/root/py/input/ 
-output /user/root/py/output40/

输入文件类似于kvs(PER LINE): (key, value) = (url, content)

内容，我的意思是:

<html><head><title>...</title></head><body>...</body></html>

filter.py文件:

#!/usr/bin/env python
#!/usr/bin/python
#coding:utf-8
from bs4 import BeautifulSoup
import sys
for line in sys.stdin:
    line = line.strip()
    key, content = line.split(",")
    #if the following two lines do not exist, the program will execute successfully
    soup = BeautifulSoup(content)
    output = soup.find()         
    print("Start-----------------")
    print("End------------------")

顺便说一句，我认为我不需要reduce.py来做我的工作。

然而，我得到错误信息:

Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:320)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:533)
at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61)
at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:430)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:342)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163)

这里是一个回复说这是内存问题，但我的输入文件只有3MB。http://grokbase.com/t/gg/rhadoop/13924fs4as/972-getting-error-pipemapred-waitoutputthreads-while-running-mapreduce-program-for-40mb-of-sizedataset

我不知道我的问题是什么。我找了很多东西，但还是不行。

我的环境是:

CentOS6
Python2.7
Cloudera CDH5

在这种情况下我会很感激你的帮助。

编辑日期:2016/06/24

首先，我检查了错误日志，发现问题是的值太多，无法解包。(也感谢@kynan的回答)

请举例说明原因

<font color="#0000FF">
  SomeText1
  <font color="#0000FF">
    SomeText2
  </font>
</font>

如果部分内容如上所述，则调用soup。find("font"， color="#0000FF")并赋值给输出。它会导致两个字体被分配到一个输出，所以这就是为什么错误太多的值无法解包

<<p> 解决方案/strong>
只要将output = soup.find()更改为(Var1, Var2, ...) = soup.find_all("font", color="#0000FF", limit=AmountOfVar)就可以正常工作了:)

此错误通常表示映射程序进程已死亡。要找出原因，请检查$HADOOP_PREFIX/logs/userlogs中的用户日志:每个作业有一个目录，每个容器有一个目录。在每个容器目录中都有一个文件stderr，其中包含发送到stderr的输出，即错误消息。

python - PipeMapRed.waitOutputThreads():子进程失败，代码为1

相关内容

最新更新

热门标签：