提交 C# MapReduce 作业 Windows Azure HDInsight - 响应状态代码不指示成功:500



我正在尝试向HDInsight集群提交MapReduce作业。在我的工作中,我没有写减少部分,因为我不想减少任何东西。我想做的只是解析每个文件名并将值附加到文件中的每一行。这样我就可以在文件中拥有所需的所有数据。

我的代码是

using Microsoft.Hadoop.MapReduce;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
namespace GetMetaDataFromFileName
{
    class Program
    {
        static void Main(string[] args)
        {
            var hadoop = connectAzure();
            //Temp Workaround to Env Variables
            Environment.SetEnvironmentVariable("HADOOP_HOME", @"c:hadoop");
            Environment.SetEnvironmentVariable("Java_HOME", @"c:hadoopjvm");
            var result = hadoop.MapReduceJob.ExecuteJob<MetaDataGetterJob>();
        }
        static IHadoop connectAzure()
        {
            //TODO: Update credentials and other information
            return Hadoop.Connect(
                new Uri("https://sampleclustername.azurehdinsight.net//"),
                "admin",
                "Hadoop",
                "password",
                "blobstoragename.blob.core.windows.net", //Storage Account that Log files exists
                "AccessKeySample", //Storage Account Access Key
                "logs", //Container Name
                true
                );
        }
        //Hadoop Mapper
        public class MetaDataGetter : MapperBase
        {
            public override void Map(string inputLine, MapperContext context)
            {
                try
                {
                    //Get the meta data from name of the file
                    string[] _fileMetaData = context.InputFilename.Split('_');
                    string _PublicIP = _fileMetaData[0].Trim();
                    string _PhysicalAdapterMAC = _fileMetaData[1].Trim();
                    string _BootID = _fileMetaData[2].Trim();
                    string _ServerUploadTime = _fileMetaData[3].Trim();
                    string _LogType = _fileMetaData[4].Trim();
                    string _MachineUpTime = _fileMetaData[5].Trim();
                    //Generate CSV portion
                    string _RowHeader = string.Format("{0},{1},{2},{3},{4},{5},", _PublicIP, _PhysicalAdapterMAC, _BootID, _ServerUploadTime, _LogType, _MachineUpTime);
                    //TODO: Append _RowHeader to every row in the file.
                    context.EmitLine(_RowHeader + inputLine);
                }
                catch(ArgumentException ex)
                {
                    return;
                }
            }
        }
        //Hadoop Job Definition
        public class MetaDataGetterJob : HadoopJob<MetaDataGetter>
        {
            public override HadoopJobConfiguration Configure(ExecutorContext context)
            {
                //Initiate the job config
                HadoopJobConfiguration config = new HadoopJobConfiguration();
                config.InputPath = "asv://logs@sample.blob.core.windows.net/Input";
                config.OutputFolder = "asv://logs@sample.blob.core.windows.net/Output";
                config.DeleteOutputFolder = true;
                return config;
            }
        }
    }
}

通常你认为500(服务器错误)的原因是什么?我是否提供了错误的凭据?实际上我并不真正了解Hadoop.Connect方法中用户名和HadoopUser参数之间的区别?

谢谢

我过去遇到过大致相同的问题(无法使用 BadGateway 响应向集群提交 hive 作业)。我已经联系了支持团队,在我的情况下,问题出在头节点的内存泄漏中,这意味着问题不在客户端,似乎是遗传的Hadoop问题。

我已经通过重新部署集群解决了这些问题。您是否尝试过提交其他工作(简单的工作)?如果是这样,那么我建议与 azure 支持团队联系,或者只是重新部署群集,如果这对你来说不痛苦的话。

相关内容

  • 没有找到相关文章

最新更新