我正在Hadoop MapReduce框架上开始实现KMeans算法。在这方面,我使用的是亚马逊网络服务提供的弹性MapReduce。我想创建一个HDFS文件,将初始集群坐标保存在上面,并将减速器的最终结果存储在上面。我在这里完全弄糊涂了。是否有创建或"上传"这个文件到HDFS格式,以便所有映射程序都能看到。
对此有任何澄清吗?
谢谢。
最后我了解了如何做到这一点。因此,为了将HDFS文件上传到集群中。您必须通过腻子(使用安全密钥(连接到集群。
然后写下这些命令
hadoop distcp s3://bucket_name/data/fileNameinS3Bucket HDFSfileName
与fileNameinS3Bucket是s3存储桶中文件的名称HDFSfileName是我上传时你想给你的文件命名的名称。
检查文件是否已上载hadoop fs-ls