我将Microsoft Azure ML用于某些文本分析目的,例如关键字提取,由于我的输入大小很大,我想知道ML包是否真的使用Hadoop(HDP)作为其底层?如果没有,如何将ML与Hadoop结合使用?
Mahout 有一些文本分析工具吗?
Microsoft Azure ML 不使用 hadoop。它使用自定义后端,该后端独立运行试验的每个模块(并在 DAG 允许时并行运行)。
Azure ML 不是一个包,而是一个设计工作室,用于创建和操作 ML 解决方案。
数据集的大小是多少?
Azure ML 目前支持大约 6GB 的数据用于训练。
如果需要对数据进行预处理,建议使用 hdinsight。这也是提取特定特征的好地方。对训练数据样本使用特征提取模块可以帮助确定关键列。
拥有大量数据从来都不是一件坏事。我建议将数据下采样到大约 512-1 演出的小卡盘。使用该数据大小确定准确性,然后向上扩展 2 倍或 3 倍,最多 6 次演出,看看您获得了多少准确性。