数据帧的剂量元数据有助于构建 ML 算法的特征



最近,一位潜在雇主给了我一项任务,要做以下事情:

- transfer a data set to S3
- create metadata for the data set
- creat a feature for the data set in spark

现在这是一个实习生职位,就概念而言,我对数据工程很陌生,我很难理解如何甚至是否使用元数据来创建特征。

我浏览过许多特征工程和元数据方面的网站,但没有一个真正让我了解元数据是否直接用于构建功能。

到目前为止,我从站点收集到的是,当您构建特征时,它会从给定数据集中提取某些列,然后将此信息放入特征向量中以供 ML 算法学习。所以对我来说,你可以直接从数据集构建一个功能,而不用关心元数据。

但是,我想知道使用元数据在多个数据集中搜索给定信息以构建该功能是否常见,即您在元数据文件中查看某些条件 适合您的构建的特征,然后从元数据加载数据并从那里构建特征以训练模型。

举个例子,假设我有多个文件或某些用于制造的汽车模型,即(大众高尔夫、大众福克斯等(,它包含该年的汽车年份和价格,我希望 ML 算法预测汽车未来的折旧或该车最新型号的折旧未来几年。您不是直接遍历所有数据集,而是检查某些属性的元数据(标签,如果措辞正确(以训练模型,然后通过使用 (标签( 从特定数据集加载数据。

我很可能在这里偏离了基础,或者我上面给出的例子可能是完全错误的,但如果有人可以解释如何使用元数据来构建功能,如果可以的话,那会被理解,或者即使链接到数据工程网站解释。在过去的一两天研究中,我发现数据原文如此比数据工程本身更多,而且大多数数据工程信息都来自博客,所以我觉得在阅读它们时应该有一个预先存在的知识。

P.S虽然不是编码问题,但我使用了python标签,因为似乎大多数数据工程师都使用python。

我将对此进行概要!! 这里我们需要了解两个条件 1(我们是否有与构建ML模型直接相关的特征。 2(我们是否处于数据稀缺状态? 总是提出一个问题,问题陈述在生成特征时建议我们做什么? 我们有很多方法可以从给定的数据集生成特征,如PCA,截断SVD,用于降维技术的TSNE,其中从给定的特征创建新特征,特征工程技术,如傅里叶特征,三角特征等,然后我们移动到元数据,如特征类型,特征大小,提取时间(如果有(等。像这样的元数据还可以帮助我们创建用于构建 ML 模型的特征,但这取决于我们如何对相应问题的数据语料库执行特征工程。

最新更新