我正在尝试将我在熊猫中完成的一些数据预处理复制到张量流转换中。 我有几个CSV文件,我将它们与熊猫连接并聚合以生成训练数据集。现在,作为生产模型的一部分,我希望通过阿帕奇光束和张量流变换大规模完成这种预处理。但是,我不太清楚如何在那里重现相同的数据操作。让我们看一下两个主要操作:JOIN
数据集a
和数据集b
以生成c
并在数据集c
上按col1
分组。这在熊猫中将是一个非常简单的操作,但是在 apache 光束上运行的张量流变换中我将如何做到这一点?我是否使用了错误的工具来完成这项工作?那么什么是正确的工具呢?
您可以使用 Beam Dataframe API 进行连接和其他预处理,就像在 Pandas 中一样。然后,您可以使用to_pcollection
获取可以直接传递给 Tensorflow 转换操作的 PCollection,或将其另存为文件以供以后读取。
对于顶级功能(例如合并),需要做
from apache_beam.dataframe.pandas_top_level_functions import pd_wrapper as beam_pd
并使用beam_pd.func(...)
操作代替pd.func(...)
。