Tensorflow TFDV 不适用于特定 NaN 值



我正在使用Tensorflow数据验证从数据中生成统计信息,并推断出要在TFX中输入的模式。

我没有找到任何指定 NaN 值的选项,例如,在熊猫中有一个字段"na_values",可以在其中指定读取数据时将被视为 NaN 的值。

我查看了整个TFDV文档,但没有找到。

tfdv.generate_statistics_from_csv(
    data_location,
    column_names=None,
    delimiter=',',
    output_path=None,
    stats_options=options.StatsOptions(),
    pipeline_options=None
)

选项。StatsOptions() 是用于生成统计信息的选项,例如sample_count、sample_rate等...

对我来说,读取数据处理缺失值是没有意义的,将数据保存为 csv 或 TFRecord 并在导入 TFDV 后生成统计信息。

在 TFDV 0.13.0 中,可以使用tfdv.generate_statistics_from_dataframe方法从熊猫数据帧生成统计信息。如果数据适合内存,则可以使用pandas.read_csv方法读取 CSV 文件(通过指定na_values),然后使用上述方法生成统计信息。

最新更新