我正在使用Tensorflow数据验证从数据中生成统计信息,并推断出要在TFX中输入的模式。
我没有找到任何指定 NaN 值的选项,例如,在熊猫中有一个字段"na_values",可以在其中指定读取数据时将被视为 NaN 的值。
我查看了整个TFDV文档,但没有找到。
tfdv.generate_statistics_from_csv(
data_location,
column_names=None,
delimiter=',',
output_path=None,
stats_options=options.StatsOptions(),
pipeline_options=None
)
选项。StatsOptions() 是用于生成统计信息的选项,例如sample_count、sample_rate等...
对我来说,读取数据处理缺失值是没有意义的,将数据保存为 csv 或 TFRecord 并在导入 TFDV 后生成统计信息。
在 TFDV 0.13.0 中,可以使用tfdv.generate_statistics_from_dataframe方法从熊猫数据帧生成统计信息。如果数据适合内存,则可以使用pandas.read_csv方法读取 CSV 文件(通过指定na_values),然后使用上述方法生成统计信息。