通常,我可以用transform
添加一个列描述,如下所示:
from transforms.api import Input, Output, transform
from utils import COLUMN_DESCRIPTIONS
@transform(
output=Output("/Shared/output"),
raw=Input("/Shared/raw_input")
)
def clean_table(raw, output):
raw = raw.dataframe()
output.write_dataframe(
raw,
column_descriptions=COLUMN_DESCRIPTIONS
)
我可以用transform_df
做类似的事情吗?
不幸的是,目前无法使用transform_df
输出列描述,因此必须使用transform
装饰器。这是因为transform_df
返回一个本机Spark DataFrame,它不支持列描述。
有关列描述的更多信息,请参阅Palantir关于列元数据的文档。