我想为我在dataiku项目中导入的所有表和列创建一个数据字典。
例如,在SAS中,有涵盖此类功能的SASHELP.VCOLUMN
和.VTABLE
。
是否有一种明智的方法可以在Dataiku中进行?
您是否应该在Data Dataiku内部或外部,我认为您应该使用Python API(可从Dataiku Notebook访问或使用Python客户端库
import dataiku
import json
# Listing project datasets
myproject = client.get_project('YOUR_PROJECT_NAME')
datasets = project.list_datasets()
for datasetName in project.list_datasets():
# get dataset object
dataset = myproject.get_dataset(' batting_postseason')
# dump dataset schema
json.dumps(dataset.get_schema())
由于您还可以在DSS之外安装此客户端API,这是对我来说最通用的方法,但要当心Dataiku还提供目录和公共API调用以索引Dataiku Connections,并在所有项目中检索统计信息,包括项目中尚未使用的项目。
编辑:
还有一个插件,称为"审核数据集"。这使您可以在不编码的情况下快速生成此类报告。