数据目录不会自动从存储桶(GCS)中的文件中读取技术元数据



在Google数据目录中,我尝试创建一个新的条目组,然后创建一个文件集条目,其中配置了bucket和文件模式。我没有在文件集中故意定义架构,因为我希望数据目录能够自动在文件中/从文件中查找技术元数据。一切都是通过谷歌控制台UI设置的。

数据目录找不到与存储桶中的文件相关的元数据。但是,如果我将BigQuery表作为Pub/Sub主题,那么这些资源中的元数据会立即显示出来。

我希望DataCatalog能够扫描我们存储桶中的文件,并自动显示元数据(可搜索(。bucket中的文件是.avro、.json、.parquet或.csv。如前所述,这适用于BigQuery和Pub/Sub。我从文档中了解到,这也应该适用于云存储中的对象。

有人试过这个吗?请澄清一下这件事?

谢谢。

不幸的是,数据目录目前没有检测到有关GCS文件集内容的内部元数据。

在GCP平台上,您可以使用Dataplex,在那里您需要创建lake->区域->资产和资产类型,您可以选择作为GCS存储桶并将该存储桶附加到资产。

按以下方式将数据放入GCS存储桶/表名/分区=1/filename.csv

Dataplex具有发现作业,这些作业将为您获取元数据,并将其发布到DPMS或BigQuery或两者。

相关内容

  • 没有找到相关文章

最新更新