从谷歌云存储中的文件中读取前几行



在处理大约100GB文件大小的巨大文件时,有时我们需要检查前几行/后几行(头行和尾行(。

简单的选择是使用在本地下载整个文件

gsutil cp gs://bucket_name/file_name .

然后使用头/尾命令来检查头/尾行,这是不可行的,因为从云中提取数据将耗费时间和相关成本。

这与执行-相同

gsutil cat gs://bucket_name/file_name | head -1

另一种选择是在GCP表中创建外部表,或者在datastudio中可视化它们,或者从dataproc cluster/VM读取。

有没有其他快速选项可以从云存储中检查收割台/拖车线路?

gsutil cat -r

是这里的关键。

它只输出对象的指定字节范围。偏移从0开始。

例如。要从文件中返回从第10位到第100位的字节:

gsutil cat -r 10-100 gs://bucket_name/file_name

返回从第100位到文件末尾的字节:

gustil cat -r 100- gs://bucket_name/file_name

要从文件中返回最后10个字节:

gsutil cat -r -10 gs://bucket_name/file_name

相关内容

  • 没有找到相关文章

最新更新