在处理大约100GB文件大小的巨大文件时,有时我们需要检查前几行/后几行(头行和尾行(。
简单的选择是使用在本地下载整个文件
gsutil cp gs://bucket_name/file_name .
然后使用头/尾命令来检查头/尾行,这是不可行的,因为从云中提取数据将耗费时间和相关成本。
这与执行-相同
gsutil cat gs://bucket_name/file_name | head -1
另一种选择是在GCP表中创建外部表,或者在datastudio中可视化它们,或者从dataproc cluster/VM读取。
有没有其他快速选项可以从云存储中检查收割台/拖车线路?
gsutil cat -r
是这里的关键。
它只输出对象的指定字节范围。偏移从0开始。
例如。要从文件中返回从第10位到第100位的字节:
gsutil cat -r 10-100 gs://bucket_name/file_name
返回从第100位到文件末尾的字节:
gustil cat -r 100- gs://bucket_name/file_name
要从文件中返回最后10个字节:
gsutil cat -r -10 gs://bucket_name/file_name