如何在不下载的情况下从AWS中的grib文件中提取数据



我希望访问一个grib文件,从云中提取参数(如温度等(,而无需在本地存储该文件。我听说这可以用cfgribneneneba API完成,但找不到任何示例文档(我在这里查看了源文档,但这不包括任何用于在云中访问的内容(。

根据使用pygrib的经验,我知道API将grib文件作为字节表示进行读取,而cfgrib似乎对其进行了类似的处理。经过一些研究和反复试验,我得出了以下代码,它试图读取文件的字节字符串表示:

导入boto3导入boto从botocore.config导入config来自botocore进口UNSIGNED导入pygrib进口cfgrib

if __name__ == '__main__':
# Define boto config
my_config = Config(
signature_version = UNSIGNED,
retries = {
'max_attempts': 10,
'mode': 'standard'
}
)

session = boto3.Session(profile_name='default')
s3 = session.resource('s3')
my_bucket = s3.Bucket('nbmdata')

# Get a unique key for each file in s3
file_keys = []
for my_bucket_object in my_bucket.objects.all():
file_keys.append(my_bucket_object.key)

# Extract each file as a binary string (without downloading)
grib_files = []
for key in file_keys:
s3 = boto.connect_s3()
bucket = s3.lookup('bucket') # Removed bucket name
key = bucket.lookup(key)
your_bytes = key.get_contents_as_string(headers={'Range' : 'bytes=73-1024'})
grib_files.append(your_bytes)

# Interpret binary string into pygrib
for grib_file in grib_files:
grbs = pygrib.open(grib_file)

这似乎几乎奏效了。我得到这个错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xee in position 7: invalid continuation byte

当我试图用cfgrib交换这个时,我也遇到了同样的错误。我在这里错过了什么?

我意识到您正在使用boto来使用特定的get_contents_as_string方法,但如果您只是试图获取字节,这会起作用吗?我认为bot方法试图解码为utf-8,所以可能需要指定encoding=None才能获得字节数组???

但在boto3中,我在不解码文件流的情况下使用它,然后打印每个文件的前50个字符。

grib_files = []
for key in file_keys:
response = boto3.client('s3').get_object(Bucket='nbmdata', Key=key)
grib_files.append(response['Body'].read())
for grib in grib_files:
print(grib[0:50])
b'GRIBx00x00x00x02x00x00x00x00x00x16xa7x7fx00x00x00x15x01x00x07x00x0ex01x01x01x07xe5x05x1bx03x00x00x00x01x00x00x00Qx03x00x009$xc5x00x00x00'
b'GRIBx00x00x00x02x00x00x00x00x00x16x8bxa8x00x00x00x15x01x00x07x00x0ex01x01x01x07xe5x05x1bx03x00x00x00x01x00x00x00Qx03x00x009$xc5x00x00x00'

如果你试图用utf-8解码这些,它会抛出与你收到的错误相同的错误。从这里开始,我不知道如何解码和处理,所以也许这有帮助????

试试这样的方法。我使用了AWS上托管的GEFS数据,效果很好。我相信AWS上也有nbmdata,可以在这里找到:https://registry.opendata.aws/noaa-nbm/.不需要任何帐户,因此只需将s3_object名称更改为您想要的文件的路径/文件名即可https://noaa-nbm-pds.s3.amazonaws.com/index.html

import pygrib
import boto3
from botocore import UNSIGNED
from botocore.config import Config
s3 = boto3.client('s3', config=Config(signature_version=UNSIGNED))
bucket_name = 'noaa-nbm-pds'
s3_object = 'path/to/filename'
obj = s3.get_object(Bucket=bucket_name, Key=s3_object)['Body'].read()
grbs = pygrib.fromstring(obj)
# this should print: <class 'pygrib._pygrib.gribmessage'>
print(type(grbs))

相关内容

  • 没有找到相关文章

最新更新