PyArrow表:将ListArray列中的Struct强制转换为新的模式



我有一个parquet文件,在ListArray列中有一个结构体字段,其中结构体内字段的数据类型从int变为带有一些新数据的float。

为了将新旧数据结合起来,我一直在阅读活跃的&在pq.read_table中放入历史的拼花文件,然后使用pa.concat_table合并并写入新文件。

因此,为了在连接之前使两个表的模式兼容,我执行以下操作:

active = pq.read_table("pathtoactiveparquet")
active_schema = active.schema
hist = pq.read_table("pathtohistparquet")
hist = hist.cast(target_schema=active_schema)
combined = pa.concat_tables([active, hist])

但是在强制转换时我得到以下错误:

ArrowNotImplementedError: Unsupported cast from struct<code: string, unit_price: struct<amount: int64, currency: string>, line_total: struct<amount: int64, currency: string>, reversal: bool, include_for: list<item: string>, quantity: int64, seats: int64, units: int64, percentage: int64> to struct using function cast_struct

从这一点来看,我似乎不能做演员了。

所以我的问题是,我如何去合并这些数据集/我如何更新旧表上的模式?如果可能的话,我会尽量留在箭头/镶木地板的生态系统中。

不幸的是,将一个结构体转换为类似的结构体类型,但具有不同的字段类型尚未实现(参见https://issues.apache.org/jira/browse/ARROW-1888的功能请求)。

我认为目前唯一可能的解决方案是提取结构列,单独转换字段,从中重新创建结构列并更新表。

这个工作流的一个小例子,从下表的struct列开始:

>>> table = pa.table({'col1': [1, 2, 3], 'col2': [{'a': 1, 'b': 2}, None, {'a':3, 'b':4}]})
>>> table
pyarrow.Table
col1: int64
col2: struct<a: int64, b: int64>
child 0, a: int64
child 1, b: int64

,并假设以下目标模式(其中struct列的一个字段从int改为float):

>>> new_schema = pa.schema([('col1', pa.int64()), ('col2', pa.struct([('a', pa.int64()), ('b', pa.float64())]))])
>>> new_schema
col1: int64
col2: struct<a: int64, b: double>
child 0, a: int64
child 1, b: double

那么解决方案看起来像:

# cast fields separately
struct_col = table["col2"]
new_struct_type = new_schema.field("col2").type
new_fields = [field.cast(typ_field.type) for field, typ_field in zip(struct_col.flatten(), new_struct_type)]
# create new structarray from separate fields
import pyarrow.compute as pc
new_struct_array = pc.make_struct(*new_fields, field_names=[f.name for f in new_struct_type])
# replace the table column with the new array
col_idx = table.schema.get_field_index("col2")
new_table = table.set_column(col_idx, new_schema.field("col2"), new_struct_array)
>>> new_table
pyarrow.Table
col1: int64
col2: struct<a: int64, b: double>
child 0, a: int64
child 1, b: double

相关内容

  • 没有找到相关文章

最新更新