刚开始 h2o.ai,我喜欢算法和分布式计算,但坚持数据操作......
我如何过滤Timestamp('2011-01-01 00:00:00')
和numpy.datetime64('2011-01-02T00:00:00.000000000')
上的H2Oframe?
做这个熊猫日期切片的等效物
import pandas as pd
import h2o
h2o.init()
dft=pd.DataFrame({'date':pd.date_range('1/1/2011', periods=10), 'value': range(10)})
dft.ix[dft['date']>dft['date'].min()]
dft.ix[dft['date']>dft['date'].values[1]]
我在这方面失败了
dfh2o=h2o.H2OFrame(dft)
dfh2o[dfh2o['date']>dft['date'].min()] # causes error
dfh2o[dfh2o['date']>dft['date'].values[1]] # causes error
dfh2o['date2']=dfh2o['date'].asdate() # this function doesn't exist
请注意,我想过滤原始日期值,因为我从其他地方获取它们,并且很难将它们包含在 H2OFrame 中。那就是我不只是想要这样的东西
dfh2o[dfh2o['date']>dfh2o['date'].min()]
dfh2o[dfh2o['date']>dfh2o[1,'date']]
而且我不确定 H2OFrame 如何转换时间戳
dft['date'].astype('int64').min()
Out[16]: 1293840000000000000
dfh2o['date'].min()
Out[17]: 1293858000000.0
您报告为 H2O 中的错误的问题如下所述:https://0xdata.atlassian.net/browse/PUBDEV-3895
还在此处描述:https://community.h2o.ai/questions/1410/filter-h2oframe-on-pandas-dates-and-time-python.html