我正试图获得Kedro,但不知道如何构建我的数据获取器(我以前使用过(。
我的数据存储在多个"表"上的MongoDB实例中。其中一个表是我的用户名。首先,我想把它们拿来。之后,根据我得到的用户名,我想从三个"表"中获取数据并将它们合并。
我应该如何在凯德罗做到最好?
我应该把所有东西都放在自定义数据集中吗?只获取用户名,然后在管道的一部分中执行其余操作?
所以这是一个有趣的问题-Kedro的设计方式是,任务不知道提供/保存数据所需的IO。这(有充分的理由(要求你跨越这个界限。
我的建议是深入自定义数据集,但可能会更进一步,使其直接返回您需要的3个表。也就是说,在这个阶段做用户名过滤逻辑。
如果您不打算在save()
上引发NotImplementedError
,那么也完全可以。