Azure表的导入数据模块文档可以在这里找到:https://msdn.microsoft.com/en-us/library/azure/mt674699
里面提到:
Import Data模块不支持在读取数据时进行过滤。例外是从数据提要中读取,有时允许您指定过滤条件作为提要URL的一部分。
我们的表存储中有大量数据,每次运行实验时都重新下载整个数据集是不可行的。我知道有缓存数据的选项,但是不断插入新数据,我们希望能够在实验运行时使用新数据。
是否有替代Import Data模块的方法,我们可以使用ODATA查询来获取表存储数据?
没有通用的方法来增量更新数据集。
但是,根据您想对数据做什么,有不同的选项来添加新数据:
Add Rows模块有效地连接了两个数据集。因此,您可以在左侧输入使用旧的缓存数据集,并在右侧输入添加新数据。这样你只需要读入新的数据。但是,您必须创建一些复杂的逻辑来确定哪些行是新的,哪些是旧的,然后在Azure ML之外维护它们。
您可以基于表存储创建OData提要,以启用过滤并以这种方式获取新数据。请注意,目前只支持公共提要。您必须使用Join或Add Rows来重新组合旧数据和新数据,如上所述。
您还可以研究使用表名、分区和行键来块化数据的方法。
如果你正在重新训练一个模型,并且你想要更新你的特征统计,学习计数模块支持基于计数的特征的增量更新。