在 Azure 存储表中批量插入



我是使用Azure存储表的新手。我正在尝试批量插入我的实体,但我发现您无法使用不同的分区键进行批处理操作。

有没有办法我可以做到,我想在表中插入大约 10,000 - 20,000 个文件详细信息。

这是我到目前为止尝试过的:

public class Manifest:TableEntity
{
private string name;
private string extension;
private string filePath;
private string relativePath;
private string mD5HashCode;
private string lastModifiedDate;
public void AssignRowKey()
{
this.RowKey = relativePath.ToString();
}
public void AssignPartitionKey()
{
this.PartitionKey = mD5HashCode;
}
public string Name { get { return name; } set { name = value; } }
public string Extension { get { return extension; } set { extension = value; } }
public string FilePath { get { return filePath; } set { filePath = value; } }
public string RelativePath { get { return relativePath; } set { relativePath = value; } }
public string MD5HashCode { get { return mD5HashCode; } set { mD5HashCode = value; } }
public string LastModifiedDate { get { return lastModifiedDate; } set { lastModifiedDate = value; } }
}

我的方法在不同的类中:

static async Task BatchInsert(CloudTable table, IEnumerable<FileDetails> files)
{
int rowOffset = 0;
var tasks = new List<Task>();
while (rowOffset < files.Count())
{
// next batch
var rows = files.Skip(rowOffset).Take(100).ToList();
rowOffset += rows.Count;                
var task = Task.Factory.StartNew(() =>
{                  
var batch = new TableBatchOperation();
foreach (var row in rows)
{
Manifest manifestEntity = new Manifest
{
Name = row.Name,
Extension = row.Extension,
FilePath = row.FilePath,
RelativePath = row.RelativePath.Replace('\', '+'),
MD5HashCode = row.Md5HashCode,
LastModifiedDate = row.LastModifiedDate.ToString()
};
manifestEntity.AssignPartitionKey();                        
manifestEntity.AssignRowKey();
batch.InsertOrReplace(manifestEntity);
}
// submit
table.ExecuteBatch(batch);
});
tasks.Add(task);
}
await Task.WhenAll(tasks);
}

如果要使用批处理操作,批处理中的实体必须具有相同的分区键。不幸的是,没有其他选择,只能在您的情况下单独保存它们。

分区键甚至存在的原因是 Azure 可以在跨计算机分发数据,而无需分区之间进行协调。系统的设计使得不同的分区不能在同一事务或操作中使用。

您可以对此问题投赞成票,以推进此功能的实现。

相对而言,使用批处理操作无法插入多个没有相同分区键的实体。

批处理操作的一些限制是

  • 单个批处理操作中的所有实体必须具有相同的分区 钥匙。
  • 单个批处理操作只能包含 100 个实体。

或者,您可以使用"TableOperation.Insert(("插入实体,这允许您插入具有相同分区键的实体。

在 2022 年,有一些安静的弃用的 nuget 包。 据我所知,执行此操作的实际nuget包将是Azure.Data.Tables

这里有一些很好的示例,如何将批处理与此包一起使用。

相关内容

  • 没有找到相关文章

最新更新