我正在将SQL Server Integration Services包移植到Azure数据工厂。
我有两个表(表 1 和表 2(,它们位于不同的服务器上。 一个有七列,其他六列。 我遵循了 https://learn.microsoft.com/en-us/azure/data-factory/data-factory-map-columns 的例子
表1 DDL:
CREATE TABLE dbo.Table1
(
zonename nvarchar(max),
propertyname nvarchar(max),
basePropertyid int,
dfp_ad_unit_id bigint,
MomentType nvarchar(200),
OperatingSystemName nvarchar(50)
)
表2 DDL
CREATE TABLE dbo.Table2
(
ZoneID int IDENTITY,
ZoneName nvarchar(max),
propertyName nvarchar(max),
BasePropertyID int,
dfp_ad_unit_id bigint,
MomentType nvarchar(200),
OperatingSystemName nvarchar(50)
)
在 ADF 中,我将表 1 定义为:
{
"$schema": "http://datafactories.schema.management.azure.com/schemas/2015-09-01/Microsoft.DataFactory.Table.json",
"name": "Table1",
"properties": {
"type": "AzureSqlTable",
"linkedServiceName": "PlatformX",
"structure": [
{ "name": "zonename" },
{ "name": "propertyname" },
{ "name": "basePropertyid" },
{ "name": "dfp_ad_unit_id" },
{ "name": "MomentType" },
{ "name": "OperatingSystemName" }
],
"external": true,
"typeProperties": {
"tableName": "Platform.Zone"
},
"availability": {
"frequency": "Day",
"interval": 1
}
}
}
在 ADF 中,我将表 2 定义为:
{
"$schema": "http://datafactories.schema.management.azure.com/schemas/2015-09-01/Microsoft.DataFactory.Table.json",
"name": "Table2",
"properties": {
"type": "SqlServerTable",
"linkedServiceName": "BrixDW",
"structure": [
{ "name": "ZoneID" },
{ "name": "ZoneName" },
{ "name": "propertyName" },
{ "name": "BasePropertyID" },
{ "name": "dfp_ad_unit_id" },
{ "name": "MomentType" },
{ "name": "OperatingSystemName" }
],
"external": true,
"typeProperties": {
"tableName": "staging.DimZone"
},
"availability": {
"frequency": "Day",
"interval": 1
}
}
}
如您所见,Table2 有一个标识列,该列将自动填充。
这应该是一个简单的复制活动:
{
"$schema": "http://datafactories.schema.management.azure.com/schemas/2015-09-01/Microsoft.DataFactory.Pipeline.json",
"name": "Copy_Table1_to_Table2",
"properties": {
"description": "Copy_Table1_to_Table2",
"activities": [
{
"name": "Copy_Table1_to_Table2",
"type": "Copy",
"inputs": [
{ "name": "Table1" }
],
"outputs": [
{
"name": "Table2"
}
],
"typeProperties": {
"source": {
"type": "SqlSource",
"sqlReaderQuery": "select * from dbo.Table1"
},
"sink": {
"type": "SqlSink"
},
"translator": {
"type": "TabularTranslator",
"columnMappings": "zonename: ZoneName, propertyname: propertyName, basePropertyid: BasePropertyID, dfp_ad_unit_id: dfp_ad_unit_id, MomentType: MomentType, OperatingSystemName: OperatingSystemName"
}
},
"policy": {
"concurrency": 1,
"executionPriorityOrder": "OldestFirst",
"retry": 3,
"timeout": "01:00:00"
},
"scheduler": {
"frequency": "Day",
"interval": 1
}
}
],
"start": "2017-07-23T00:00:00Z",
"end": "2020-07-19T00:00:00Z"
}
}
我想如果不映射 ZoneID,它就会被忽略。 但是ADF给了我以下错误。
复制活动遇到用户错误:网关节点名称=APP1250S,错误代码=用户错误无效列映射列计数不匹配,'类型=Microsoft.数据传输.Common.Shared.HybridDeliveryException,消息=为复制活动提供的列映射无效:"区域名称:区域名称,属性名称:属性名称,基本属性 ID:基本属性 ID,dfp_ad_unit_id:dfp_ad_unit_id,时刻类型:时刻类型,操作系统名称:操作系统名称",详细消息:列计数不同目标结构和列映射。目标列计数:7,列映射计数:6。检查表定义中的列映射,Source=Microsoft.DataTransfer.Common,'
简而言之,我正在尝试将 7 列表复制到 6 列表,但数据工厂不喜欢它。 如何完成此任务?
我意识到这是一个老问题,但我刚才遇到了这个问题。我的问题是我最初生成了目标/接收器表,创建了一个管道,然后添加了一列。
尽管清除并重新导入了架构,但每当触发管道时,它都会引发上述错误。我确保在映射中取消选择新列(具有默认值(,因此它只会使用默认值。错误仍然被抛出。
我设法让事情发挥作用的唯一方法是从头开始完全重新创建管道。就好像在元数据中的某个地方,旧的映射被保留了下来。
我遇到了完全相同的问题,我通过进入 azure 数据集并删除标识列来解决它。 然后确保我的源和目标(接收器(中有相同数量的列。 完成此操作后,副本将添加记录,表中的标识将按预期工作。 我不必修改 SQL 中的物理表,只需修改 azure 中表的数据集。
一种选择是在不包含标识列的 7 列表上创建一个视图并插入到该视图中。
CREATE VIEW bulkLoad.Table2
AS
SELECT
ZoneName,
propertyName,
BasePropertyID,
dfp_ad_unit_id,
MomentType,
OperatingSystemName
GO
我可以做一些挖掘,看看列映射是否可以使用一些技巧,但这应该可以解锁您。
呵呵
MSFT支持人员告诉我,只需从表定义中删除标识列。 它似乎奏效了。