从固定格式的文本文件大容量插入将忽略行终止符



我有很多平面(文本)文件,我想每天将它们导入到SQLSERVER表中。 现在,当我制定我的程序时,我只想导入一个文件。 当然,我可以编写 c# 代码来执行此操作,但我觉得这不是正确的方法,我想使用类似批量插入和 xml 格式文件的东西。

我的第一个示例文件如下所示(sample.dat):

Q     RR201110010000000002000000000000232000
N     X4201110010000000001500000000000160000

注意:此文件上的十六进制转储显示每行都以一个换行符结尾 - 不多不少。

我的 xml 翻译文件如下所示:

<?xml version="1.0"?>
<BCPFORMAT xmlns="http://schemas.microsoft.com/sqlserver/2004/bulkload/format" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
 <RECORD>
  <FIELD ID="1" xsi:type="CharFixed" LENGTH="6"/>
  <FIELD ID="2" xsi:type="CharFixed" LENGTH="2"/>
  <FIELD ID="3" xsi:type="CharFixed" LENGTH="8"/>
  <FIELD ID="4" xsi:type="CharFixed" LENGTH="14"/>
  <FIELD ID="5" xsi:type="CharFixed" LENGTH="14"/>
 </RECORD>
 <ROW>
  <COLUMN SOURCE="1" NAME="c1" xsi:type="SQLNCHAR"/>
  <COLUMN SOURCE="2" NAME="c2" xsi:type="SQLNCHAR"/>
  <COLUMN SOURCE="3" NAME="c3" xsi:type="SQLCHAR"/>
  <COLUMN SOURCE="4" NAME="c4" xsi:type="SQLINT" />
  <COLUMN SOURCE="5" NAME="c5" xsi:type="SQLINT" />
 </ROW>
</BCPFORMAT>

我的查询如下所示:

SET LANGUAGE us_english;
GO
SET DATEFORMAT ymd;
go
BULK INSERT 
  PROJ.dbo.Costs
  FROM 'C:somewheretest01SAMPLE.DAT'
  WITH
  (
  DATAFILETYPE ='CHAR',
  FORMATFILE='C:somewheretest01TRANSLATE02.XML',
  ERRORFILE='C:somewheretest01ERRORS.TXT',
  ROWTERMINATOR='n'
  )
  GO

运行此脚本时,从第 2 行开始出现溢出错误。(也就是说,第 1 行似乎已正确翻译,尽管我在 sql 表中看不到它。错误.TXT 的十六进制转储显示第一个错误行(第 2 行)以换行符开头! 当然,这会导致第 4 个字段溢出! 因此,脚本似乎无法理解 ROWTERMINATOR。 我尝试了"","\r","\r","\r"以防万一它没有看到\r。 无济于事。

我还尝试了一个稍微不同的sql命令,根据使用行终止符批量插入 txt 错误

并得到同样的错误。

对我错过了什么有什么想法吗?

根据要求,下面是一个被破坏的十六进制转储.dat:

000000: 41 20 20 20  20 20 XX XX  32 30 31 31  31 30 30 31  Q     RR20111001
000010: 30 30 30 30  30 30 30 30  30 31 35 30  30 30 30 30  0000000001500000
000020: 30 30 30 30  30 30 31 35  30 30 30 30  0A ZZ 20 20  000000150000.N
000030: 20 20 20 XX  XX 32 30 31  31 31 30 30  31 30 30 30     X420111001000
000040: 30 30 30 30  30 30 32 30  30 30 30 30  30 30 30 30  0000002000000000
000050: 30 30 30 32  33 32 30 30  30 0A ZZ 20  20 20 20 20  000232000.Y

请注意,XX 和 ZZ 是屏蔽的(不是实际数据),0A 是换行符,它是最后一个零(十六进制 30)和下一行开始的 ZZ 字符之间的唯一内容。希望这不会太令人困惑。

下面的解决方案有效,但是,这里也讨论了这个问题,解决方案对我来说似乎更好(虽然我还没有确认,但我想我会在下一个文件中尝试)。批量插入行终止符问题

必须使用 SSIS"SQL Server Integration Services"将数据从文件转换为数据库。您可以在SQL Server中执行此操作 转换 每天自动转换。

答案(好吧,至少有一个答案)非常简单。

我刚刚在 XML 中的字段列表中添加了一个虚假的、一个字符字段。

<?xml version="1.0"?>
<BCPFORMAT xmlns="http://schemas.microsoft.com/sqlserver/2004/bulkload/format" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
 <RECORD>
  <FIELD ID="1" xsi:type="CharFixed" LENGTH="6"/>
  <FIELD ID="2" xsi:type="CharFixed" LENGTH="2"/>
  <FIELD ID="3" xsi:type="CharFixed" LENGTH="8"/>
  <FIELD ID="4" xsi:type="CharFixed" LENGTH="14"/>
  <FIELD ID="5" xsi:type="CharFixed" LENGTH="14"/>
  <FIELD ID="6" xsi:type="CharFixed" LENGTH="1"/>
 </RECORD>
 <ROW>
  <COLUMN SOURCE="1" NAME="c1" xsi:type="SQLNCHAR"/>
  <COLUMN SOURCE="2" NAME="c2" xsi:type="SQLNCHAR"/>
  <COLUMN SOURCE="3" NAME="c3" xsi:type="SQLCHAR"/>
  <COLUMN SOURCE="4" NAME="c4" xsi:type="SQLINT" />
  <COLUMN SOURCE="5" NAME="c5" xsi:type="SQLINT" />
 </ROW>
</BCPFORMAT>

注意我没有写最后一个字段(带有相应的 COLUMN 标签)。 这会将 EOL (/n) 读入虚拟字段。 如果这不是 BULK INSERT 命令中 ROWTERMINATOR 行为中的错误,那么它至少是非常不直观的。 也就是说,ROWTERMINATOR 似乎是一个 NOOP。

观察 1:虽然第 3 列是 YYYYMMDD 格式的日期,但相应的源 3 实际上是小日期时间。 它会自动正确转换它。

观察2:源3和4定义为十进制(14,2)。 我认为这会将输入缩放为使用相应字段中的最后 2 个字符作为百分之一。 我可以 a. 找到一种自动缩放的方法(首选)或 b. 进行后处理以除以 100。 (这是另一个问题 - 只是在这里注意它,因为它对我来说似乎很有趣。

无论哪种方式,这似乎是问题的一种解决方案。感谢您的回复。

附录(作为旁白):我决定使用选项 b(如观察 2 中所述),使用 sql 命令末尾的 UPDATE SET 命令将货币字段除以 100。

最终产品将是一个批处理文件,它多次调用"sqlcmd",然后在尾端运行一个perl脚本来检查各种错误文件中的条目。

还有一件事:我注意到,当我运行它时,BULK INSERT 命令中列出的错误文件必须不存在;否则,它本身会产生不同的错误!我会在预处理期间处理这个问题。

无论如何,再次感谢。

有关固定格式文本的 XML 架构文件的 SQL Server 文章在 RECORD 元素中指定了终止符:

<RECORD>
  <FIELD ID="1" xsi:type="CharFixed" LENGTH="10"/>
  <FIELD ID="2" xsi:type="CharFixed" LENGTH="6"/>
  <FIELD ID="3" xsi:type="CharTerm" TERMINATOR="rn"
</RECORD>

(请注意上面的拼写错误。也许这就是忽略查询中的规范的原因。

尝试char(13),它是SQL回车。 还char(13) + char(10),回车/换行。

相关内容

最新更新