使用 lxml 进行重写



我正在生成一个XML模式,然后在Python3中生成数据文件。

生成的架构包括基本架构,我使用目录将包含 URI 更改为本地文件。我在 Python 中设置了环境变量"XML_CATALOG_FILES",这很好用。

但是,我尝试使用重写系统,以便使用本地生成的架构代替数据文件中的通用位置引用,并且重写似乎不起作用。

这是目录。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE catalog PUBLIC "-//OASIS//DTD XML Catalogs V1.1//EN" "http://www.oasis-open.org/committees/entity/release/1.1/catalog.dtd">
<catalog xmlns="urn:oasis:names:tc:entity:xmlns:xml:catalog">
<!-- S3Model 3.0.0 RM Schema -->
<uri name="https://www.s3model.com/ns/s3m/s3model_3_0_0.xsd" uri="s3model/s3model_3_0_0.xsd"/>

<!-- S3Model DMs -->
<rewriteSystem systemIdStartString="https://dmgen.s3model.com/dmlib/" rewritePrefix="file:///home/tim/DII/Kunteksto/output/"/>
</catalog>

此目录文件在使用 Xerces 或 Saxon 进行验证的 Oxygen 中时工作正常。

XML 文件中的示例引用如下所示:

xsi:schemaLocation="https://www.s3model.com/ns/s3m/ https://dmgen.s3model.com/dmlib/dm-a42592f1-e8b3-4862-b6e2-ac0e48c138f4.xsd">

知道为什么lxml(Libxml2)确实可以识别这个重写系统吗?

而不是创建解析器并在数据文件中引用架构。

我使用了一种不同的方法,从 lxml 中的架构字符串创建一个架构对象。

schema_doc = etree.parse(schema)
modelSchema = etree.XMLSchema(schema_doc)

变量架构保存 XML 架构的字符串表示形式。

然后,在创建每个数据文档时,使用以下方法使用该架构对其进行验证:

try:
tree = etree.parse(StringIO(xmlStr))
modelSchema.assertValid(tree)
except etree.DocumentInvalid:
file_id = "Invalid_" + file_id

我不得不删除XML声明:

<?xml version="1.0" encoding="UTF-8"?>

获取etree.parse也可以正常工作。

最新更新