是否有任何 Dot Net 服务来计算 Xliff 文件中的单词?

我有一个xliff文件如下：

<xliff version="2.0" srcLang="en" trgLang="de" xmlns="urn:oasis:names:tc:xliff:document:2.0">   <file id="9_583">
<unit id="9_583" name="Alloy Track" type="EPiServer:Content">
<segment id="PageName">
<source>Alloy Track</source>
<target>Alloy Track</target>
</segment>
<segment id="UniqueSellingPoints">
<source>
Shared timeline
Project emails
To-do lists
Workflows
Status reports
</source>
</segment>
</unit>   </file> </xliff>

问：是否有任何 Dot Net 服务 (C#( 来计算 xliff 文件中的单词？

作为本地化行业的人 — 字数统计是

分析期间通常由CAT 工具执行

CAT工具通常使用专有算法(从未建立过事实上的标准(，其中大多数试图产生类似于MS Word的结果;
分别在源内容和目标内容上完成;
依赖于自然语言(有些语言不使用空格作为单词分隔符(。

虽然通过计算字数来了解您要实现的目标会有所帮助，但通常，您可以使用开源 XLIFF OM 操作 XLIFF2 文档以访问源或目标内容，然后使用 UNICODE 标准附录 #29 指定的已知字数边界获取近似字数。

从理论上讲，gmx-v，LISA GMX/V标准的实现，可以为你做到这一点，但我还没有测试过它，所以我不能保证它的结果的健全性和处理XLIFF2文档的能力。

无论如何，如果结果要用于设置基线期望以外的任何其他目的，我建议使用具有 XLIFF2 功能的 CAT 工具和 API 来自动分析。通过这种方式，您可以利用它们提供的其他功能(TM/MT 杠杆、模糊匹配、重复(。

例如，Okapi Framework> Rainbow> Pipeline> Word Count Step，也可能是一种解决方案，尽管它不符合.NET要求。

如果您是问题中示例 XLIFF2 文档的创建者，我可以提供有关结构和元数据的一些反馈以提高互操作性。

相关内容

最新更新

热门标签：