是否有任何 Dot Net 服务来计算 Xliff 文件中的单词?



我有一个xliff文件如下:

<xliff version="2.0" srcLang="en" trgLang="de" xmlns="urn:oasis:names:tc:xliff:document:2.0">   <file id="9_583">
<unit id="9_583" name="Alloy Track" type="EPiServer:Content">
<segment id="PageName">
<source>Alloy Track</source>
<target>Alloy Track</target>
</segment>
<segment id="UniqueSellingPoints">
<source>
Shared timeline
Project emails
To-do lists
Workflows
Status reports
</source>
</segment>
</unit>   </file> </xliff>

问:是否有任何 Dot Net 服务 (C#( 来计算 xliff 文件中的单词?

作为本地化行业的人 — 字数统计是

  • 分析期间通常由CAT 工具执行

    CAT工具通常使用专有算法(从未建立过事实上的标准(,其中大多数试图产生类似于MS Word的结果;

  • 分别在内容和目标内容上完成;

  • 依赖于自然语言(有些语言不使用空格作为单词分隔符(。

虽然通过计算字数来了解您要实现的目标会有所帮助,但通常,您可以使用开源 XLIFF OM 操作 XLIFF2 文档以访问目标内容,然后使用 UNICODE 标准附录 #29 指定的已知字数边界获取近似字数。

从理论上讲,gmx-v,LISA GMX/V标准的实现,可以为你做到这一点,但我还没有测试过它,所以我不能保证它的结果的健全性和处理XLIFF2文档的能力。


无论如何,如果结果要用于设置基线期望以外的任何其他目的,我建议使用具有 XLIFF2 功能的 CAT 工具和 API 来自动分析。通过这种方式,您可以利用它们提供的其他功能(TM/MT 杠杆、模糊匹配、重复(。


例如,Okapi Framework> Rainbow> Pipeline> Word Count Step,也可能是一种解决方案,尽管它不符合.NET要求。


如果您是问题中示例 XLIFF2 文档的创建者,我可以提供有关结构和元数据的一些反馈以提高互操作性。

最新更新