我试图使用谷歌翻译本地化的XML文件,它有近350K行,但其中一些包含编码游戏中的字体大小和颜色,像这样:
<replacement><p horizontalalignment="center"><br/><image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/><br/><image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Six_Superior" scalerate="1.5"/><image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Four_Superior" scalerate="1.5"/><br/><image enablescale="true" imagesetpath="00009499.Field_Boss" scalerate="1.4"/>Хмельной лик<br/><br/></p>Уничтожить зараженных насекомых<br/>возле мест обитания их королевы。<br/></replacement>
现在天知道是什么原因,谷歌翻译在翻译过程中把代码改成了一些不可接受的代码,比如:
<replacement> <p horizontalalignment="center"> <br/> <image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/> <br/> <image enablescale = "true "imagesetpath =" 00015590.Tag_Dungeon_Six_Superior "scalerate =" 1.5 "/> <image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Four_Superior" scalerate="1.5"/> <br/> <image enablescale = "true" imagesetpath = "00009499.Field_Boss" scalerate = "1.4" /> Intoxicated face <br/> <br/> </ p> Destroy infected insects <br/> habitats near their queen. <br/> </ replacement>
有没有办法避免这种情况,为什么会发生呢?在那件事上任何帮助都很感激,谢谢。
编辑:我也在寻找一种输入文本和在相同的语言只有编码事故发生变化,所以我可以分离,构建一个比较表,然后用它来解决实际翻译完成后的错误,但我不认为一种选择同一种语言作为输入和输出在谷歌翻译,它总是迫使我选择不同的输入或输出,是有意义的,但如果有一种方法可以做到这一点,我也许可以解决它…
不要将Xml文件提供给Google翻译,据我所知它不理解Xml。
从Xml文件中提取文本
输入要翻译的文本。
将文本转换回Xml。
您可以简单地将Xml转换为文本文档,每个Xml元素只有一行,这样就更容易将其转换回Xml。
更详细根据Toolkit可以上传:
HTML (.HTML)
Microsoft Word (.DOC/.DOCX)
OpenDocument Text (.ODT)
Plain Text (.TXT)
Rich Text (.RTF)
Wikipedia URLs
和一些额外的,如JSON。所以没有Xml
我认为最好的方法是将Xml文档转换为这些类型之一(我可能会使用JSON),并通过使用位置(文本文件中的1行是Xml文档中的第一个元素)或id(将Xml层次结构中元素的id或位置添加到JSON元素中)轻松地将其转换回来
我的猜测是工具包识别xml中的html标记并转义它们。因此,另一种选择可能是将>
反转义为>
,将<
反转义为<