web服务——一种检查站点的本地版本是否被完全翻译(用于持续集成)的工具

我正在做一个项目，在这个项目中，我们为另一个国家(不是说英语的国家)设计一个现有网站的本地化版本(用英语编写)。业务要求是"所有可能和不可能的情况都没有英文文本"。

有没有人知道是否有一个检查软件/服务，可以检查一个网站是否完全翻译，也就是说，检查其中没有英文文本。

我新的，有网站检查破碎的链接，html的有效性等，我需要像http://validator.w3.org/checklink的东西，但检查网站的所有页面上有没有英文文本。

我认为需要这种方式的原因是:
1. 有很多代码是所有国家的通用代码(包括后端和前端)
2. 如果有人向公共代码提交任何东西，我需要确保这不会导致本地化版本中的英语文本问题。
3.从商业的角度来看，网站最好不支持某些功能，而不是显示英文文本(法律问题)
4. 前端和后端代码变化很大
5. 有很多文件会影响客户端屏幕上的文本。不幸的是，不只是一个有信息的。有些消息来自后端，但大多数都在前端
6. 由于所有这些事实，目前有人手动填写所有表格并亲眼观察，这是在每次部署之前…

我认为你从错误的方向处理这个问题。你正在寻找一种算法或网络爬虫，可以检测任何文本是否是英语?我不知道，但我怀疑是否存在这样的事情。

如果你翻译了网站，你可以完全访问代码库和/或翻译文本，对吗?你不能同时打开英文和非英文字符串文件吗?resx或任何你正在使用)在比较工具，如notepad++检查差异，看看是否有任何缺失的字符串?检查源代码并验证所有可以输出用户可显示文本的部分都使用meta:resourceKey属性(或您正在使用的任何属性)。

如果您想采用爬行的方式，我不知道现有的爬行器可以做到这一点，但它听起来像是两个简单问题的组合:

查找网络爬虫的现有开源代码应该是非常简单的
如果文本可以使用的语言数量有限，通过n-gram分析识别语言是微不足道的。

唯一困难的部分是确保分析器总是有一个合适的文本块来处理。你可以逐段提取材料。对于表单，您可能需要将多个表单标签的文本组合在一起。

相关内容

最新更新

热门标签：