web服务——一种检查站点的本地版本是否被完全翻译(用于持续集成)的工具



我正在做一个项目,在这个项目中,我们为另一个国家(不是说英语的国家)设计一个现有网站的本地化版本(用英语编写)。业务要求是"所有可能和不可能的情况都没有英文文本"。

有没有人知道是否有一个检查软件/服务,可以检查一个网站是否完全翻译,也就是说,检查其中没有英文文本。

我新的,有网站检查破碎的链接,html的有效性等,我需要像http://validator.w3.org/checklink的东西,但检查网站的所有页面上有没有英文文本。

我认为需要这种方式的原因是:
1. 有很多代码是所有国家的通用代码(包括后端和前端)
2. 如果有人向公共代码提交任何东西,我需要确保这不会导致本地化版本中的英语文本问题。
3.从商业的角度来看,网站最好不支持某些功能,而不是显示英文文本(法律问题)
4. 前端和后端代码变化很大
5. 有很多文件会影响客户端屏幕上的文本。不幸的是,不只是一个有信息的。有些消息来自后端,但大多数都在前端
6. 由于所有这些事实,目前有人手动填写所有表格并亲眼观察,这是在每次部署之前…

我认为你从错误的方向处理这个问题。你正在寻找一种算法或网络爬虫,可以检测任何文本是否是英语?我不知道,但我怀疑是否存在这样的事情。

如果你翻译了网站,你可以完全访问代码库和/或翻译文本,对吗?你不能同时打开英文和非英文字符串文件吗?resx或任何你正在使用)在比较工具,如notepad++检查差异,看看是否有任何缺失的字符串?检查源代码并验证所有可以输出用户可显示文本的部分都使用meta:resourceKey属性(或您正在使用的任何属性)。

如果您想采用爬行的方式,我不知道现有的爬行器可以做到这一点,但它听起来像是两个简单问题的组合:

  1. 查找网络爬虫的现有开源代码应该是非常简单的
  2. 如果文本可以使用的语言数量有限,通过n-gram分析识别语言是微不足道的。

唯一困难的部分是确保分析器总是有一个合适的文本块来处理。你可以逐段提取材料。对于表单,您可能需要将多个表单标签的文本组合在一起。

最新更新