import http.client, urllib.request, urllib.parse, urllib.error
def translate(IN, OUT, text):
text = urllib.parse.quote(text)
conn = http.client.HTTPConnection("translate.google.com.tr")
conn.request("GET", "/translate_a/t?client=t&text="+text+"&hl="+IN+"&tl="+OUT)
res = conn.getresponse().read().decode("cp1254",'replace')
print(res)
b1 = res.split("],[")
b2 = b1[0].strip('[]')
b3 = b2.strip('","')
b4 = b3.split('","')
return b4[0]
string = input("Turkish >>> English: ")
result = translate("tr","en",string)
print(string,">>>",result)
我试图编写一个可以将土耳其语翻译成英语的脚本。如果我不输入土耳其字符,该脚本效果很好。例如,这些土耳其语单词翻译成功=(kalemlik,deneme,bilgisayar,okyanus(,但是如果我输入的单词具有非ASCII字符,则翻译不成功。这些是土耳其语字符 = ("ıİğĞüÜşŞöÖçÇ"(,这些是一些土耳其语单词具有非 ascii 字符 = (programcı,şarkı,çalışma,örnek,İnsan,dağ,üs(。顺便说一下,cp1254是土耳其字符的有效编码。我能做些什么来解决这个问题?你知道,它不仅适用于土耳其语。
例子;
Turkish >>> English: okyanus
[[["ocean","okyanus","",""]],[["isim",["ocean","brine","the deep","main","drink"],[["ocean",["okyanus","derya"]],["brine",["tuzlu su","salamura","deniz","okyanus"]],["the deep",["deniz","okyanus","enginler"]],["main",["ana boru","deniz","kuvvet","zor","okyanus","horoz dövüşü"]],["drink",["içmek","içki","içecek","içki içmek","deniz","okyanus"]]]],["sıfat",["oceanic"],[["oceanic",["okyanus","okyanusta bulunan","okyanus gibi"]]]]],"tr",,[["ocean",[5],1,0,999,0,1,0]],[["okyanus",4,,,""],["okyanus",5,[["ocean",999,1,0],["oceanic",0,1,0],["the ocean",0,1,0],["oceans",0,1,0]],[[0,7]],"okyanus"]],,,[["tr"]],2]
okyanus >>> ocean
这是成功的。
Turkish >>> English: dağ
[[["daÄu0178","daÄu0178","",""]],,"tr",,[["daÄu0178",[5],1,0,1000,0,1,0]],[["daÄu0178",5,[["daÄu0178",1000,1,0]],[[0,4]],"daÄu0178"]],,,[["tr"]],8]
dağ >>> daÄu0178
失败!
仔细观察这一点,你会有一堆错误和不正确的假设。喜欢
是的,"顺便说一下,CP1254是土耳其字符的有效编码。
这是真的,但还有其他的,比如ISO 8859-9,这是一个实际的国际标准,不仅被Microsoft使用。当然还有 UTF-8/16/32。
此外,您不仅在使用 CP1254 而不检查这是否真的是 Google 使用的解码(事实并非如此(,而且您没有以正确的编码发送单词。我在第一次通读时错过了这一点,因为您的问题集中在您得到的内容上。直到第二次通读,我才意识到您的主要问题实际上是当您具有非 ascii 字符时翻译失败。
您还发送了一个字符 (ğ( 并取回了两个字符,这就是为什么我认为问题是 UTF8,确实如此,但不是我最初想象的那样。
由于您通过HTTP GET发送它,因此您必须对URL中的文本进行编码,这意味着您基本上必须使用UTF-8。但是你的GET并没有这么说。您的请求中没有任何内容表明您使用的是 UTF-8。现在,你真的应该设置一些阅读器来做这件事,但这很复杂,谷歌翻译允许你作弊。您可以传入 ie
参数,说明您拥有的编码。
如果您不这样做,它可能会回退到 ISO-8859-1,这是这些情况下的标准。这将占用您为 ğ 发送的两个字节,并假设它们是两个不同的字符,这就是您返回这两个字符的原因。
最后,您应该查看标头,以了解Google用于响应的编码。但在这里你也可以作弊,并使用oe
参数告诉谷歌使用什么编码。
因此,如果您更改:
conn.request("GET", "/translate_a/t?client=t&text="+text+"&hl="+IN+"&tl="+OUT)
自:
path = "/translate_a/t?client=t&ie=UTF-8&oe=UTF-8&text="+text+"&hl="+IN+"&tl="+OUT
conn.request("GET", path)
(因为说真的,你不必把所有东西都粘在一条长线上(
并更改:
response = conn.getresponse()
res = response.read().decode("UTF-8",'replace')
它会起作用。
对于输入,您无需执行任何操作urlencode()
处理该操作,对于输出,您可以使用Content-Type
标头:
import cgi
from urllib.parse import urlencode
from urllib.request import urlopen
logger = logging.getLogger(__name__)
def translate(text, from_lang=None, to_lang="en"):
query = dict(text=text, tl=to_lang, client="t",
sl=from_lang if from_lang is not None else "auto")
url = 'http://translate.google.com.tr/translate_a/t?' + urlencode(query)
print(url)
try:
response = urlopen(url)
content = response.read()
except OSError as e:
logger.error("translate%s error: %s", (text, from_lang, to_lang), e)
else:
_, params = cgi.parse_header(response.getheader('Content-Type', ''))
print(content.decode(params['charset']))
您还可以在Google服务的URL中使用ie/oe
参数来指定input text/response content
字符编码,@Lennart Regebro所说的那样。