如何从真实语言中生成随机单词



如何从真实语言生成随机单词?

有人知道任何API从互联网与此功能?

例如,我发送http-request到'ht_tp://www.any...api.com/getword?lang=en',我得到响应'Town'。或"快"。或"收到了"……例如,我发送http请求到'ht_tp://www.any...api.com/getword?lang=ru',我得到响应'Ходить'。或"Шапка。"或"Отправлено"……任何语言中单词的任何形式(名词、形容词、动词等)

我找到资源'http://www.randomlists.com/random-words'。但这不是JSON格式,只有英文,并且在很长一段时间内不做任何保修工作。

查看这个答案:https://stackoverflow.com/questions/824422/can-i-get-an-english-dictionary-word-list-somewhere下载一个单词字典,插入数据库并每次从文件中获取随机记录或读取随机行。这样你就不需要依赖第三方API,你可以把它扩展到所有你能找到的语言。

您可以下载OpenOffice字典。它们以扩展名(oxt)的形式出现,这与ZIP文件没有什么不同。你可以用7zip或类似的文件打开它们。在里面你会发现很多文件,你感兴趣的是*。dic文件。它们还将包含分辨率或数字单词。

当你遇到像abandon/LdS这样的东西时,去掉/LdS,这是用于hunspell的

拿这些*。Dic文件使用它们的名称作为键,将它们放入数据库中,并从中随机选择一个给定语言代码的单词。

旧的,但更容易访问,来自OpenOffice的存档拼写字典。

这个问题可以从两种角度来看,因此我给出了两个答案:

    为了收集单词,我会在已知语言的网站上运行一个蜘蛛(维基百科是一个很好的起点),并剥离HTML标签。
  • 从真实的语言中生成单词比较棘手。使用收集到的单词的统计数据,可以使用产生统计上真实单词的马尔可夫链。我试过逐字母生成,效果很差。使用音节结构可能是更好的方法。

最新更新