我目前正在使用Finereader 11 SDK开发一个小项目。为了提高我的搜索结果,我喜欢使用临时字典。字典的内容是基于某一行的第一个单词
的例子:
Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines
我的想法是识别第一个单词(Samsung或Apple),并根据第一个单词(Samsung: Galaxy, S3,…)将所有可能的单词填入字典
知道如何用Finereader解决这个问题吗
对
谢谢您的澄清。在我看来,你可以这样做。这适用于FineReader产品线,当然,在SDK中,您可以通过API进行更具体的控制。
FineReader OCR有这些字典:
-
内置字典-大量常用词及其变体,ABBYY OCR技术的优势之一。它不包含专门的单词,例如"Samsung"one_answers"S3"。通过选择流行语言,您可以自动打开该语言的内置字典。
-
自定义字典-这是一个字典,您可以单独使用,也可以与内置字典结合使用。
所以对于你的项目,我相信使用内置词典是有意义的,因为你的短语可能有标准的英语单词(你没有提供完整的短语给我看,所以你自己决定)。
我还强烈认为,您需要创建一个包含品牌和型号等的自定义字典。如果你有这个选择的话,听起来你有。这将大大提高识别率,特别是对于像"S3"这样的非自然单词,因为常见的语言规则表明字母和数字不应该混在一起。这很容易做到。
我目前还看不出用一本单独的词典来阅读每行有什么好处,除非你相信你会有一些非常相似的词的交集,适用于不同的行,你希望这些词在不同的词典中,相对于每行。然后,您可以创建单独的字典,并根据初始单词打开每个字典进行二次识别。但是,要实现这一点,首先需要将图像分成几行(在内存中,或者实际上裁剪图像),以便能够使用唯一的字典分别处理每一行。