图像文字识别 Tesseract OCR 总结

2016-04-19 小编 4106

Tesseract OCR是一个图像文字识别的开源项目，主页地址是https://github.com/tesseract-ocr/tesseract。

你可以去下载Windows、Linux、Mac OS的安装包进行安装，下载地址为https://github.com/tesseract-ocr/tesseract/wiki。Windows的下载页面为https://github.com/tesseract-ocr/tesseract/wiki/Downloads。Windows安装过程中会提示选择要支持的语言包，要支持中文的话，一定要选择中文简体包、中文繁体包。语言包需要去服务器下载，所以安装过程需要10几分钟。

安装完后，通过cmd进入安装目录，执行命令来识别图像。命令如下：

tesseract d:\1.jpg d:\1 -l chi_sim

d:\1.jpg是图片地址，d:\1是输出结果的文件名（生成的文件为.txt），-l是语言参数，后面跟的chi_sim表示中文简体。(chi_tra为中文繁体，eng为英文，如果相用其它语言可以在tessdata目录下载相关的前缀，前提是已经安装了相关的语言包。)

结果不想输出文件的话，也可以直接输出到控制台，改成下面这样即可

tesseract d:\1.jpg stdout -l chi_sim

如果相在Java中使用，可使用ProcessBuilder类进行外部程序的调用，这里不多阐述。

新闻资讯时刻把握前沿的技术脉搏和行业动态

图像文字识别 Tesseract OCR 总结