图像文字识别 Tesseract OCR 总结
Tesseract OCR是一个图像文字识别的开源项目,主页地址是https://github.com/tesseract-ocr/tesseract。
你可以去下载Windows、Linux、Mac OS的安装包进行安装,下载地址为https://github.com/tesseract-ocr/tesseract/wiki。Windows的下载页面为https://github.com/tesseract-ocr/tesseract/wiki/Downloads。Windows安装过程中会提示选择要支持的语言包,要支持中文的话,一定要选择中文简体包、中文繁体包。语言包需要去服务器下载,所以安装过程需要10几分钟。
安装完后,通过cmd进入安装目录,执行命令来识别图像。命令如下:
tesseract d:\1.jpg d:\1 -l chi_sim
d:\1.jpg是图片地址,d:\1是输出结果的文件名(生成的文件为.txt),-l是语言参数,后面跟的chi_sim表示中文简体。(chi_tra为中文繁体,eng为英文,如果相用其它语言可以在tessdata目录下载相关的前缀,前提是已经安装了相关的语言包。)
结果不想输出文件的话,也可以直接输出到控制台,改成下面这样即可
tesseract d:\1.jpg stdout -l chi_sim
如果相在Java中使用,可使用ProcessBuilder类进行外部程序的调用,这里不多阐述。