OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。 Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。
http://code.google.com/p/tesseract-ocr/
Summary:Tesseract is probably the most accurate open source OCR engine available. Combined with the Leptonica Image Processing Library it can read a wide variety of image formats and convert them to text in over 60 languages. It was one of the top 3 engines in the 1995 UNLV Accuracy test. Between 1995 and 2006 it had little work done on it, but since then it has been improved extensively by Google. It is released under the Apache License 2.0.
Supported Platforms:Tesseract works on Linux, Windows (with VC++ Express or CygWin) and Mac OSX. See the ReadMe for more details and install instructions. It can also be compiled for other platforms, including Android and the iPhone, though these are not as well tested platforms. See also the AddOns page for other projects using Tesseract on various platforms.
----------------------------------------------------------------------------------------------
1、linux安装tesseract,http://code.google.com/p/tesseract-ocr/wiki/Compiling
----- #install dependent package sudo apt-get install autoconf automake libtool sudo apt-get install libpng12-dev sudo apt-get install libjpeg62-dev sudo apt-get install libtiff4-dev sudo apt-get install zlib1g-dev sudo apt-get install libleptonica-dev ------ sudo apt-get install g++ #g++ --version ------ #install tesserocr ./autogen.sh ./configure make sudo make install sudo ldconfig ------ --install language cd /usr/local/share/tessdata cp eng.traineddata /usr/local/share/tessdata
2、测试,总体识别率不算高,第1种数字识别率不错,第2种类型的验证码以‘-psm 6’参数得出的识别率更高
1)
➜ Downloads tesseract test.png aa Tesseract Open Source OCR Engine v3.02.02 with Leptonica ➜ Downloads more aa.txt 0376
2)
➜ Downloads tesseract test1.jpg 1 Tesseract Open Source OCR Engine v3.02.02 with Leptonica Empty page!! Empty page!! ➜ Downloads more 1.txt
➜ Downloads tesseract test1.jpg 1 -psm 7 Tesseract Open Source OCR Engine v3.02.02 with Leptonica ➜ Downloads more 1.txt EMsi~\
➜ Downloads tesseract test7.jpg 7 -psm 6 Tesseract Open Source OCR Engine v3.02.02 with Leptonica ➜ Downloads more 7.txt 9u2E
3)
➜ Downloads tesseract test2.jpg 2 Tesseract Open Source OCR Engine v3.02.02 with Leptonica ➜ Downloads more 2.txt F KASKN
3、补充
1)安装tesseract时,不执行ldconfig命令,会报error while loading shared libraries: xxx.so.x
原因参考:http://hi.baidu.com/longquan302/item/3e3a82102f77565c7b5f251b
2)tesseract语言包下载地址,http://code.google.com/p/tesseract-ocr/downloads/list
3)第3方基于tesseract-ocr开发的工具,http://code.google.com/p/tesseract-ocr/wiki/3rdParty
4)中文安装说明,http://www.linuxidc.com/Linux/2011-07/38728.htm
5)tesseract用法
Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] 例如: tesseract code.jpg result -l chi_sim -psm 7 nobatch -l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为.raineddata 简体中文字库文件名为: chi_sim.traineddata) -psm 7 表示告诉tesseract code.jpg图片是一行文本,这个参数可以减少识别错误率, 默认为 3 configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名。
6)java调用tesseract-ocr, http://blog.sina.com.cn/s/blog_025270e90101avgb.html
7)windows下使用tesseract-ocr,http://blog.csdn.net/xiaochunyong/article/details/7193744
8)仅识别数字,tesseract imagename outputbase digits
相关推荐
捷速OCR文字识别软件是将你的图片转换成word及可编辑的文字。该软件具备一键转换功能,是OCR识别软件中包含格式最多、识别率最高、速度最快的一款识别软件。本软件支持识别前对页面的分析、识别时对文件的预览及修改...
OCR文字识别程序OCR文字识别程序OCR文字识别程序
Android应用源码OCR文字识别 SimpleOCR.zip
奇迹OCR文字识别软件免费OCR文字识别软件,图片转换成TXT或WORD,识别极速、效果好。OCR文字识别软件是将你上传的图片转换成WORD、图片转换成文字等可编辑文字,一键转换,OCR识别在线超快并且免费!支持JPG、PNG、...
奇迹OCR文字识别软件免费OCR文字识别软件,图片转换成TXT或WORD,识别极速、效果好。OCR文字识别软件是将你上传的图片转换成WORD、图片转换成文字等可编辑文字,一键转换,OCR识别在线超快并且免费!支持JPG、PNG、...
汉王OCR文字识别软件 相比大家都知道OCR技术吧! 所谓OCR也就是图像文字识别技术,利用计算机将扫描仪或者数码相机导入的图片中的文字给抽取出来.... ocr的原理说起来很复杂,简单的说就是利用各种模式识别算法分析...
捷速OCR文字识别软件识别图片中的文字,准确度高,速度快,你值得拥有
人工智能OCR文字识别程序(VB源代码) Artificial Intellegence 欢迎下载!!!
天若OCR文字识别
OCR文字识别项目实战
Android项目OCR文字识别.rar介绍 本资源为一套基于Android平台的OCR(光学字符识别)文字识别项目。它可以帮助开发者快速实现移动端的文字识别功能,支持多种语言,包括但不限于中文、英文等。该项目采用开源技术,...
一款超级强悍的OCR文字识别软件,名字叫 Readiris Corporate 17 ,版本等级比readiris pro高,功能也更全面 作为一流水准的OCR文字识别软件Readiris 17的识别能力也是达到了惊人的98%以上,且对中文的支持也是相当的...
天若OCR文字识别 v5.0 超好用的文字识别翻译小工具 关于文字识别OCR,很多人都有了解。像百度、有道等都有其OCR接口功能。包括一些pdf软件,也有OCR文字识别功能。不过,我们有时候只是想使用文字识别这一个功能,...
VB OCR文字识别程序,调用知名OCR平台api,识别正确率高达99%。程序示例用于识别验证码,可以用于其它项目的图片识别。本项目第三方转发,如有侵权,请联系,并里面删除。
天若OCR文字识别本地版-v1.3.5-x64.7z
此为基于java技术的OCR文字识别软件源码,识别精准度较高。可直接使用,也可抽取其核心代码与其他java项目结合使用。
黑洞OCR文字识别小程序是一款非常完美非常小巧轻量级的OCR文字识别软件 指利用OCR (Optical Character Recognition,光学字符识别)技术,将图片、照片上的文字内容,直接转换为可编辑文本的软件。软件可以把图片...
OCR文字识别程序OCR文字识别程序OCR文字识别程序OCR文字识别程序