Tesseract OCR(Optical Character Recognition)是一款开源的光学字符识别引擎,最初由惠普实验室在1985年至1995年间开发,后被Google接手并开源 。它支持多种语言的文本识别,能够将图片中的文字转换为可编辑和可搜索的数据格式 。Tesseract OCR具有以下特点和优势:
特点
-
完全开源:基于Apache 2.0许可证发布,可免费用于商业和个人项目 。
-
多语言支持:内置100多种语言模型,包括中文、日文、韩文等 。
-
跨平台兼容:可在Windows、Linux和macOS等多种操作系统上运行 。
-
支持多种图像格式:可直接识别PNG、JPEG、TIFF等常见图片格式 。
-
神经网络支持:自4.0版本起引入LSTM(长短时记忆网络),提高对手写体和复杂字体的识别能力 。
使用方法
-
命令行工具:用户可以通过简单的命令行输入执行OCR任务 。
-
编程语言API:提供C++、Python、Java等多种编程语言的API接口,方便开发者集成到应用程序中 。
应用场景
-
文档数字化:将纸质文档(如书籍、报纸、合同等)扫描后,通过Tesseract识别文字内容,转换为电子文档 。
-
表格数据提取:从扫描的表格文档中提取文字信息,自动转换为电子表格 。
-
发票识别:识别发票上的文字信息(如金额、日期、税号等),用于财务管理和税务申报 。
-
移动OCR应用:集成到移动设备中,开发翻译工具、笔记应用、文档扫描工具等 。
-
教材数字化:将纸质教材转换为电子版,方便学生和教师使用 。
Tesseract OCR凭借其强大的功能和灵活性,已成为众多OCR项目的首选工具 。
本文章演示在AlmaLinux上安装Tesseract OCR(Optical Character Recognition)可以通过包管理器(如dnf)进行。以下是安装Tesseract的基本步骤:
更新系统:
在安装软件之前,建议先更新系统:
sudo dnf update
安装Tesseract:
使用dnf包管理器安装Tesseract:
sudo dnf install tesseract
安装语言包(可选):
Tesseract支持多种语言,你可以根据需要安装对应的语言包。例如,如果需要安装英语语言包:
sudo dnf install tesseract-langpack-eng
安装中文语言包:
tesseract input_image.png output_text -l chi_sim
安装繁体中文语言包:
sudo dnf install tesseract-langpack-chi_tra
可选:其他更多语言包:
sudo dnf install tesseract-langpack-deu # German sudo dnf install tesseract-langpack-fra # French
验证安装:
tesseract --version
测试是否正常:
#多个语言包用 + 号 tesseract 1.jpg out -l chi_sim+eng
在这个例子中,eng 表示英语,chi_sim 表示简体中文。
请注意,Tesseract 的识别结果可能会受到语言之间的干扰,因此在使用多语言时,建议根据实际需求调整语言的顺序,以获得最佳的识别效果。
如果提示:提示无效的DPI设置
Invalid resolution 0 dpi. Using 70 instead
tesseract input_image.png output_text --dpi 100