Tesseract 开源的文字识别工具

Tesseract OCR（Optical Character Recognition）是一款开源的光学字符识别引擎，最初由惠普实验室在1985年至1995年间开发，后被Google接手并开源。它支持多种语言的文本识别，能够将图片中的文字转换为可编辑和可搜索的数据格式。Tesseract OCR具有以下特点和优势：

特点

完全开源：基于Apache 2.0许可证发布，可免费用于商业和个人项目。
多语言支持：内置100多种语言模型，包括中文、日文、韩文等。
跨平台兼容：可在Windows、Linux和macOS等多种操作系统上运行。
支持多种图像格式：可直接识别PNG、JPEG、TIFF等常见图片格式。
神经网络支持：自4.0版本起引入LSTM（长短时记忆网络），提高对手写体和复杂字体的识别能力。

使用方法

命令行工具：用户可以通过简单的命令行输入执行OCR任务。
编程语言API：提供C++、Python、Java等多种编程语言的API接口，方便开发者集成到应用程序中。

应用场景

文档数字化：将纸质文档（如书籍、报纸、合同等）扫描后，通过Tesseract识别文字内容，转换为电子文档。
表格数据提取：从扫描的表格文档中提取文字信息，自动转换为电子表格。
发票识别：识别发票上的文字信息（如金额、日期、税号等），用于财务管理和税务申报。
移动OCR应用：集成到移动设备中，开发翻译工具、笔记应用、文档扫描工具等。
教材数字化：将纸质教材转换为电子版，方便学生和教师使用。

Tesseract OCR凭借其强大的功能和灵活性，已成为众多OCR项目的首选工具。

本文章演示在AlmaLinux上安装Tesseract OCR（Optical Character Recognition）可以通过包管理器（如dnf）进行。以下是安装Tesseract的基本步骤：

更新系统：

在安装软件之前，建议先更新系统：

sudo dnf update

安装Tesseract：

使用dnf包管理器安装Tesseract：

sudo dnf install tesseract

安装语言包（可选）：

Tesseract支持多种语言，你可以根据需要安装对应的语言包。例如，如果需要安装英语语言包：

sudo dnf install tesseract-langpack-eng

安装中文语言包：

tesseract input_image.png output_text -l chi_sim

安装繁体中文语言包：

sudo dnf install tesseract-langpack-chi_tra

可选：其他更多语言包：

sudo dnf install tesseract-langpack-deu  # German
sudo dnf install tesseract-langpack-fra  # French

验证安装：

tesseract --version

测试是否正常：

#多个语言包用 + 号
tesseract 1.jpg out -l chi_sim+eng

在这个例子中，eng 表示英语，chi_sim 表示简体中文。

请注意，Tesseract 的识别结果可能会受到语言之间的干扰，因此在使用多语言时，建议根据实际需求调整语言的顺序，以获得最佳的识别效果。

如果提示：提示无效的DPI设置

Invalid resolution 0 dpi. Using 70 instead

tesseract input_image.png output_text --dpi 100