Tesseract 开源的文字识别工具

本文章分享 Tesseract 相关内容

Tesseract OCR(Optical Character Recognition)是一款开源的光学字符识别引擎,最初由惠普实验室在1985年至1995年间开发,后被Google接手并开源 。它支持多种语言的文本识别,能够将图片中的文字转换为可编辑和可搜索的数据格式 。Tesseract OCR具有以下特点和优势:

特点

使用方法

应用场景

Tesseract OCR凭借其强大的功能和灵活性,已成为众多OCR项目的首选工具

本文章演示在AlmaLinux上安装Tesseract OCR(Optical Character Recognition)可以通过包管理器(如dnf)进行。以下是安装Tesseract的基本步骤:

更新系统:

在安装软件之前,建议先更新系统:

sudo dnf update

安装Tesseract:

使用dnf包管理器安装Tesseract:

sudo dnf install tesseract

安装语言包(可选):

Tesseract支持多种语言,你可以根据需要安装对应的语言包。例如,如果需要安装英语语言包:

sudo dnf install tesseract-langpack-eng

安装中文语言包:

tesseract input_image.png output_text -l chi_sim

安装繁体中文语言包:

sudo dnf install tesseract-langpack-chi_tra

可选:其他更多语言包:

sudo dnf install tesseract-langpack-deu  # German
sudo dnf install tesseract-langpack-fra  # French

验证安装:

tesseract --version

测试是否正常:

#多个语言包用 + 号
tesseract 1.jpg out -l chi_sim+eng

在这个例子中,eng 表示英语,chi_sim 表示简体中文。

请注意,Tesseract 的识别结果可能会受到语言之间的干扰,因此在使用多语言时,建议根据实际需求调整语言的顺序,以获得最佳的识别效果。

如果提示:提示无效的DPI设置

Invalid resolution 0 dpi. Using 70 instead

tesseract input_image.png output_text --dpi 100