使用华为云鲲鹏弹性云服务器部署文字识别Tesseract

您在体验过程中有任何疑问，都可以在此留言反馈>>

1. 体验入口

请前往华为云学院云端实验室进行实操体验：

2. 介绍

什么是Tesseract?

Tesseract是一个光学字符识别引擎，支持多种操作系统。Tesseract是基于Apache许可证的自由软件，自2006 年起由Google赞助开发。

您将建立什么？

在本次Codelab中，您能够在鲲鹏云服务器上如何快速部署开源OCR软件，并使用文字识别服务。

您将学会到什么

体验在鲲鹏云服务器上通过源码安装Tesseract软件。
在鲲鹏上使用Tesseract识别图片中的文字。

您需要什么？

开发环境及技能要求：

熟练使用Linux基本操作命令。
了解tesseract的基本原理。

运行操作系统要求：

CentOS 7.6.1810。

3. 能力接入准备

在使用华为云鲲鹏弹性云服务器部署文字识别Tesseract前，需要完成以下准备工作。

安装Chrome浏览器
注册华为云账号
华为云账号通过实名认证

4. 安装依赖的基础组件

购买鲲鹏弹性云服务器并配置EIP，通过EIP登录到云服务器。
配置tesseract所依赖的环境，例如构建系统的工具automake、创建库的工具libtool、C++编译器，png图片库、jpeg图片库、tiff图片库等


                    
                    Copied!
                
 yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel –y

5.下载编译安装leptonica

下载tesseract依赖的图像处理库leptonica源码包，利用leptonica源码包中这些库可实现开源tesseract字符识别库的静态编译。


                    
                    Copied!
                
 wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz

解压leptonica


                    
                    Copied!
                
 tar -xvf leptonica-1.78.0.tar.gz

编译和安装leptonica


                    
                    Copied!
                
 cd leptonica-1.78.0

 ./configure --prefix=/usr/ && make -j4 && make install

配置leptonica涉及的环境变量


                    
                    Copied!
                
 vi /etc/profile（VI的意思是编辑）

点击i键进入编辑模式，点击shift+g进入该配置文件的最后，在倒数第三行加入如下内容


                    
                    Copied!
                
 export PKG\_CONFIG\_PATH=/usr/lib/pkgconfig

点击ESC退出编辑，输入:wq保存。执行以下命令使环境变量有效


                    
                    Copied!
                
 source /etc/profile

 ldconfig

6. 下载编译安装Tesseract并运行

下载tesseract源码包。


                    
                    Copied!
                
 cd /usr/local/src（下载源代码到该目录下）

 wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz

解压tesseract源码包。


                    
                    Copied!
                
 tar -xvf 4.0.0.tar.gz

编译和安装tesseract


                    
                    Copied!
                
 cd tesseract-4.0.0

 ./autogen.sh && ./configure && make -j4 && make install

下载英文语言包。


                    
                    Copied!
                
 cd /root

 wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata

下载中文语言包。


                    
                    Copied!
                
 cd /root

 wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi\_sim.traineddata


                    
                    Copied!
                
 cp eng.traineddata /usr/local/share/tessdata -r

 cp chi\_sim.traineddata /usr/local/share/tessdata -r

英文测试。


                    
                    Copied!
                
 wget [*https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp*](https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp)

 tesseract kunpeng.bmp result（识别鲲鹏中的内容并将其存放在result中）

 cat result.txt

显示如下：

中文测试。


                    
                    Copied!
                
 wget [*https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng\_chi.bmp*](https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng_chi.bmp)

 tesseract -l chi\_sim kunpeng\_chi.bmp res\_chi

 cat res\_chi.txt

显示如下：

7. 恭喜你

祝贺您，您已经成功地使用华为云鲲鹏弹性云服务器部署文字识别Tesseract，并学到了：

如何在鲲鹏弹性云服务器上使用文字识别。

8. 参与互动赢好礼

来体验鲲鹏Codelabs，赢HDC畅玩好礼（限量赠送）

9.参考文件

华为云帐号的具体登录方法请参见华为云用户指南。
华为云实名认证的具体方式请参见实名认证指导。
华为云端实验室用户指南请参见华为云实验用户指南。