使用华为云鲲鹏弹性云服务器部署文字识别Tesseract
您在体验过程中有任何疑问,都可以在此留言反馈>>![]()
1. 体验入口
- 请前往华为云学院云端实验室进行实操体验:
![体验链接]()
2. 介绍
什么是Tesseract?
Tesseract是一个光学字符识别引擎,支持多种操作系统。Tesseract是基于Apache许可证的自由软件,自2006 年起由Google赞助开发。
您将建立什么?
在本次Codelab中,您能够在鲲鹏云服务器上如何快速部署开源OCR软件,并使用文字识别服务。
您将学会到什么
您需要什么?
开发环境及技能要求:
-
熟练使用Linux基本操作命令。
-
了解tesseract的基本原理。
运行操作系统要求:
3. 能力接入准备
在使用华为云鲲鹏弹性云服务器部署文字识别Tesseract前,需要完成以下准备工作。
-
安装Chrome浏览器
-
注册华为云账号
-
华为云账号通过实名认证
<span id="_o40w312plm2e" class="anchor"><span id="_oca6enrjsqee" class="anchor"><span id="_m5sscdhjc595" class="anchor"><span id="_17y63mruoq5q" class="anchor"><span id="_2cbkuoomckk6" class="anchor"><span id="_b34c35juvgo6" class="anchor"></span></span></span></span></span></span>
4. 安装依赖的基础组件
Copied!
yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel –y
5.下载编译安装leptonica
- 下载tesseract依赖的图像处理库leptonica源码包,利用leptonica源码包中这些库可实现开源tesseract字符识别库的静态编译。
Copied!
wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
Copied!
tar -xvf leptonica-1.78.0.tar.gz
Copied!
cd leptonica-1.78.0
./configure --prefix=/usr/ && make -j4 && make install
Copied!
vi /etc/profile(VI的意思是编辑)
- 点击i键进入编辑模式,点击shift+g进入该配置文件的最后,在倒数第三行加入如下内容
Copied!
export PKG\_CONFIG\_PATH=/usr/lib/pkgconfig

- 点击ESC退出编辑,输入:wq保存。执行以下命令使环境变量有效
Copied!
source /etc/profile
ldconfig
6. 下载编译安装Tesseract并运行
Copied!
cd /usr/local/src(下载源代码到该目录下)
wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz
Copied!
tar -xvf 4.0.0.tar.gz
Copied!
cd tesseract-4.0.0
./autogen.sh && ./configure && make -j4 && make install
Copied!
cd /root
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
Copied!
cd /root
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi\_sim.traineddata
Copied!
cp eng.traineddata /usr/local/share/tessdata -r
cp chi\_sim.traineddata /usr/local/share/tessdata -r
Copied!
wget [*https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp*](https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp)
tesseract kunpeng.bmp result(识别鲲鹏中的内容并将其存放在result中)
cat result.txt
![]()
Copied!
wget [*https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng\_chi.bmp*](https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng_chi.bmp)
tesseract -l chi\_sim kunpeng\_chi.bmp res\_chi
cat res\_chi.txt
![]()
<span id="OLE_LINK6" class="anchor"></span>
7. 恭喜你
祝贺您,您已经成功地使用华为云鲲鹏弹性云服务器部署文字识别Tesseract,并学到了:
8. 参与互动赢好礼
来体验鲲鹏Codelabs,赢HDC畅玩好礼(限量赠送)
![]()
使用华为云鲲鹏弹性云服务器部署文字识别Tesseract
您在体验过程中有任何疑问,都可以在此留言反馈>>![]()
1. 体验入口
2. 介绍
什么是Tesseract?
Tesseract是一个光学字符识别引擎,支持多种操作系统。Tesseract是基于Apache许可证的自由软件,自2006 年起由Google赞助开发。
您将建立什么?
在本次Codelab中,您能够在鲲鹏云服务器上如何快速部署开源OCR软件,并使用文字识别服务。
您将学会到什么
<span id="_w7akf9d42zqu" class="anchor"></span>体验在鲲鹏云服务器上通过源码安装Tesseract软件。
在鲲鹏上使用Tesseract识别图片中的文字。
您需要什么?
开发环境及技能要求:
熟练使用Linux基本操作命令。
了解tesseract的基本原理。
运行操作系统要求:
3. 能力接入准备
在使用华为云鲲鹏弹性云服务器部署文字识别Tesseract前,需要完成以下准备工作。
安装Chrome浏览器
注册华为云账号
华为云账号通过实名认证
<span id="_o40w312plm2e" class="anchor"><span id="_oca6enrjsqee" class="anchor"><span id="_m5sscdhjc595" class="anchor"><span id="_17y63mruoq5q" class="anchor"><span id="_2cbkuoomckk6" class="anchor"><span id="_b34c35juvgo6" class="anchor"></span></span></span></span></span></span>
4. 安装依赖的基础组件
购买鲲鹏弹性云服务器并配置EIP,通过EIP登录到云服务器。
配置tesseract所依赖的环境,例如构建系统的工具automake、创建库的工具libtool、C++编译器,png图片库、jpeg图片库、tiff图片库等
5.下载编译安装leptonica
cd leptonica-1.78.0 ./configure --prefix=/usr/ && make -j4 && make install
export PKG\_CONFIG\_PATH=/usr/lib/pkgconfig
source /etc/profile ldconfig
6. 下载编译安装Tesseract并运行
cd /usr/local/src(下载源代码到该目录下) wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz
cd tesseract-4.0.0 ./autogen.sh && ./configure && make -j4 && make install
cd /root wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
cd /root wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi\_sim.traineddata
cp eng.traineddata /usr/local/share/tessdata -r cp chi\_sim.traineddata /usr/local/share/tessdata -r
wget [*https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp*](https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp) tesseract kunpeng.bmp result(识别鲲鹏中的内容并将其存放在result中) cat result.txt
wget [*https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng\_chi.bmp*](https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng_chi.bmp) tesseract -l chi\_sim kunpeng\_chi.bmp res\_chi cat res\_chi.txt
<span id="OLE_LINK6" class="anchor"></span>
7. 恭喜你
祝贺您,您已经成功地使用华为云鲲鹏弹性云服务器部署文字识别Tesseract,并学到了:
8. 参与互动赢好礼
来体验鲲鹏Codelabs,赢HDC畅玩好礼(限量赠送)![]()
9.参考文件
华为云帐号的具体登录方法请参见华为云用户指南。
华为云实名认证的具体方式请参见实名认证指导。
华为云端实验室用户指南请参见华为云实验用户指南。