使用华为云鲲鹏弹性云服务器部署文字识别Tesseract
引导式阅读
Others
使用华为云鲲鹏弹性云服务器部署文字识别Tesseract
作者
HDC.Cloud
上架时间
2020-01-13 11:45:41

使用华为云鲲鹏弹性云服务器部署文字识别Tesseract

您在体验过程中有任何疑问,都可以在此留言反馈>>

1. 体验入口

  • 请前往华为云学院云端实验室进行实操体验:体验链接

2. 介绍

什么是Tesseract?

Tesseract是一个光学字符识别引擎,支持多种操作系统。Tesseract是基于Apache许可证的自由软件,自2006 年起由Google赞助开发。

您将建立什么?

在本次Codelab中,您能够在鲲鹏云服务器上如何快速部署开源OCR软件,并使用文字识别服务。

您将学会到什么

  • <span id="_w7akf9d42zqu" class="anchor"></span>体验在鲲鹏云服务器上通过源码安装Tesseract软件。

  • 在鲲鹏上使用Tesseract识别图片中的文字。

您需要什么?

开发环境及技能要求:

  • 熟练使用Linux基本操作命令。

  • 了解tesseract的基本原理。

运行操作系统要求:

  • CentOS 7.6.1810。

3. 能力接入准备

在使用华为云鲲鹏弹性云服务器部署文字识别Tesseract前,需要完成以下准备工作。

  • 安装Chrome浏览器

  • 注册华为云账号

  • 华为云账号通过实名认证

<span id="_o40w312plm2e" class="anchor"><span id="_oca6enrjsqee" class="anchor"><span id="_m5sscdhjc595" class="anchor"><span id="_17y63mruoq5q" class="anchor"><span id="_2cbkuoomckk6" class="anchor"><span id="_b34c35juvgo6" class="anchor"></span></span></span></span></span></span>

4. 安装依赖的基础组件

  • 购买鲲鹏弹性云服务器并配置EIP,通过EIP登录到云服务器。

  • 配置tesseract所依赖的环境,例如构建系统的工具automake、创建库的工具libtool、C++编译器,png图片库、jpeg图片库、tiff图片库等

yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel –y

5.下载编译安装leptonica

  • 下载tesseract依赖的图像处理库leptonica源码包,利用leptonica源码包中这些库可实现开源tesseract字符识别库的静态编译。
wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
  • 解压leptonica
tar -xvf leptonica-1.78.0.tar.gz
  • 编译和安装leptonica
cd leptonica-1.78.0 ./configure --prefix=/usr/ && make -j4 && make install
  • 配置leptonica涉及的环境变量
vi /etc/profile(VI的意思是编辑)
  • 点击i键进入编辑模式,点击shift+g进入该配置文件的最后,在倒数第三行加入如下内容
export PKG\_CONFIG\_PATH=/usr/lib/pkgconfig

  • 点击ESC退出编辑,输入:wq保存。执行以下命令使环境变量有效
source /etc/profile ldconfig

6. 下载编译安装Tesseract并运行

  • 下载tesseract源码包。
cd /usr/local/src(下载源代码到该目录下) wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz
  • 解压tesseract源码包。
tar -xvf 4.0.0.tar.gz
  • 编译和安装tesseract
cd tesseract-4.0.0 ./autogen.sh && ./configure && make -j4 && make install
  • 下载英文语言包。
cd /root wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
  • 下载中文语言包。
cd /root wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi\_sim.traineddata
  • 将语言包复制到对应的目录
cp eng.traineddata /usr/local/share/tessdata -r cp chi\_sim.traineddata /usr/local/share/tessdata -r
  • 英文测试。
wget [*https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp*](https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp) tesseract kunpeng.bmp result(识别鲲鹏中的内容并将其存放在result中) cat result.txt
  • 显示如下:

  • 中文测试。
wget [*https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng\_chi.bmp*](https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng_chi.bmp) tesseract -l chi\_sim kunpeng\_chi.bmp res\_chi cat res\_chi.txt
  • 显示如下:

<span id="OLE_LINK6" class="anchor"></span>

7. 恭喜你

祝贺您,您已经成功地使用华为云鲲鹏弹性云服务器部署文字识别Tesseract,并学到了:

  • 如何在鲲鹏弹性云服务器上使用文字识别。

8. 参与互动赢好礼

来体验鲲鹏Codelabs,赢HDC畅玩好礼(限量赠送)

9.参考文件