程序员人生 网站导航

科普---互联网图片 文字识别系统 你造么

栏目:互联网时间:2014-10-08 12:25:28

文通互联网图片文字识别系统




你不努力,别人就会超越你!
我明白、不是每一次付出的努力都会得到收货!
但是我始终相信每一次收货、都需要付出努力!

我们的OCR一直在努力改进、提升!
我们在一直按照我们的使命前行--------源于清华  服务全球!

一、公司研发背景

1、  公司简介

北京文通科技有限公司是享誉国内外的OCR(光学字符识别)技术生产商、文档影像技术和应用解决方案提供商。在与清华大学的携手合作过程中,文通科技成功地将"国家863计划"项目成果――"文字图像识别技术TH-OCR"产业化,真正实现了TH-OCR技术与市场应用的完美结合。

文通科技以TH-OCR和手写识别技术为核心,研发出多项产品并提供多种行业解决方案,依靠完善的服务体系,拓宽了产品技术应用领域。目前,文通科技已经拥有跨平台(包括Windows/Linux/Android/IOS及嵌入式平台)的智能图像处理、亚洲文字OCR、手写识别、二维条码识别等自有知识产权技术。公司业务深入至金融保险、智能交通、税务、公共安全、政府等行业领域。

 

2、  行业背景

2.1、OCR技术由来已久

  1929年,德国的科学家Tausheck首先提出了OCR的概念,并且申请了专利。几年后,美国科学家Handel也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别,转化成计算机内码。

  在60~70年代,世界各国相继开始了OCR的研究,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。

2.2、汉字OCR技术发展迅速

  对于汉字的识别最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。

  我国OCR技术自70年代才开始对数字、英文字母及符号的识别进行研究。

  同国外相比,我国的光学字符识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,汉字识别技术的发展和应用有了长足进步:目前系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。

2.3、OCR的“三级跳”

  任何一项技术要从实验室走向市场,都要实现技术、产品和应用的“三级跳”。对于OCR技术来说也是如此。正如上面所说的,OCR在中国经历了几十年的发展,技术和产品已经非常成熟了,其识别率也已经达到相当高的水平,而在应用方面,却远远落后于欧美以及日本等国家。

从行业消费者的需求来看,电子政务、金融、保险、税务、工商等行业用户对信息识别的需求已越来越广泛,由此大力促使了识别技术的大规模的应用。而个人消费者对资料电子化、手写识别技术等需求拓展了OCR识别技术在这一领域的应用之路。

与此同时,网络时代的特征也在影响着OCR应用市场的前进步伐,政府、公司、家庭、个人均是网络时代的组成部分,因此,大家越来越重视信息安全方面的内容在网络上传播,政府也越来越重视网络舆情领域对民众的思想引导影响,在这样的环境下,传统的文字识别已经不能满足当下的使用需求,互联网图片文字识别系统应运而生!

二、软件面向行业

1、互联网搜索公司:

手机拍摄图片识别

一些互联网搜索公司经常会遇到移动终端拍照的图片文字提取的需求,这个时候就需要一项技术专门来提取这些信息,将结果传输回给用户进行复用!这里面会包含各式各样类型的图片,识别的复杂程度非常高。

2、舆情监控公司:

   长微博图片识别,网页截屏识别

由于目前中国经济发展较好,国际上的一些潜在威胁慢慢的想国内蔓延,针对这种情况发展而起的舆情监控公司非常需要一套有力的技术手段,对非传统的文字信息,也就是图片来进行监测和控制,用以及时发现不良活动的苗头,防患于未然。

通常舆情监控公司对网页截图的传播,以及长微博的传播,以及一些博客论坛的图片传播监控力度不够,主要是针对图片识别的技术一直较落后的原因使然。

所以互联网图片文字识别系统可以帮助舆情监控类的公司更高效的保护网络意识的干净环境,使谣言图片等止于源头。

3、信息安全公司:

扫描件识别、互联网图片识别、长微博识别,彩信图片识别

 

 

三、软件功能

1、识别算法

以下算法都是系统先自动计算,定位出文字位置,然后进行文字字符切分,最后进行文字字符识别的过程,差别就在于定位文字的方法,以及字符识别的算法!

(1)   普通互联网图像识别核心

在网上传播的一些较简单、类似文档的图片进行识别,提取出相应的文字内容,用于后端的系统集成;

(2)   复杂背景图像识别核心

在网上传播的一些较复杂、类似广告、宣传、推广的海报类图片进行识别,也包括一些后期加文字处理的照片识别,还包括用户手机拍照或者制作的彩信图片识别;这些图片多半出现在论坛、博客等区域,或者通过互联网,或者通过移动网络进行传播,带有较强的引导读者思路的影响;针对这些图片进行文字提取,然后进行系统集成。

(3)   长微博图像识别核心:这个目前使用

由于移动手持设备的大力发展,手机、平板的广泛应用,很多文章都会被转化成适合小宽度超长度的图片,供移动终端设备查阅,由于其传播载体太过广泛,对读者的思维渗透影响卓绝,势必需要对立面的内容进行识别,然后集成到相应系统中甄别不良信息。

长微博识别核心可以针对长微博这种类型的图片,进行特殊的版面分析方法,准确的进行文字定位,然后对每个字符进行切分识别;同时针对复杂背景以及一类特殊字体进行识别。

2、软件功能

该技术是一个系统集成开发包,C语言所写,具有丰富的接口,可以兼容目前市面上各种设计语言的环境接口;软件演示程序会包括下列几项设置:

(1)   选择识别算法

根据应用场景的不同,可以预先选择4种识别算法中的一种来提高工作效果:

(2)   识别语言选择

目前系统支持纯英语、汉语+英语、汉语,其中汉语包括简体和繁体两种。

少数民族语言:维吾尔文,哈萨克文(新疆),藏文,阿拉伯文,

(3)   显示识别结果

   对识别的结果显示支持设置,包括字体、字号等内容

(4)   显示定位区域识别结果

识别结果包括定位的区域和位置,方便用户查阅识别的对象是否是所需要的内容。

(5)   支持的图片格式

TIF、BMP、PNG、JPG、GIF

(6)   竖排文字识别

 

 

 


 

 

四、操作系统支持

    目前市面上的公司普遍服务器使用的是windows和linux 两类系统,这两类系统中又分为32位和64位;该开发包目前全兼容这两种系统4个平台

(1)         Windows32和64位操作系统

(2)         Linux32和64位操作系统

 

 

 


 

 

 

 

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐