终于知道谷歌验证码为毛这么难看

  • A+
所属分类:印象笔记

伟大的谷歌图书数字计划

2004年谷歌宣布开启一项新的数字工程,计划尽可能将全世界纸质图书扫描成电子版,让更多的书籍网络数字化让全球网民搜索阅读;

书籍来源图书馆无疑是最佳的选择对象,天然聚集大量图书,而且很多很多书籍是互联网上根本没有的,如果将其数字化通过搜索引擎就能找到阅读,自然造福人类,让有求知欲的网友发现更多有价值的书籍阅读学习扩充个人知识量;也让更多的书籍让世人知晓,让那些没有条件能力去图书馆的人也能接触到学习资料,这是一项伟大的数字工程;

在谷歌的影响力下,哈佛大学、牛津大学、斯坦福大学、康奈尔大学、纽约公共图书馆等等世界一流图书馆都参与了合作,光是哈佛大学就有1600万册书籍,牛津大学650万册书,纽约公共图书馆51万本书,加上其它大大小小的图书馆若将这些书籍全部数字化将是一笔巨大的知识财富;

终于知道谷歌验证码为毛这么难看

数字化也不是那么的容易

第一个是版权问题,为此谷歌已经被高过很多次了,但这终究是人的问题,人与人之间的问题一定会有办法来规避避免方法;

第二个难点是如何准确海量的完成图书数字化之路,如果一本书存在大量错误自然是没法阅读的;

既然是批量转化书籍,肯定不能是打字员来人工处理,必定是通过技术手段机器识别才能处理海量的图片文字信息;

首先将书页扫描成图片,然后通过OCR光学字符扫描分析,利用程序算法来判断图片的文字内容输出为文本;

识别过程中并非很完美,字字都正确,还是会存在不少错误的,造成识别出错的原因有很多,比如算法缺陷,比如字迹模糊,比如污迹等;

对于这些识别不出来的文字,靠程序来修正是不可能了,毕竟机器就是机器它没有自我意思,无法像人脑一样思考判断错来分析误信息的本意;

巧妙结社社会资源发动网友来帮助修正错误文字信息

之前扫描的图书文字还存在很多错误信息只能算作是半成品,阅读体验是很糟糕的,因此得进一步深加工才能推向公众;

卡内基梅隆大学发明一项ReCAPTCHA系统,这个系统可以收集错误信息,通过api接口调用透过第三方来修正错误,然后将修正后的文字信息返回服务器自动修正,为此谷歌于2009年收购了ReCAPTCHA技术;

谷歌评论验证码正是利用ReCAPTCHA技术将难以识别的文字信息作为验证码,大量论坛、博客等网站接入用来阻挡垃圾评论,净化网站评论;当用户发表评论或者注册账户的时候,便会要求输入谷歌提供的验证码,这样无形中就人工处理了机器无法识别的文字,二来有效阻挡了机器产生的垃圾评论;

终于知道谷歌验证码为毛这么难看

聪明的ReCAPTCHA

既然验证码是谷歌自己都不知道的具体信息,那么它又如何知道用户不是随意乱输入的信息呢?

看看验证码图片不难看出,它分为两部分,这当中有一个是正确的单词谷歌已知信息,另一个是错误的单词(无法识别的图书内容)两部分混合而成,顺序随机;

当正确的单词输入正确后通过,同一个验证码它应该会通过至少两三个用户确认后自动提交服务器修正错误识别信息;

伴随着海量的网站海量的用户高频率的使用谷歌验证码,靠规模优势每天修正的文本内容数量应该是惊人的,很多用户自己可能都不知道无形中参与了谷歌的数字图书计划的一部分;

终于知道谷歌验证码为毛这么难看

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

,输入正确后才能评论!