您可能知道recaptcha是互联网的把关人——复选框、单词或照片形式的小测试,从稍微令人讨厌到滑稽地令人沮丧。
但是,究竟什么是reCAPTCHA ?reCAPTCHA是谷歌的一项服务,旨在帮助保护网站免受垃圾邮件和滥用。
最初的验证码测试是由卡内基梅隆大学的一个团队设计的,要求用户破译数字或字母。CAPTCHA是用来区分计算机和人类的完全自动化公共图灵测试的首字母缩写。谷歌重新设计了验证码测试,提高了其抵御高级机器人和恶意软件的能力,这项新服务被称为reCAPTCHA。
基本谷歌reCAPTCHA是一个免费的服务,但是reCAPTCHA Enterprise允许您在整个网站扩展高级ob体育app苹果版风险分析功能,而不是局限于特定的页面。
所有这些测试对人类来说都是容易的,对机器人来说是困难的,这样只有真人才能访问网站。起初,这是他们唯一的目的——限制网页上的垃圾邮件和机器人活动。但是,再验证码在图书保存和模因文化中也发挥了重要作用。
recaptcha帮助数以百万计的单词数字化
危地马拉计算机科学家路易斯·冯·安领导CAPTCHA项目背后的团队在卡内基梅隆大学。虽然该项目最初的目标是防止自动化服务滥用网络,但该团队意识到,有可能引导人工努力同时支持另一个目标:将旧印刷材料数字化。
油墨褪色或书页发黄的印刷材料以及手写文本很难扫描——光学字符识别(OCR)程序只能识别约20%的单词。
路易斯和他的团队估计,人类每天花费数十万小时解决reCAPTCHA挑战。为了不浪费这些工作,该团队将扫描文本中的单词输入到recaptcha中,本质上是要求人们逐字逐句地抄写文本。
的纽约时报(纽约时报)的档案是测试的理想选择,因为文章可以追溯到19世纪中期,这使得团队可以测试五个不同年份(1860年、1865年、1908年、1935年和1970年)的扫描文章。无法识别的单词被发送给多个用户来验证转录,准确率达到了99.1%。
实验成功后,整个纽约时报档案被输入到reCAPTCHA服务中。在一年之内,网民们已经翻译了超过4.4亿字,相当于17600本书。
到2011年,解决recaptcha的人们在不知不觉中帮助完成了整个的数字化纽约时报档案。在这一点上,谷歌以项目为中心,支持他们的大规模努力,将几乎所有现有的书籍数字化。虽然通过reCAPTCHA验证进行数字化的图书的官方数量尚不清楚,但这种努力与人工和人工智能支持的过程相结合,构成了数百万的数字化图书其中2500万是谷歌不允许分享的,但那是另一个故事了。
但并非所有的reCAPTCHA努力都能保存历史文章和书籍
尽管由于历史原因,使用recaptcha将旧印刷材料数字化非常酷,但并不是所有人都对该项目的发展感到兴奋。帮助将19世纪纽约时报的文章数字化是一回事,但为谷歌抄写图书并输入用户交互和行为数据则是另一回事。
谷歌因为使用recaptcha而受到批评,甚至被起诉促进无偿转录劳动谷歌最终从中获利。当互联网用户继续免费抄写来自各个大学和政府的书籍、文件和文章时,谷歌却在为这项服务收费。
2012年,当照片重现码在互联网上出现时,情况变得更加模糊。从谷歌街景中提取的图像和数字会弹出在recaptcha中,要求用户验证街道名称或地址,这为谷歌提供了图像识别他们需要数据来改善谷歌地图.
现在,您可能不会看到很多街道地址提示,但这并不是因为谷歌已经完成了数据收集。现在,谷歌对浏览器交互进行行为分析,试图猜测用户是否是人类。如果动作看起来像人,谷歌提供没有验证码reCAPTCHA这是一个简单的复选框,要求你确认自己不是机器人。Web开发人员也可以使用看不见的recaptcha,它们跳过复选框,并在用户单击现有按钮或通过JavaScript API调用时验证用户。
如果这些方法中的任何一个都不认为你是人类,你可能会得到“选择所有包含的方格”版本的reCAPTCHA。这些测试要求你看一张被分隔成网格的照片,然后只选择包含特定对象的正方形,比如红绿灯或汽车。
我们可能并不喜欢关于recaptcha的所有内容,但我认为谷歌向更多照片网格的转变有一个主要好处——产生了几种新的表情包格式。
recaptcha在表情包历史上赢得了一席之地
如果你给网民提供了脱离上下文的照片或文字,表情包是不可避免的。奇怪的单词搭配,以尴尬的角度拍摄的沉闷的街道照片,以及令人沮丧的认证失败,很快就变成了网络笑话。
原来的验证码2000年确认模因地位.当时,大多数相关的表情包都是CAPTCHArt——一种“由CAPTCHA随机生成的单词对启发绘制漫画或ps图像”的格式。
例如,一幅画,一个人在被要求输入“配对”这个词后挣扎着。别类型”或道森meme哭结合“配对”泪珠35度.”
文本验证码也增加了Inglip表情包,但这种风格深入到网络文化的深处。Inglip”是一个互联网以同名为基础的民间传说愤怒漫画这个角色可以通过媒介与被称为Gropagas的神话助手交流验证码图像。”
基本上,一个潦草的网络老兄认为验证码是来自神话的信息。
我不会在这里深入研究Inglip的复杂性,但如果您愿意,可以那里有很多信息.
就我个人而言,我认为“选择所有方块”的格式是验证码表情包游戏中真正的明星。从技术上讲,它仍然是一个未经证实的文化基因,但我有信心。这种表情包风格有一些变化——有压力的选择,对无意义请求的回应,以及虚构的照片网格。
我个人最喜欢的是压力出汗的人。的约旦Peele出汗Meme与一个照片网格相匹配,显示所请求的对象(红绿灯、自行车等)非常轻微地嵌入到另一个方格中,使您怀疑它是否符合“包含”对象的资格。
例如,一个交通灯提示在最微弱的光线穿过空旷的广场的地方。或要求正方形包含一辆自行车轮胎的边缘几乎与另一个方格相交。
另一种reCAPTCHA表情包格式强调,计算机并不总是完美的。对不可能或难以解决的提示的反应会导致像下面这个表情包一样的结果眨眼的白人表情包对照片中不包含任何消防栓的提示作出反应。
当然也有完全制造的照片网格。在这个版本中,表情包创造者通常会侮辱某人(例如,a绝地大师提示符漏掉了阿纳金)或夸大reCAPTCHAs的难度(例如,aWaldo的提示).
reCAPTCHAs接下来要做什么?
现在这些机器人拦截器保存了一个多世纪的价值纽约时报档案和数以百万计的书籍,他们还能做什么?
鉴于谷歌reCAPTCHA是首选的解决方案,谷歌可能会继续为自己的目的使用它们,比如训练机器学习和分析用户行为。
如果这让你感到沮丧,也许了解最初的验证码创建者发生了什么会有所帮助。还记得卡内基梅隆大学的路易斯·冯·安吗?他把自己在同时实现两个目标方面学到的东西带在身边,并与人共同创建了语言学习应用“多邻国”(Duolingo)。
路易斯非常热衷于提供免费选项,所以在最初几年(在他获得更多资金之前),他通过使用应用程序的某些方面来维持业务作为翻译服务-很像早期的验证码和转录模型。
我们也别忘了表情包。无论这项技术如何使用,没有人能阻止互联网上的人们创建和享受reCAPTCHA表情包。