背后那些小秘密

　　Manangershare：非功利地、充满好奇地探索，Google的小秘密们没准捣鼓出个人类的新未来，这就是科技的魅力和力量，当然，前提是Google除了有情怀还不差钱。
　　像 Google 这样体量庞大的公司，背后一定有许多不为人知的秘密。国外问答网站 Quora 上就出现了类似问题：
　　提问：关于 Google，有什么能让人激动的秘密么？
　　【以下答案随机排列】
　　Devesh Batra（4400 票）
　　有件与科技无关的事，你们可能不知道。
　　Google 从来不用割草机。那后院的草怎么办？他们雇了 200 只羊…
　　Mohit Meena（1600 票）
　　从 2010 年起，Google 一直保持着平均每周收购一家公司的速度。
　　（Google 你的购物车还好嘛…）
　　Bhuvana Gunasekar（1200 票）
　　几个月前看到下面的消息，完全被惊呆了。
　　Google 是科技领域中最赞的公司之一。因为它经常做一些特别酷炫，并且意义不明的事情。
　　Gmail 最新加入的支持语言是 Cherokee。
　　你没看错，是 Cherokee，北美印第安人中一支民族的语言。目前全世界讲这种语言的人只有不到 2 万人。Google 为什么要这么做，当然是为了保护这一濒临消失的语言。显然，一名讲 Cherokee 的人遇到了 Google 工程师，然后一切就自然而然地发生了。先是 Google 搜索，然后又是 Gmail。要知道这一定是 Google 与讲 Chrokee 的人们共同努力的成果，因为他们必须确定一些词汇，例如「收件箱」和「垃圾箱」要怎么说。
　　对全世界而言，这看起来或许是彻头彻尾的浪费时间，但是对于这 2 万名讲 Cherokee 的人来说，简直要感动哭了好吗。Google 太给力了。
　　Amandeep Kohli（2700 票）
　　你们知道 Google 主页上的「手气不错」按钮值多少钱吗？1.1 亿美元。每年。
　　你以前注意过那个不起眼的「手气不错」按钮吗？如果我告诉你为了这个灰色的小玩意，Google 每年要掏 1.1 亿美元呢？
　　（…整个人都不好了）
　　没错！这货所做的其实是一项隐秘而伟大的工程。它将用户直接转到最符合搜索内容的结果，相当于跳过了 top10 中的其他 9 个。此外，它还帮你跳过了广告…
　　Google 创始人 Sergey Brin 曾表示，在所有 Google 搜索结果中，有将近 1% 都是通过「手气不错」按钮跳转的。
　　既然这么贵，Google 为嘛不取消这一项服务？呃，其实它已经悄悄的这么干了…可能你都没注意到。如今「手气不错」还挂在 Google 主页上，但因为 Google 推出了即时搜索功能 Google Instant，你再也不用使用这个功能了…
　　自己试试吧。
　　据小编实际测试，搜索「暹罗猫」后点「手气不错」将直接进入百度百科界面。简直是业界良心…泪流满面…
　　Christopher Worrall（1000 票）
　　Google 体量太大，超越你的想象。
　　Google 建立了不下 30,000,000,000,000 条独立链接。
　　搜索结果的索引文件足有 100,000,000 GB。
　　目前已经花费相当于 1000 人年来优化其搜索结果。
　　Google 街景中拍摄的道路加起来有 5,000,000 英里。
　　YouTube 每月新增时长足有 450,000 年的视频——这和人类存在的时间一样长。
　　Sai Praneet（4700 票）
　　Google reCAPTCHA 项目
　　我们都遇到过验证码——花花绿绿的图片上写着乱七八糟的文字。多谢图灵测试，因为目前最高级的算法也无法像人类一样阅读排布混乱的内容。每天全世界会输入将近 2 亿个验证码，这相当于 150,000 小时的人力工作。Google reCAPTCHA 项目就机智地把这些数额巨大的人力工作集中起来，并将其应用在书籍数字化之中。
　　reCAPTCHA 项目最初是由 Luis von Ahn、Ben Maurer、Colin McMillen、David Abraham 和 Manuel Blum 几个人发起的，Google 在 2009 年 9 月 16 日以 2700 万美元的价格收购了这一项目。
　　为了让信息更容易传播，已经有很多项目致力于实体书籍电子化，即扫描实体书籍的每一页，然后运用 OCR 技术将其转译为文本。转译过程极为重要，因为扫描其实是将书页转化为图片，而图片在小型设备上很难存储，下载需要巨大流量，此外更 bug 的是不支持搜索。但目前的最大问题在于，OCR 技术并不完美。
　　而 reCAPTCHA 项目极大提升了书籍数字化的效率。原理其实非常简单，即将电脑无法识别的单词分割开来，作为验证码放在网上，让用户帮助识别。换句话说，每个无法识别的单词都被放在图片背景上，作为验证码发送给用户。这一点并不难办，因为大多数 OCR 程序在遇到无法准确识别的单词时都会发送提醒，这也帮助确保发送的单词确实属于机器无法识别的范围。
　　但如果机器无法识别，那要如何辨别用户输入的验证码是否正确？Google 简直是太机智了：每个无法识别的单词都与另一个单词一起打包发送给用户，当然另一个单词的拼写是已知的。用户被要求同时辨认两个单词，如果已知单词的拼写正确，程序就假设另一个单词的拼写也是正确的。系统会将同一个单词发送给多名用户，提交结果中重复率最高的就是正确答案。
　　据传这一项目每天会帮助辨识近 1 亿个验证码，参与项目的网站包括 Facebook、TickerMaster、Twitter、4chan、CNN、Craigslist，还有 StumbleUpon。
网站目录投稿：寻兰