穿越寒冬的独行者

5 min


2018 年有很多故事可以写,但是到最后一天的时候,让我选一件事来写,我想写的是 duckduckgo 这个搜索引擎。选择它是有原因的,这个搜索引擎创始于 2008 年,正好是第 10 个年头。

穿越寒冬的独行者

即使在今天,听说过这个搜索引擎的人也不多。上个月(2018.11),它的每日搜索量第一次超过了 3000 万次,很多科技媒体用非常小的版面报道过这件事。中文也有报道,基本上就是“一句话新闻”这样的待遇,没人多想什么。这不意外,每天 3000 万搜索听起来不小,但是放在整个搜索市场可以算的上微不足道。做为对比,Google 早就不再发布每天准确的搜索量,但根据前几年发布过的数字和增长率,大致能推算出来,一般被认为是 4 万~8 万次搜索每秒。即使用最低预测,要超过 duckduckgo 一整天搜索量,Google 只需花 750 秒==12.5 分钟。

在搜索引擎市场上,每天 3000 万搜索量太小了,比被所有人都认为早就完蛋了的 Yahoo 搜索还少好几倍。但是这样一对比,这个在搜索引擎市场只占 0.x%份额的产品竟然存活了 10 年,这就是一个有意思的故事。再考虑它不属于任何大公司,是个完全独立的搜索引擎,那就更有意思了。它是如何开始的,如何存活下来的,谁是它的用户?

10 年已经足够长了,2008 年,苹果刚刚发布 iPhone 3G,到接近年末,Android 的第一个手机,G1 到年底才勉强上市,诺基亚仍然占统治地位,移动互联网才刚刚有了一点影子。2018 年再扭头看回去,简直是个完全不同的时代。但是在那个时代,搜索引擎市场已经成熟了,做一个新的通用搜索引擎,听起来已经像个笑话了。要知道,搜索引擎市场的最大巨头 Google,已经成立了 10 年,就算是其他语言的搜索,中文区最大的百度 2000 年创立,俄语区最大的 yandex 比 google 还早,90 年代初就存在了。即使是最年轻的中文搜索引擎搜狗,也成立于更早的 2004 年,2006 年搜狗已经靠着拼音输入法有了自己的一席之地。到了 2008 年,没人再想挑战这个市场了。

2008 年的主流看法是:做一个通用搜索引擎是不可能了,一方面是竞争对手过于强大,全是上市公司,都非常有钱,都有忠实用户或者各种壁垒造成的基本垄断,另外一方面是搜索引擎系统耗资巨大,通常认为要融到一笔不小的投资才能开始。2007 年后半年,金融市场就笼罩在“金融危机快来了”的恐惧中,2008 年下半年金融危机终于爆发。在那个市场情况下,更没有投资人会投一大笔钱在这种“一看就没戏”的项目上。

不过世界上总有一些例外。Duckduckgo 就是这种例外的产物。(为了缩短点篇幅下面使用其官方简称 ddg)

Gabriel Weinberg 并不是创业新兵。在开始 ddg 项目之前,他开过不少家公司,做了好几个产品,其中一个算是成功,以 1000 万美金的价格被另外一家公司并购,其他的都失败了。卖掉公司之后,他希望下一个产品做一个自己喜欢的方向,可以一直做下去。什么是自己喜欢的呢?他自己也不知道,于是干脆一个领域一个领域做起来试试看,不喜欢就放弃。就这样又试了将近两年,最终他走到了搜索引擎这条路上。

此时已经到了 2008 年,如前所述,那绝对不是一个做搜索引擎的好时代。我清楚的知道这些,因为当时我也在做搜索引擎,只不过我们是在做一个搜索云服务系统,不是通用搜索。即使这样也相当不容易,这是另外的故事,有机会再讲。

Gabriel 决定一个人开始做一个搜索引擎。按照 Google 这种“索引全球信息”的模式做,那当然不可能,按照那种模式,他自己卖掉上家公司的 1000 万美元都扔进去也未必够启动项目。于是他决定从一个简单的模式开始,即利用提供搜索 API 的产品,聚合他们的站内搜索结果,重新排序呈现到一个页面上。严格来说这算不上一个真正的搜索引擎,这种做法局限性很大,除了内容源有限之外,从每个服务 API 拿回数据拼接页面的过程很慢,产品体验也不好。不过它总算是个开始,之后他开始用一系列开源软件搭建自己的爬虫系统,建立自己的索引,不再单纯依靠别人的搜索结果拼接。这个过程并不是那么复杂,开源工具 Apache Solr 就能很好的满足需求。尤其是 ddg 只面向英文市场,没有搜索分词的困难,又只面对有限的搜索源,不会遇到索引量大规模膨胀的问题,总体投资可控。这时候的 ddg 像是一个简单开源软件拼接起来的工具,它需要很多人力去精心调配各种结果,收集各种搜索源,至于搜索技术本身,在这个阶段完全不做任何修改的开源软件都足够用了。

除了搜索页面,ddg 还在力推 Instant Answers 这个概念,它指的是在搜索结果页面上直接显示答案。Google 早在 2007 年就开始推广搜索产品 onebox,开始在标准搜索结果页面上展示一些专有内容,比如电影,书籍,购物等等。今天这些都已经是大家都熟知的搜索特性了,但是在 10 年前,这仍然是一个新概念。如何准确的命中用户搜索结果,在 onebox 中展示,这需要复杂的算法和大量历史搜索数据做为基础,无论在数据积累还是技术上,这都是一个挑战。ddg 的做法相比 Google 有点可笑,它干脆抓了一堆常用的内容和关键词,直接存到了数据库里面。这种解决方案和他们处理搜索本身一样,它不能称之为一个搜索引擎,但是勉强能用。

2008 年 9 月,ddg 正式发布。做为当时第一批用户的我,用过之后的感受是:“这玩意也能用?”然后默默关掉了窗口。尽管在 hacker news 的讨论上,创始人 Gabriel 一次又一次的表示“你坚持用一周,肯定会喜欢它”。我不知道那个时候什么人会坚持用一周,至少我是没能坚持下去。

不过 Gabriel 倒是不在乎大家没能坚持用下去,他仍然继续优化他的产品。尽管他走的和 Google 是完全相反的道路。Google 的做法是首先订好算法和框架,然后尽可能让机器去干活。比如,Google 一开始就确定了根据链接关系来确定页面权重的模式,设计好 Pagerank 算法,再实现算法,之后就是程序按照算法顺着页面之间的链接关系一层层把内容抓回来,建立索引,用户输入关键词,就在索引中命中关键词,按照 Pagerank 算法排序,把结果呈现给用户即可。这个过程中人是不参与的,人的工作集中在优化算法和修补漏洞上。Google 始终在骄傲于“算法决定搜索结果,人不干涉它”。

ddg 走的是完全相反的道路,人挑选内容源,人决定哪些更重要,应该放在数据库里,甚至社区可以贡献内容,贡献 Instant Answers 结果…一切都是人在做决策,ddg 最多的代码是 perl 和 javascript 完成的,这足以说明了他们几乎不去触碰开源的搜索系统核心部分,只是用一系列的脚本把他们认为重要的结果塞到索引库里,以及把一些他们觉得是 spam 的内容农场从索引库里挪出去。毕竟,ddg 也从来没有“索引全球信息”这么宏大的梦想。

2009 年,ddg 提出了一个重要的概念,叫做“尊重隐私的搜索”。更技术的表达是“不追踪用户行为,不存储用户搜索历史”,这个概念在 2009 年听起来根本不重要,那还是一个大家觉得“我热爱互联网,我愿意出卖隐私”的时代。但之后的这些年里面,世界变得越来越快,到现在它已经变成 ddg 的核心竞争力之一。

到 2010 年年末,ddg 的每日搜索量始终在 4 万、5 万这个数量级别波动,而 2009 年,Google 的每日搜索量已经超过了 10 亿次。2011 年 1 月,Gabriel 在旧金山租了一个月的高速公路广告牌,只有一块。上面写着“Google 追踪你,我们不会”。广告牌引发了一轮猎奇的媒体报道,广告效果明显反映在搜索量上,使得 ddg 每日搜索量翻倍,开始超过了 10 万。在那个时候,科技行业从业者中一部分人已经开始思考 Google 的隐私策略存在的问题,在旧金山这个科技重镇的这块广告牌,影响了这些人。

Billboard

我在这一轮媒体报道之后,重新开始尝试 ddg。这次它给我的印象不错,我常用的搜索,比如 github/stackoverflow/wikipedia 之类的站点已经被索引的比较完全了,尽管它的搜索范围仍然限于有限站点,但已经可以解决一部分问题。这得益于 Gabriel 在前面 2 年中的艰苦工作,到这个时候,这还是一家一个人的公司,只有创始人 Gabriel 一个人。办公室和服务器仍然在 Gabriel 家的地下室里。

我在这个时候开始把它设置成浏览器的默认搜索引擎,我知道它不好用,但是我希望能给他贡献一点点流量,并且希望这点流量能帮助这个产品存在下去,从而可以存在一个选择。这种可替代选择不必在功能上完全击败竞争对手,只要它能满足超过及格线的使用需求,就比没有好很多。

2011 年的年底,坚持不融资的 Gabriel 终于去给 ddg 融了第一笔天使投资,雇了第一个员工,在 ddg 发展的这 10 年里,这应该是唯一一次融资。不过 ddg 的真正快速增长的时代,是在之后的两年才逐渐开始的。2013 年,NSA 的外包雇员斯诺登逃到香港,对全世界公布了美国政府正在监控互联网的棱镜计划。人们终于开始第一次有证据的意识到,隐私问题不再是无关紧要的。同样的问题,用隐私换更好的搜索质量,在 2008 年,大部分人会回答“没问题”,但到了斯诺登事件之后,至少有一小部分人会回答“不能接受”。ddg 符合了他们的理念,如何才能不泄漏隐私?只有完全不存储不必要的隐私数据才能做到。到 5 年之后的今天,欧盟的 GDPR 隐私数据保护法已经生效,更多的人认同这个观点。现在逃离 Google/Facebook 逐渐成了新时尚,ddg 成了最好的搜索引擎替代产品之一,也逐渐被各类浏览器内置成默认搜索引擎之一。

到今天为止,这仍然不是一个“创业企业成功”的故事。到现在 ddg 只有 50 个员工,在搜索引擎市场拥有几乎可以忽略的市场份额,但是它能存活到今天,本身就是一件有意义的事情。

Gabriel 在不打算融资的 3 年半养成的习惯仍然主导着这家公司,并且使得它生存的更顽强。一直到今天,ddg 的主要服务器已经搬到了 amazon 云服务上,但是还有不少组件仍然躺在 Gabriel 的地下室里——那些对即时响应要求不高的服务,比如抓取某些数据装进数据库,这样的任务在自家地下室进行,仍然比使用云服务便宜的多。公司虽然有 50 个人,但是他们都分布在世界各地,他们在一张地图上标记出了所有人的位置,几乎没有两个人在同一个城市,所有人都是远程办公。这大概是把远程办公贯彻最彻底的互联网公司。

Team map

它所谓的“总部”,也只是在宾夕法尼亚州的一个小镇主街上的一栋普通房子,并且还是和另外一家公司共享的。按照我的经验,每月租金不会超过 1000 美金。如果想要个直观点的印象,可以看看街景照片:

Team map

除了 ddg 之外,我猜这个镇上和“科技”最接近的公司,应该是修理手机和电脑的店。至于为什么选中它?我从地图上看,这是距离创始人 Gabriel 家最近的小镇,大概有 5 英里远吧。

这些和其他科技公司完全不同的离经叛道的举措是有收获的,它使得 ddg 始终是一家盈利的公司。盈利来源很简单,他们只靠关键词广告即可获得不错的收入。他们没有公布过收入的具体数字,但是推测应该算的上有钱的公司。这些盈利除了能养活几十个员工,支付各种云服务开支之外,ddg 每年还对各种开源项目和维护互联网自由的相关组织捐款,2018 年他们的总捐款额高达 50 万美金。Ddg 成功把自己放在了一个微妙的位置,它有一定的市场占有率,有越来越多的忠诚用户,但是它坚定的隐私策略使得这个市场中的大玩家不可能通过竞争消灭它,也不可能跟随它,更不可能收购它。这个奇妙的位置使得它可以按照最初的信念一直生存下去,不需要融资,不需要为了增长率出卖原则,不需要上市。事情似乎重新回到了“你只需要做好产品,用户自然会来”这个远古时代的路线上。对于 2018 年正在发生的,比如烧钱无数的共享单车大战,他们好像发生在两个平行世界里。

在互联网已经变成了以资本游戏为主的时代,ddg 的存在给了很多人勇气,使得他们有机会去做一些不同的事情,一些理智看起来毫无胜算的事情。回顾这 10 年的历史,最艰难的应该是创始人 Gabriel 独自扛下来的最早的 3 年多。那时候的他就像沿着一条大雾中的公路独自行走,不知道前面有多远,不知道周围有什么,只能看到一辆辆车呼啸而去。没错,他刚刚卖掉公司,有 1000 万美金,生活不愁。但是大多数取得了这样程度成功的人,会把下一个目标定为“再做一家上市公司”,去融更多的钱,打更狠的仗,而绝对不愿意选一条未知而孤独的路自己走下去。

在 ddg 发展起来之后的年头里面,更多的人开始尝试做一个“在某种程度上替代 Google”的搜索系统,比如法国人的 qwant,塞浦路斯的 searchencrypt,都是类似概念的搜索引擎。回到搜索本身,做为用了长达 7 年 ddg 的用户,我的感受是什么?确切的说,随着 ddg 搜索范围的扩展,今天用起来已经体验不错了。ddg 从 2012 年提供了一个叫做!bang 的功能,在搜索词前面加上一个前缀,就可以转向其他搜索引擎。比如 “!g 电影” 就会直接跳到 Google 搜索关键词“电影”。“!a switch”,就会跳到 amazon.com 搜索 switch。这个功能很简单,但是有效降低了尝试新搜索引擎的成本。每个关键词用户都可以先在 ddg 搜索试试看,对搜索结果不满意再转向 google。我比较直观的体验是这些年里,我使用!g 的比例越来越低了。更有趣的是,Google 越来越趋向于根据用户数据,给不同用户展示不同的搜索结果,结果是 ddg 的搜索结果总是会和 Google 的不太一样,可以获得一些在 Google 搜索不到的结果。这使得 ddg 更有竞争力,它永远能成为 google 搜索结果的有效补充,被使用的价值也就越来越高,2016 年美国总统大选之后,人们又把它做为突破“信息同温层”的重要工具。

今天和 10 年前对比,互联网世界发生了翻天覆地的变化,互联网渗透率比 10 年前高出太多,但是大公司的垄断、资本的力量也强得多。互联网渗透率高意味着,再小众的需求都能找到足够多的用户,一个保持低成本运营的团队,靠满足这些用户活下来已经不那么困难。只是资本会对你毫无兴趣。这类事情在市场热火的时候没人想做,人人都有一个上市的梦想。但是当市场进入冬季的时候,这种项目就显得很有吸引力。

看看 2008 年的纳斯达克指数,对这个说法可能更有感觉。

2008 nasdaq index

有人说 2019 年会是未来十年最好的一年,即使如此,对整个世界来说也不一定是坏事,也许又能让我们多一些选择呢?


说到这种小而有用,可以养活自己生存下去的搜索引擎,连一百万人口的塞浦路斯都有,中文区竟然没有这类产品,有点遗憾。我有一位朋友曾经想做一个中国的医疗搜索引擎。大家都抱怨医疗信息没有可靠的搜索,这显然是个需求。但是前司用竞业禁止官司拖住了这件事,从而使得这个项目长期没法真正开展。希望他 2019 年能摆脱这些麻烦,真正把这个产品做出来。


Like it? Share with your friends!

0
DUN

Choose A Format
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Video
Youtube and Vimeo Embeds