何加盐|中文互联网正在加速崩塌
1 先问你一个小问题: 如果我们在百度上搜索 “马云” 这两个字,把时间设定在 1998 年到 2005 年,能搜出来的信息,大概有多少条呢?是 1 亿条,还是 1000 万条,还是 100 万条? 我在几个群问过,大家普遍的猜想是,应该是 …
“全球前 100 万网站中,中文网站的比例只占 1.3%,英文占 59.3%”;
“中文网页数量仅仅略高于印尼语和越南语”;
“中文网页的数量十年间下降了 70%”……
这类关于中文互联网内容占比低、迅速衰退的说法,在互联网上已经流行了很长时间。中国有超过 10 亿的网民,却连互联网内容的一角都占据不了,甚至还在继续倒退,这种反差感不能不让人印象深刻。这是真的吗?
这些说法的数据都有同一个来源,监测网站 W3Techs,它通过分析访问量最高的 1000 万个网站来确定互联网内容的语言分布。现在网上很多关于互联网语言多样性的讨论,就建立在 W3Techs 的数据之上。按照 W3Techs 的数据,英文内容始终是互联网的主流。
然而法国学者丹尼尔 · 皮米恩塔(Daniel Pimienta) 和他的合作者不认同这个观点。皮米恩塔是 FUNREDES(Fundación Redes y Desarrollo,网络与发展基金会)的创始人之一,他和合作者一直致力于研究互联网语言的多样性和文化分布。联合国教科文组织曾经委托他制作关于互联网语言多样性的主题报告 [1]。
有趣的是,皮米恩塔当年踏入互联网语言多样性研究的契机,也是因为法国人对互联网英语内容占比的高估。1995 年,时任法国总统希拉克在一次峰会上表示,互联网几乎一个 100% 讲英语的领域。但在皮米恩塔看来,这样的说法根本经不起验证 [2]。
当时流行其他说法也不可靠,比如一项 1999 年的研究提到英文内容占互联网达到 80%。但这项研究仅仅对 3000 个网站做了一次抽样,而没有多次重复得出数据的特征,这在统计上是不过关的,但这个数据在当时被反复引用 [3]。
互联网语言多样性的数据其实一直很不完善。1998 年,研究人员首次采用基于搜索引擎的数据方法研究互联网语言多样性。然而,到 2007 年,他们发现搜索引擎报告的可靠性下降,只能去寻找新方法。自 2011 年以来,讨论互联网语言分布的政策制定者和语言学研究者,都不得不完全依赖 W3Techs 和 InternetWorldStats,这两个数据源都来自商业营销领域,用它们的数据是一种无奈之举。
W3Techs 的方法存在显著缺陷,尤其忽视了互联网的多语言特性。例如,许多网站同时使用多种语言,但 W3Techs 通常只记录其中一种主要语言,导致了对非主要语言内容的严重低估。这样的统计方法导致英语之外的互联网语言存在被大大低估。
另外,W3Techs 的计量单位是网站,没有详细到网页的程度。一些非英文网站会在其主页中出现英文摘要或少量英文单词,这可能会导致整个网站被算作英文网站。此外,许多英文网站的其他语言版本也不会被计算在内。
为了纠正这种误解,皮米恩塔和他的合作者开发了一种新的统计方法。他们的方法不仅依赖于网站声明的语言,还结合了多个关键因素,包括互联网用户的语言偏好、不同地区的网络流量、社交网络的订阅情况及各国互联网服务的发展进度等。这种综合考量使得研究结果更具代表性和准确性。
尽管 W3Techs 等网站数据显示,互联网上英文内容占比超过 50%,但这项研究表明,这一比例实际上大约只有 20%。
具体来说,现在英文占到互联网内容的 20.4%,中文占到 18.9%,西班牙语占 7% 到 9%,其他语言如阿拉伯语、印地语、俄语、法语和葡萄牙语分别占 3% 到 4%。相比 W3Techs 的数据,这项研究中印地语和中文内容的比重都增加了超过 10 倍。按这项研究的计算标准,中文内容不仅没有减少,反而在全球范围内持续增长。
比例上有所下降的反而是英文内容。从 1998 年到现在,英文内容的比例从已经从 80% 下降到 20%。但这并不是因为英文内容消亡了,而是其他语言的内容显著增加,削弱了英文内容的相对比例,而中文内容就处于增长之中 [4]。
按照皮米恩塔与合作者长期以来的跟踪。互联网的发展可以划分为几大阶段。最初,从 1992 年到 2000 年,网络主要围绕着英语内容构建。随后进入了第二阶段,从 2000 年到 2010 年,这一时期以欧洲语言的兴起为特征,尽管英语仍然占据主导地位。从 2010 年到 2020 年,互联网迈入了更加国际化的阶段,亚洲语言和阿拉伯语等非西方语言迅速发展。
很难说皮米恩塔的统计就能代表互联网语言分布状况的真相。毕竟这方面的研究并不多,研究团队的结果缺少交叉印证,而且他们的计算标准本身也在迭代过程中。
论文中也提到,互联网语言测量领域是两个偏差相当普遍的领域的交叉点:语言人口学和网络。在这两个领域中,对数据并没有达成很好的共识。根据资料来源的不同,在一些数字上可能会出现很大的差异,比如在某个国家有多少人讲这种语言,或者网页的总数到底是多少。
但他的研究至少说明,过去普遍被引用的 W3Techs 数据是有偏见的。中文的互联网内容占比未必少到了和越南语一个程度,中文互联网内容的迅速消亡也并非是一个定论。
2005 年,一位商学院的学生正在为自己的学费发愁,考虑如何赚钱来填补学费。很快他有了一个主意,“百万美元主页”。这是一个一百万像素的广告页,每个像素一美元,以 100 个像素为一组售卖广告位。一年之后,他真的成了百万富翁。
到 2019 年,百万美元主页依然在运作,但上面 40% 广告位的链接都指向无效网站,还有很多广告位背后的网站已经多次变化,指向全新的域名。百万美元网页不仅展示了一个经典的商业案例,更展示了早期互联网内容的衰退 [5]。
对于互联网内容来说,这样的衰退其实每天都在发生。今年 5 月,皮尤研究中心的一项新研究发现,截至 2023 年 10 月,2013 年至 2023 年间一度存在的所有网页中,有四分之一已无法访问。2013 年的网页有 38% 已经消失。哪怕是 2023 年的网页,到这一年的十月份都有 8% 已经无法访问了。
团队从互联网快照数据库 Common Crawl 的档案中随机收集了近 100 万个网页样本,对 2013 年到 2023 年每一年 Common Crawl 收集的页面进行抽样(每年大约 90,000 个页面),并检查这些页面是否仍然存在。
这项研究旨在调查有互联网上有多少内容已经无法访问。研究者无法访问的网站定义为在其主机服务器上不复存在的网站,也就是我们熟悉的 404 错误还有它的变体。有些网页相比过去出现了面目全非的变化,其实也可以算作是消失了,但这类情况并不是此次研究的重点。
具体到各个领域。政府网站有 21% 至少包含一个损坏的链接。新闻网站页面上的所有链接中有 5% 无法访问,抽样的所有页面中 23% 至少包含一个损坏的链接。按网站流量排名前 20% 的新闻网站中,约有 25% 的页面至少有一个损坏的链接。近五分之一的推特帖子,在三个月左右的观察期内也不再可见 [6]。
在学术领域,也有很多数字化的论文从互联网上消失。数字化的学术论文通常有着唯一且不变的 DOI,以确保学术链接和引用的持久性,然而现在很多 DOI 背后的作品却已经无法找到。
伦敦伯克贝克大学文学、科技和出版研究员马丁 · 伊夫(Martin Eve)对超过 70 万篇带有 DOI 的数字学术论文进行调查,发现接近 28% 的论文没有出现在主要的数字档案库中,也就是说,超过 200 万学术论文没有得到保存 [7]。
或许是互联网并没有实体,保存互联网信息的成本很难直观看到,我们就有了互联网信息可以持续存在的错觉。实际上无论从成本还是工作量上,互联网内容的存储从来都是一个难题。互联网内容永远在持续的增长中,无论是归档还是存储都要花钱,问题是这些钱谁来付?
普通人切身感到的互联网信息的衰退,有时候未必是信息不存在了,而是我们搜不到了。
问题出在搜索引擎上,现在搜索引擎无法像过去一样在信息搜索上稳准狠。输入关键词得到答案,这种直观而清晰的互动体验正在减少。今天我们在搜索引擎输入关键词,得到的往往是内容同质、信息重复、挂着各式广告信息的软文。
2022 年,一位工程师发布了一篇名为 “谷歌搜索正在死亡” 的博文(Google Search Is Dying),表示谷歌的搜索结果一团糟,如果搜索菜谱、健康内容或者商品评论,排在最前面的几个非广告结果都是格式一致、内容重复的软文,正文还是会有大量的广告和链接[8]。
这是搜索引擎商业模式所不能避免的问题。让内容占据搜索引擎的黄金位置本身就是一项称为搜索引擎优化(SEO)的业务。这种业务不同于竞价排名,是利用搜索引擎算法漏洞,通过大量重复关键词、伪原创内容或不相关链接来提升网页排名。为人熟知的小编体,就是这种针对搜索引擎,刷关键词骗点击量的产物。
根据市场研究公司 IBISWorld 的数据,去年 SEO 业务价值 760 亿美元。搜索引擎优化已成为大多数网络营销的重要组成部分,出现在显眼位置的网站可以通过商品链接的返佣赚钱,其中一些甚至干脆就是诈骗网站 [9]。
为了保证内容的可靠,现在很多用户在搜索词后面加上了 “reddit”,来搜索 reddit 论坛里的用户真实看法。要不是 reddit 始终没有认真开发搜索功能,恐怕倒向 reddit 的用户会更多。
在今年的欧洲信息检索会议(European Conference on Information Retrieval)上,四位来自德国的研究者发布了一项名为《谷歌在变坏吗?》(Is Google Getting Worse?)的研究,回应了网民对于搜索引擎的质疑。这项研究的起点就是网民对于搜索引擎质量日渐下降的抱怨,结果说明,网民的直觉是对的。
研究团队利用一年时间,监测了 Google、Bing 和 DuckDuckGo 搜索结果的变化,发现所有搜索引擎在处理 SEO 内容上存在问题,远超过整个网络平均情况。越是靠前的内容,越是做了更多优化而且有更多返佣链接,链接越多内容的复杂性越差。其中联盟营销内容(为平台推广产品,获取点击或返佣的内容)仅占网络产品评论的小部分,但它却在搜索结果中占据主导地位。不仅是谷歌,所有搜索引擎均遭受垃圾信息的困扰 [10]。
搜索引擎运营商在尝试通过排名算法更新来打击 SEO 和联盟营销内容。从搜索结果上看,Google 的更新产生了明显但短暂的效果,从实验开始到结束,Google 的联盟垃圾量有所减少。高质量的杂志和社交平台通常在多次抓取中稳定出现在谷歌搜索结果的前列,而纯粹的产品评论农场和一些频繁的垃圾站点则相对短暂,常在 Google 排名更新后消失。
雅虎前 CEO、谷歌早期员工玛丽莎 · 梅耶尔(Marissa Mayer)表示,如果说谷歌搜索变糟了,那是因为整个网络都变糟了。在她刚为谷歌工作时,互联网只有 3000 万个网页,对所有网页进行爬取和编制索引更为简单。而现在谷歌面对的可能是上万亿个网页。在经济诱因的驱动下,虚假信息、骗取点击量的内容以及广告链接不受监管地迅速增长 [11]。
AI 技术进步后,互联网上这类垃圾信息越来越多。网络安全公司 Imperva 今年的一份 “不良机器人” 报告表明,去年所有互联网流量中近一半(49.6%)来自机器人,这是从 2013 年以来的最高水平。特别是不良机器人,占现在所有流量的三分之一。
Imperva 应用安全总经理 Nanhi Singh 表示:“自动机器人将很快超过来自人类的互联网流量比例…… 随着更多人工智能工具的推出,机器人将变得无所不在 [12]。”
随着互联网内容的膨胀,谷歌只能像打地鼠一样追着隐藏在数十亿网站中的骗子们打。前述论文作者说,这是一场持久战,而搜索引擎输掉了这场 “与 SEO 垃圾内容之间的猫鼠游戏”。
搜索引擎逐渐迷失是一个世界性的问题,对于中文互联网用户来说,高质量的数据更为受限,比如一些行政公开数据。
中国公开数据的透明度一度有着明显地上升。2013 后的几年里,国家统计局的统计指标(如人口数据、经济统计数据等指标)数量增加了 673%。《中华人民共和国政府信息公开条例 》也在 2019 年进行了修订,强调了 “坚持以公开为常态、不公开为例外” 的信息公开原则。
然而 2015 年达到顶峰后,信息公开又出现了下降的趋势。
不同类型的信息公开程度不同。法律法规是公民和企业生计相关的事项,因此相对透明。相反,与内部工作流程相关的文件透明度较低。随着对安全的强调,普通人看到了越来越多健康、消费、价格、就业等相关数据,但是更少看到能源、科技、创新、金融等方面的公开信息。
尤其是科技创新方面的信息,从 2017 年之后公开文件的比例就逐步下降,到 2022 年的公开比例更是达到 2009 年来的低点。
文件的保存程度也很堪忧。只有 78% 的政策文件链接在发布两年后仍然可用。失效的文件大部分与网站无法访问或网站更新有关。其中一些可能在其他地方仍可获取,但这只是一部分 [13]。
对于生活,这种变化可能并没有带来什么显著的不便利。但对于相对严肃的用户,比如科技行业的投资者,这些信息的缺失仍然会带来很多不便。相比同样深受互联网垃圾和广告信息发达国家,这些高质量信息的差距,可能才是中文互联网真正的短板。
[1]Pimienta, D., Prado, D., & Blanco, Á. (2009). Twelve years of measuring linguistic diversity in the Internet: balance and perspectives.
[2]Pimienta, D. (2023). Reliably exploring the presence of languages on the Internet. Research Outreach.
[3]Lavoie, B. F., & O’Neill, E. T. (1999). How “world wide” is the Web. Annual review of OCLC Research, 1999, 2003.
[4]Pimienta, D., Blanco, Á., & de Oliveira, G. M. (2023). The method behind the unprecedented production of indicators of the presence of languages in the Internet. Frontiers in Research Metrics and Analytics, 8, 1149347.
[5]BBC. (2019, April 1). Why there’s so little left of the early internet. BBC Future.
[6]Pew Research Center. (2024, May 17). When online content disappears. Pew Research Labs.
[7]Eve, M. P. J. (2024). Millions of research papers at risk of disappearing from the Internet. Nature.
[8]Brereton, D. (2022, February 15). Google search is dying. DKB Blog.
[9]Confino, P. (2024, January 22). ‘It’s the worst quality results on Google I’ve seen in my 14-year career’: Web search exec breaks down how ‘SEO parasites’ and AI-enabled spam are breaking the internet. Fortune.
[10]Bevendorff, J., Wiegmann, M., Potthast, M., & Stein, B. (2024, March). Is Google Getting Worse? A Longitudinal Investigation of SEO Spam in Search Engines. In European Conference on Information Retrieval (pp. 56-71). Cham: Springer Nature Switzerland.
[11]Montti, R. (2022, November 30). Ex-Googler Answers Why Google Search is Getting Worse. Search Engine Journal.
[12]Griffin, A. (2024, April 17). Humans now share the web equally with bots, report warns amid fears of the ‘dead internet.’ The Independent.
[13]Merics. (2024, February 15). Increasing challenge of obtaining information in China. Merics.
1 先问你一个小问题: 如果我们在百度上搜索 “马云” 这两个字,把时间设定在 1998 年到 2005 年,能搜出来的信息,大概有多少条呢?是 1 亿条,还是 1000 万条,还是 100 万条? 我在几个群问过,大家普遍的猜想是,应该是 …
撰文丨****顾谈智 重庆男子胖猫跳江的事情,迎来了终极反转。 5月19日,重庆市公安局南岸区分局,以一个超长的通报,厘清了胖猫自杀事件的前因后果。 图/网络 此前人们一再诟病的胖猫前女友谭竹,并不是诸多自媒体口中的“捞女”,她和胖猫之间, …
今天有篇文章很火,早上刚看到才几千点击,现在已经好几万了,等我写完估计已经10万+了。文章标题叫《中文互联网正在加速崩塌》,大致意思是说很多互联网内容已经消失不见了,尤其是2005年以前的。但看朋友圈转发,则远不局限于2005年前,大家谈的 …
今年你一共被禁言了 197 天,你一定是个不爱说话的人吧? 你最火的微博是 “抱歉,此微博已被删除”,收获 3.3 万个转评赞,被围观 90 万次。感谢你为互联网内容做出的贡献呀~ 你被开盒 8 次,真实姓名和身份证照片被传播 17 次,学 …
这个冬天,越来越多30岁左右的年轻人,选择彻底离开互联网,离开北京。他们大多在2018年到2020年间,被“互联网红利”所吸引,只身来到北京,成为“互联网北漂”,寻找赚钱的机会。但是,当了三五年“大头兵”,他们想要在互联网更进一步的时候,财 …