返回

文章详情

离去但未被遗忘:恢复死去的网络

Hacker News2026年6月30日 21:48

简而言之:皮尤研究中心的一项研究发现,十年前38%的网页现在无法访问,跨越十年的样本中约有25%的页面现在无法访问;我们的分析表明,互联网档案馆的时光机已经挽救了大约15%的那些原本死去的页面。在2024年,皮尤研究中心发布了一项链接腐烂的研究,“当在线内容消失时”。他们指出,“在2013年存在的网页中,38%在十年后不再可访问”。他们进一步提到,“在2013年到2023年之间的某个时刻存在的所有网页中,有四分之一现在无法访问”。这并不是一份孤立的报告,量化了在线信息丢失的速度。在过去二十年中,许多其他链接腐烂的研究报告了类似或更糟的数字,这取决于上下文和样本。例如,SEO公司Ahrefs在同一年报告称,“过去9年中至少66.5%的网站链接已经死去”。在2021年,乔纳森·齐特雷在《大西洋》上发表了一篇文章,“互联网正在腐烂”,在其中他的团队分析了大约200万个《纽约时报》文章中的外部链接,并报告说25%的深层链接已经腐烂。他们进一步指出,1998年的较旧链接中有72%已死。最近,老道明大学(ODU)的一项长期研究“某些网址是永生的,大多数是短暂的”分析了自1996年以来从时光机获得的2730万个URL样本,并报告称,在2023年检查时,约65%的样本URL在网上无法找到。互联网档案馆的创始人布鲁斯特·凯尔(Brewster Kahle)一直引用互联网早期的数据,表示网页的平均生命期在40到100天之间。2026年,梅萨拉等的书籍《消失的文化:关于我们脆弱文化记录的报告》强调了许多近期文化数字损失的根本原因,同时强调了图书馆和档案馆在维持我们文化历史方面必须发挥的关键作用。不同的研究从不同的角度和背景来看待这个问题,因此通常很难对其进行逐一比较,但他们都一致认为,随着时间的推移,越来越多的链接正在腐烂。然而,其中一些研究(不是所有)未能承认网络档案的存在,例如时光机,部分死去的网络可能被保留,并可以作为参考链接导致错误链接时的补救方法。在这篇文章中,我们将讨论一些链接腐烂的研究,并从时光机的角度来看待它们,以便了解可挽救的死去网络的程度。表1展示了通过几项不同研究抽样的死去和被挽救的网络状态。|研究|年份|期间|样本|死去|被挽救| |-----|-----|-----|-----|-----|-----| |皮尤(所有)|2024|2013-2023|540万|26%|16%| |皮尤(普通)|2024|2013-2023|100万|27%|13%| |齐特雷 NYT*|2021|2013-2013|88K|40%|38%| |ODU NYPW|2024|1996-2021|2730万|65%|65%| 表1:时光机挽救的各种链接腐烂研究得到的死链接。* NYT数据基于我们重建的数据集。 让我们先来看看皮尤研究中心的研究。他们慷慨地与我们分享了他们的数据集,因此对我们来说(在进行了一些转换和提取之后,因为原始数据集存储在Parquet文件中)检查这些URL是否以及何时首次被时光机归档是相当简单的。他们的数据集中包含540万个独特的URL,涵盖一般、新闻、政府和维基百科引用类别,样本来源于公共爬虫档案和维基百科页面。他们在文章中还报告了推文,但由于使用政策的限制,该数据集未与我们分享。在我们深入研究我们的发现之前,以下是我们将经常使用的一些术语的简要描述: 活动:当解析时返回200 OK HTTP状态代码的URL 死亡:当解析时返回HTTP错误状态代码、TCP连接错误或DNS故障的URL 被保留:在活动网络中仍然有效且在网络档案中存在的URL 被挽救:在活动网络中已死,但在网络档案中存在的URL 濒危:在活动网络中仍然有效,但在任何网络档案中都不存在的URL 消失:在活动网络中死亡且也不在任何网络档案中存在的URL 归档:被保留 + 被挽救 可访问:被保留 + 被挽救 + 濒危 当我们不考虑任何网络档案时,大约四分之一的540万个抽样URL将被视为不可访问或死亡,如图1所示。然而,当我们利用时光机访问原本已死的URLs时,不可访或消失的URLs比例从每四个中降至只有每十个。时光机已归档大约72%的整个数据集,其中56%是从仍然活跃的网络中保留的URLs,而16%是从已死的URLs中被挽救的。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡