我很喜欢一张我女儿的照片,她坐在我们家的后花园里,微笑着,胖乎乎的小手抓着草坪。这张照片是在 2013 年用一台快要报废的三星数码相机拍摄的,当时她已经快一岁了。我最初把这张照片存储在笔记本电脑上,后来又将照片转存到了一个外置硬盘中。
几年之后,我把照片上传到了 Google Photos。当我搜索“草坪”这个词时,谷歌的算法会把它找出来。我每次看到这张照片总会非常开心。
我每月向谷歌支付 1.79 英镑以“续存”我的这些照片,而这也可以看作是我对这家成立仅 26 年的科技公司的巨大信任。但它帮我解决的麻烦似乎是值得的。现在有太多东西需要管理,数据的更新、存储和保护所需的工作量实在是太大了。
我的父母就不存在这个问题。他们偶尔会用传统胶片相机给我拍照,然后定期把照片打印出来放在相册里。如今,40 多年后,这些照片仍然可以在褪色泛黄的相纸上看到。
我几十年间的许多回忆也是写在纸上的。我 20 多岁时出国旅行时收到朋友的来信,是用带格子的纸写的。我现在仍然还把这些信件珍藏在一个鞋盒里,这对我而言是一个有趣的离线档案。
如今,我们不再有空间限制。我的 iPhone 每年拍摄数千张照片。我们的 Instagram 和 TikTok 源源不断地更新。我们总共发送了数十亿条 WhatsApp 消息、短信、电子邮件和推文。
尽管所有这些数据都很丰富,但它们也更加短暂。也许在不久的将来,YouTube 将不复存在,其视频可能会永远消失。Facebook 以及你叔叔的假期帖子将会消失。这些其实有先例可循。例如,第一个大型社交网络 MySpace 看似无意地删除了 2016 年之前上传的所有照片、视频和音频文件。整个 Usenet newsgroups(上古纯文本社交网络)已经永远离线并从历史中消失了。今年 6 月,MTV News 档案下线后,20 多年的音乐新闻也随之消失。
对于许多数据档案管理员来说,警钟已经敲响。在世界各地,他们正在清理失效的网站或有风险的数据,以尽可能多地拯救我们的数字生活。其他人正在研究如何以可持续数百年甚至数千年的格式存储这些数据。
这些努力也提出了一个复杂的问题,对我们来说什么才是重要的?我们如何决定保留什么,放弃什么?
子孙后代将如何理解我们所保存的东西?
“欢迎来到每位历史学家、考古学家和小说家所面临的挑战。你如何理解剩下的东西?你如何避免通过现在的视角去解读它呢?”文化人类学家 Genevieve Bell 说。
最后的机会
人类当今所创造的东西比历史上任何时候都要多。在谷歌今年的 I/O 大会上,该公司首席执行官 Sundar Pichai 表示,每天会有 60 亿张照片和视频上传到 Google Photos,每分钟会发送超过 4000 万条 WhatsApp 消息。
尽管如此,我们的数据比以往任何时候都更加脆弱。书籍可能会在一场图书馆火灾事故中被烧毁,但数据却更容易被永远擦除。我们已经看到这种情况的发生,不仅是意外删除 MySpace 数据之类的事件,有时也是有意为之。
2009 年,雅虎宣布将停止网页托管平台 GeoCities(最早一批用户提供个人主页服务的网站之一),这使得数百万精心制作的网页面临被毁掉的命运。虽然这些页面中的大多数可能看起来无关紧要,但它们代表了互联网的早期发展,并且即将永远消失。
如果不是由 Jason Scott 领导的一群数据档案管理员志愿者介入的话,那结果必将是这样。
“我们立即采取行动,当时比较棘手的部分是,从下载几个有趣的网站到突然承担起早期网络的网站。”Jason Scott 回忆道。
他的团队名为“Archive Team”,在永久关闭之前迅速动员并下载了尽可能多的 GeoCities 页面。他和团队最终保存了该网站的大部分内容,从 2009 年 4 月到 10 月期间,他们总共存档了数百万个页面。他估计他们成功下载并存储了大约 1TB 的数据。但他指出,GeoCities 的大小不断变化,并且峰值时约为 9TB,很多页面可能永远消失了。“它包含 100% 由用户生成的作品、民间艺术以及人类书写信息和历史的真实例子,这些在其他地方都找不到。”他说。
Jason Scott 以他的高顶礼帽和充满赛博朋克风格的时尚感而闻名,他将帮助拯救那些面临丢失风险网络数据作为自己的毕生使命。“人们越来越认识到档案、保存和保护是一种选择、一种责任,而不是像潮汐一样自然发生的事情。”他说。
Jason Scott 现在在互联网档案馆担任“自由档案保管员和软件管理员”,这是一个由互联网先驱 Brewster Kahle 于 1996 年创建的在线图书馆,旨在保存和存储可能会丢失的一些信息数据。
在过去的二十年中,互联网档案馆积累了一个庞大的从网络上收集的材料库,其中包括 GeoCities 内容。它也不只是保存纯粹的数字内容,它还拥有大量经过修复和扫描的数字化图书收藏。自成立以来,互联网档案馆已收集了超 145PB 的数据,其中包括超过 9500 万个公共媒体文件,包括电影、图像和文本等,它已成功保存了近 50 万个 MTV 新闻页面。
它的“Wayback Machine”可以让用户回溯到某个时间点查看特定网站,其已经存储了超 8000 亿个网页,并且每天还会新增 6.5 亿个网页。它还记录和存储来自世界各地的电视节目频道,甚至包括 TikTok 和 YouTube 视频。它们都存储在互联网档案馆自己拥有的多个数据中心中。
这其实是一项“西西弗斯”式的任务。哈佛大学图书馆创新实验室主任 Jack Cushman 表示,作为一个社会,我们正在创造如此多的新鲜事物,以至于我们必须删除比前一年更多的东西。他在该实验室帮助图书馆和技术人员相互学习。他说,“我们必须弄清楚什么可以被保存,什么不能,那我们该如何决定呢?”
档案管理员必须不断做出这样的决定。例如,我们应该为子孙后代保留哪些 TikTok 视频?
丹麦奥胡斯大学的互联网研究员 Niels Brügger 说,“我们不应该去想象未来的历史学家会对我们感兴趣。我们根本无法想象 30 年后的历史学家想要研究什么,因为我们没有任何线索。所以我们不应该试图预测和限制未来历史学家可能会提出的问题。”
相反,在他看来,“我们应该尽可能多地保存东西,并让他们以后再想办法。作为一名历史学家,我肯定会选择‘把所有的东西都拿到手’,然后历史学家就会发现他们到底要用它做什么。”
Jefferson Bailey 在互联网档案馆为图书馆和机构开发存档软件,他表示,“在互联网档案馆,最有可能丢失的资料会被优先考虑。那易逝的、有风险的或尚未数字化的材料更容易被破坏,因为它们是模拟或印刷格式的,这些都会得到优先考虑。”
人们可以请求将页面存档,图书馆和机构也会进行提名,工作人员会处理剩下的部分。在 TikTok 和 YouTube 等开放社交媒体上,世界各地图书馆的档案团队选择某些帐户,复制他们想要保存的内容,然后与互联网档案馆共享这些副本。它可以是每日趋势快照,也可以是来自知名人士发布的推文或视频等。
这个过程无法涵盖所有内容,但它很好地反映了 21 世纪初期几十年我们所关注的问题。虽然历史记录通常依赖于社会最富有的人的私人信件和财产,但收集推文的档案过程总是会更加平等一些。
“你可以得到过去 30、40 年的一个非常有趣且多样化的快照,这与 100 年前传统档案馆的样子完全不同。”Jefferson Bailey 说。
作为公民,我们也可以帮助未来的历史学家。Niels Brügger 建议人们可以将他们的个人信件“数据捐赠”到档案馆。“每年有一天,邀请所有人捐赠该周的电子邮件。如果你能年复一年地获得成千上万人电子邮件通信的时间片段,那就太好了。”
Jason Scott 想象未来的历史学家最终会使用人工智能来查询这些档案,以获得对我们生活方式的独特见解。“你可以问机器‘你能给我看 1960 年的时候人们在游乐园玩耍的照片吗?’它会说‘给你!’我们到目前为止所做的工作都是因为相信这样的事情可能存在。”他说道。
过去指引未来
人类知识并不总是随着像 GeoCities 这样戏剧性消失,有时它会逐渐被抹去。你不知道某件事已经消失了,直到你回去检查一下。其中一个例子是“链接失效”,即网页上的超链接不再指向正确的目标,让你陷入死胡同和断页。Pew Research Center 于 2024 年 5 月开展的一项研究发现,2013 年的网页中有 23% 在目前已经无法访问。
除了网页链接,其他内容也需要持续的整理和关注。与纸张不同,现在存储大部分数据的格式通常需要某些软件或硬件才能运行,而且这些工具很快就会过时。例如,我们的许多文件无法再读取,因为读取它们的应用程序已消失或数据已损坏。
缓解此问题的一种方法是定期将重要数据备份到最新的存储介质中,这样在需要读取这些数据的程序丢失之前可以避免数据永远丢失。在互联网档案馆和其他图书馆,信息存储方式每隔几年就会更新一次,但对于没有得到积极维护的数据,可能只需要几年时间访问这些数据所需的硬件就不再可用。想想曾经无处不在的存储介质,如 Zip 驱动器或 CompactFlash。
一些研究人员正在寻找方法,以确保我们始终能够访问旧的数字格式,即使阅读它们所需的设备已成为博物馆的藏品。Olive 项目由卡内基梅隆大学的 Mahadev Satyanarayanan 运营,旨在让任何人都可以“只需点击一下”即可使用任何应用程序,无论它有多么老旧。自 2012 年以来,他的团队一直致力于创建一个巨大的去中心化网络,该网络支持虚拟机(老式或已废弃的操作系统及其运行的所有软件的模拟器)。
像这样保留旧数据是一计算机科学家 Danny Hillis 曾经称之为“数字黑暗时代”的保护方法,这是对中世纪早期的致敬,当时由于缺乏书面材料,未来的历史学家几乎无从下手。
Danny Hillis 是麻省理工学院的校友,是并行计算的先驱,他认为我们这个时代快速的技术变革将使学者们对我们的经历感到困惑。
“随着年龄的增长,我不断地想,我怎样才能成为一个好祖先?”
—— 互联网创始人之一 Vint Cerf
“当人们回顾这一时期时,他们会说,‘哦,好吧,你知道,这是一种难以理解的快速技术变革,很多历史在这场变革中丢失了。’”他说。
Danny Hillis 是“Long Now”基金会的创始人之一(与 Brian Eno 和 Stewart Brand 一起)是一个总部位于旧金山的组织,以其引人注目的艺术/科学项目而闻名,例如“Long Now 之钟”,这是一个由 Jeff Bezos 资助的巨型机械时钟,目前正在德克萨斯州西部的一座山上进行建造,旨在精准运行一万年。它还创造了罗塞塔光盘,这是一个镍圈,在微观尺度上蚀刻了大约1500种世界语言的文档。Long Now 的部分重点是帮助人们思考我们如何为子孙后代保护我们的历史,不仅是为了让历史学家更轻松。根据该组织的使命声明,这是为了帮助我们成为“更好的祖先”。
这种观点与互联网创始人之一 Vint Cerf 的观点不谋而合。“随着年龄的增长,我不断地想,我怎样才能成为一个好祖先?”他说。
“了解过去发生的事情有助于预测或解释现在正在发生的事情以及未来可能发生的事情。在各种情况下,缺乏对过去的了解,对于一个社会来说是一种致命的弱点。”Vint Cerf 说。
“如果我们没有记忆,我们就无法思考。而社会记忆的方式就是把事情写下来并放入图书馆。”Brewster Kahle 同意这一点。他说,“如果没有这样的存储库,人们就会对什么是真实的、什么是不真实的感到困惑。”
Brewster Kahle 创办互联网档案馆是为了确保所有知识对任何人都是免费的,但他认为权力的平衡已经从图书馆向企业倾斜。从长远来看,这可能会成为保持内容可访问性的一个问题。
“如果让公司来决定,那就全完了。”他说。“我们不仅谈论经典出版的作品,比如杂志或书籍,而且我们谈论的是 Facebook 页面、Twitter 页面、你的个人博客。所有这些现在都在企业平台上,而这些都会消失。”
哈佛大学 Jack Cushman 表示,失去长期数字档案对社会运作有实际影响,他指出我们的法律决定和文书工作大部分都是以数字方式存储的。如果没有永久的、不可更改的记录,我们无法再依赖过去的判决来指导现在。他的团队创造了一些方法,让法院和法律期刊将网页副本存档在哈佛法学院图书馆,并作为法律先例记录无限期地存储在那里。它还创建了工具,让人们可以通过浏览历史版本的网站或使用自定义 GPT 与这些档案进行交互。
许多其他团体正在研究类似的解决方案。美国国会图书馆提出了存储视频、音频和网页文件的标准,以便子孙后代在未来可以访问这些文件。它敦促档案管理员思考一些问题,比如数据是否包含如何访问数据的说明,或者该格式的采用范围有多广泛(其想法是更流行的格式不太可能很快被淘汰)。
但最终,数字档案比物理档案更难保存。Jack Cushman 表示,“如果你预算不足,依然可以把书放在安静、黑暗的房间里十年;但如果你一个月没有支付 AWS 账单,那你的文件就会永远消失了。”他说。
无法存储的时间尺度
即使我们存储数字数据的物理方式也是不稳定的。数据中心中用于灾难恢复等应用的大多数长期存储都是磁性硬盘驱动器或磁带。硬盘几年后就会出现磨损,磁带或许要好一点,但它仍然无法让你的存储使用超过十年,然后就会开始出现故障。
公司一直在进行新的备份,因此从短期到中期来看这倒不是什么问题。但是,当您想要长期存储重要的文化、法律或历史信息时,你需要考虑得更加周全。你需要既可以存储大量数据,又可以经受住时间的考验,并且不需要经常维护的设备。
DNA 经常被视为是一种适合长期存储的新“介质”。它可以存储惊人的信息量,并且非常持久。骨头碎片中含有数十万年前的可读取的 DNA。但目前在 DNA 中编码信息既昂贵又缓慢,并且需要专门的设备来“读取”信息。这使得它作为我们世界知识的长期可靠备份是不切实际的,至少目前是这样。
幸运的是,已经有一些引人注目的替代方案。最先进的想法之一是 Project Silica,目前正在英国剑桥的微软研究院进行开发,Richard Black 和他的团队正在玻璃方片上创建一种新的长期存储形式,可以持续数百年甚至数千年。
它们都是使用精准、强大的激光制造的,该激光在玻璃表面下方写入纳米级变形以编码信息。这些微小的缺陷在玻璃中一层一层地堆积起来,然后使用强大的显微镜进行读取,该显微镜可以检测光的折射和偏振方式。Richard Black 说,“机器学习用于解码位元,每个方片都有足够的训练数据,可以让未来的历史学家在需要时从头开始训练模型。”
当我手里拿着其中一个方片时,感觉很科幻,仿佛我刚把它从《2001太空漫游》中把它拿出来关闭 HAL。编码数据在光线照射到缺陷处并散射时呈淡蓝色。微软分享的一段视频显示,这些玻璃方片被微波炉加热、煮沸、在烤箱中烘烤,并用强力磁铁敲击,都不会对其产生不良影响。
Richard Black 想象二氧化硅可用于存储数十年的长期科学档案,例如医疗信息或天气数据。至关重要的是,该技术可以创建气隙(与互联网隔绝)的档案,并且不需要电力或特殊保护。它们可以被锁在一个筒仓中,并且在几个世纪后应该可以正常工作并且可读。“人类从未停止制造显微镜。”他说。2019 年,华纳兄弟公司在二氧化硅玻璃上存档了一些过往旧作,其中包括 1978 年的经典电影《超人》。
Richard Black 的团队还为 Silica 设计了一个图书馆存储系统。在剑桥办公室的一个小房间里,架子上摆满了数千块玻璃方片。安装在货架上的机器人沿着货架快速移动,并偶尔停下来,从一个架子上解下自己,爬上或爬下到另一个架子上,然后再次飞驰而去。当他们到达特定位置时,他们会停下并从架子上取下一个方片,这个方片比 CD 还要小。它的内容会被读取,然后机器人会回到原来的位置。
与此同时,在挪威斯瓦尔巴群岛一座废弃矿井的深处,GitHub 将一些历史上最重要的软件(包括 Linux、Android 和 Python 的源代码)存储在特殊的薄膜上,其创建者声称可以保存超过 500 年。该胶片由 Piql 公司制造,表面涂有微小的卤化银晶体,暴露在光线下会永久变暗。高功率光源用于创建直径仅为 6 微米的暗像素,对二进制数据进行编码。然后扫描仪读取数据。每个卷轴上的说明都是用英语写的,以防没有人能解释它的工作原理。
除了 GitHub 的收藏之外,这个被称为“北极世界档案馆”的存储设施还包括梵蒂冈和欧洲航天局提供的数据,以及来自世界各地政府和机构的各种艺术品和图像。例如,耶鲁大学将包括 Microsoft Office 和 Adobe 在内的一系列软件存储再 Piql 胶片上。沿着这条路走几百米,您会发现斯瓦尔巴全球种子库,这是一个为子孙后代保存世界生物多样性精选的存储设施。有关每个种子容器所容纳内容的数据也存储在 Piql 胶片上。
确保这些信息以可以在几百年后解码的格式存储将至关重要。正如 Jack Cushman 指出的那样,我们仍然再争论播放卓别林电影的正确方式,因为正确的播放速度未被记录下来。“当研究人员在未来几十年内尝试访问这些资料时,构建展示它们的工具会花费多少成本,以及我们出错的可能性有多大?”他问道。
最终,所有这些项目的动机是它们将作为“人类的备份”。一种长期媒介,能够抵御世界末日,来自太阳的电磁脉冲,文明的终结,让我们重新开始。
让人们知道我们在这里。
幸运的意外
早在一世纪的某个时候,一位名叫 Claudia Severa 的罗马妇女正计划在英格兰北部的一座堡垒举办一场盛大的生日聚会。她让仆人在一块木板上写下一封邀请函送给她最好的朋友之一,然后用花体字签名。
她绝不会想到,近 2000 年后,文德兰达石碑(其中最著名的是她的邀请函)将被用来让我们对当时人们的日常生活有独特的了解。
总是这样。纵观历史,最奇怪、随机的事物幸存下来,为历史学家提供指导。同样的情况也会发生在我们身上。尽管档案管理员、图书馆员和存储研究人员付出了努力,但我们仍然无法确定当我们离开很久之后哪些数据仍然可以访问。而且他们可能会对他们在其中发现的东西感到惊讶。哪一批存档的电子邮件或 TikTok 将成为未来历史学家和人类学家解锁我们时代的钥匙?他们会怎么看待我们呢?
历史学家在我们的“数字碎片”中寻找线索,可能会留下一系列无法回答的问题,他们只能做出最好的猜测。
“你需要询问谁拥有数字技术。”Genevieve Bell 说。“他们是如何为它提供电力的?谁有权对此做出选择?它是如何储存和传播的?谁能看到?”
我们不知道 20 年、50 年或 100 年后什么仍然会运行。也许 Google Photos 的云存储将被废弃,一堆旧硬盘被埋在地下变成垃圾堆,或者,如果幸运的话,Jason Scott 档案保管员的精神继承人可能会保存它,以免它消失。
也许有人把它下载到某种玻璃方片上,然后把它藏在某个地方的保险库里。
也许有一天,某个未来的考古学家会发现它,并把它擦干净,然后发现它仍然可以读取。
也许他们会随机选择一个文件,启动某种软件模拟器,然后找到 2013 年的数亿张照片中的一张。
看到一个胖乎乎、快乐的小女孩坐在草坪上。
https://www.technologyreview.com/2024/08/19/1096284/data-archives-archeologists-tiktok-future-wayback-machine/