所见即所存Internet Archive（后文简称 IA）是知名的网站，我最初是在某篇介绍网站历史时看到的，博主将 IA 作为探索过去网页的工具

07:30 · 2023年7月27日 · 周四

所见即所存

Internet Archive（后文简称 IA）是知名的网站，我最初是在某篇介绍网站历史时看到的，博主将 IA 作为探索过去网页的工具。但 IA 不是棱镜，不能轻易的抓取一切网页，那么 IA 是如何抓取网页供大家查阅呢？

IA 有自己自动化的机器 heritrix3 爬取部分重要的网站，然后是 Archive Team 这个存档网页的团队使用类似于 SETI@home 的众包集群程序，针对性的抓取网站，最后是个人用户通过 IA 提供的 Wayback Machine 保存网站。

如果没有人去做保存，那么未来的尝试搜索，也不会得到结果，所以 IA 提到了 "If You See Something, Save Something"，「如果你看到了什么，保存它」。

上面的方法是对于网页还存在时，所使用的，但当网页已经失效，就需要更费力的方法了，那就是谷歌快照，通常网页失效后，还有一段时间能够使用谷歌快照检查网页痕迹，此时就能把快照给保存起来，通常会使用 Archive Today 来保存，因为 IA 不太容易保存谷歌快照。

花费了 6 小时左右，将被记录抹煞的外交部的部长活动页面还原了，因为 IA 有一个小问题，虽然 IA 能记录大量的网页，但是如果没有链接，那么就无法找到需要的内容，因为 IA 的网页搜索功能几乎无用。

部长活动页面：https://rentry.org/qingang