所见即所存
Internet Archive(后文简称 IA)是知名的网站,我最初是在某篇介绍网站历史时看到的,博主将 IA 作为探索过去网页的工具。但 IA 不是棱镜,不能轻易的抓取一切网页,那么 IA 是如何抓取网页供大家查阅呢?
IA 有自己自动化的机器 heritrix3 爬取部分重要的网站,然后是 Archive Team 这个存档网页的团队使用类似于 SETI@home 的众包集群程序,针对性的抓取网站,最后是个人用户通过 IA 提供的 Wayback Machine 保存网站。
如果没有人去做保存,那么未来的尝试搜索,也不会得到结果,所以 IA 提到了 "If You See Something, Save Something",「如果你看到了什么,保存它」。
上面的方法是对于网页还存在时,所使用的,但当网页已经失效,就需要更费力的方法了,那就是谷歌快照,通常网页失效后,还有一段时间能够使用谷歌快照检查网页痕迹,此时就能把快照给保存起来,通常会使用 Archive Today 来保存,因为 IA 不太容易保存谷歌快照。
花费了 6 小时左右,将被 记录抹煞 的外交部的部长活动页面还原了,因为 IA 有一个小问题,虽然 IA 能记录大量的网页,但是如果没有链接,那么就无法找到需要的内容,因为 IA 的网页搜索功能几乎无用。
部长活动页面:https://rentry.org/qingang
Internet Archive(后文简称 IA)是知名的网站,我最初是在某篇介绍网站历史时看到的,博主将 IA 作为探索过去网页的工具。但 IA 不是棱镜,不能轻易的抓取一切网页,那么 IA 是如何抓取网页供大家查阅呢?
IA 有自己自动化的机器 heritrix3 爬取部分重要的网站,然后是 Archive Team 这个存档网页的团队使用类似于 SETI@home 的众包集群程序,针对性的抓取网站,最后是个人用户通过 IA 提供的 Wayback Machine 保存网站。
如果没有人去做保存,那么未来的尝试搜索,也不会得到结果,所以 IA 提到了 "If You See Something, Save Something",「如果你看到了什么,保存它」。
上面的方法是对于网页还存在时,所使用的,但当网页已经失效,就需要更费力的方法了,那就是谷歌快照,通常网页失效后,还有一段时间能够使用谷歌快照检查网页痕迹,此时就能把快照给保存起来,通常会使用 Archive Today 来保存,因为 IA 不太容易保存谷歌快照。
花费了 6 小时左右,将被 记录抹煞 的外交部的部长活动页面还原了,因为 IA 有一个小问题,虽然 IA 能记录大量的网页,但是如果没有链接,那么就无法找到需要的内容,因为 IA 的网页搜索功能几乎无用。
部长活动页面:https://rentry.org/qingang