关注我们
QRcode 邮件联系 新浪微博
首页 > 清境资讯 » 正文

如何使用“网站时光机”进行在线调查?

   条点评
后台-系统设置-扩展变量-手机广告位-内容正文顶部

原创 Mark Graham 全球深度报道网 收录于话题#工具箱4个

“网站时光机”是深受调查记者们喜爱的一个在线调查工具,它可以保存不同时间段的网页内容,即使后来原始网页被删除或是被改动,你仍然可以查阅曾经的网页快照。在这篇文章中,“网站时光机”的负责人向我们介绍了它的使用技巧,包括如何批量抓取、比较网页不同版本的差异、查阅网页处境信息和使用 API 等。
互联网档案馆(The Internet Archive)是一个非营利的在线图书馆,它已成立了25周年,使命是“普及所有知识”(universal access to all knowledge)。它最出名的服务是“网站时光机”(Wayback Machine,网址:https://web.archive.org),它每天收到的请求数(包括查阅请求和存档请求)超过了10亿次,我目前也在管理着这项服务。互联网档案馆(The Internet Archive)和它的子项目“网站时光机”(Wayback Machine)是非常重要的调查报道工具。图:Shutterstock
记者、研究人员、事实核查人员和公众每天都可以通过多种方式访问免费使用“网站时光机”。网上已经有不少文章介绍了这项服务,事实上,在 GIJN 的2020年年度调查工具盘点中,不少记者都将“网站时光机”列为他们最喜欢的工具之一。
以下我就简单介绍一下如何使用“网站时光机”进行调查。
将网址存档
如果你发布的文章引用了另一篇文章,而那篇文章被作者删除了或因为网站本身的问题导致无法访问,你又没有对这篇文章进行存档的话,它可能就再也找不到了——可千万不要让这种事发生在你的身上。
每天都有许多用户通过“网站时光机”的“保存页面”服务存档上亿个网址。任何人都可以提交想要保存的网址,如果你注册了免费账户,还可以要求抓取相关页面中的“外部链接”(outlinks),并通过电子邮件接收抓取情况的报告。
这里有个小技巧:如果你想批量保存网址,可以将这些网址都放在 Google 表格的 A 列,然后通过这里(https://archive.org/services/wayback-gsheets/)提交这份 Google 表格,之后这份表格的 B 列、C 列和 D 列将会自动被填上存档状态、存档后的地址还有这个网址之前是否已经被存档过。
还有一个存档网页的方法,是将相关网址发送邮件到 spn@archive.org,如果你在邮件主题中写上“capture outlinks”,那么这个网址的外部链接也会被保存。同样的,在抓取完成后,你会收到一封关于保存情况的电子邮件报告。
最后,对于精通技术的人,“网站时光机”也提供了应用程序接口(API),方便你集成到现有的软件工作流中,或者是新开发的应用程序中。例如,总部位于旧金山的技术非营利组织米丹(Meedan)就将“网站时光机”的服务整合到了它的“检查”服务中。米丹是一家通过开发软件来支持新闻业的非营利组织。
比较不同存档版本
你是否曾想比较两个不同网页存档之间的差异——也许是为了看看一个公司或个人是如何改变改变网页上的措辞的?您可以使用“网站时光机”的“查阅改动”(Change)功能来实现这一点。
要使用这项功能,只要在“网页时光机”的搜索框中输入任何已存档的网址,然后选择“查阅改动”就可以看到不同日期和时间的存档版本列表,我们会用不同的颜色等级来表示从一个存档网址到另一个存档的网址的变化程度。
接下来,你可以选择任意两个时间戳版本的网址,它们将会被并排呈现,有差异的文本会被蓝色或黄色突出显示。例如,以下案例就展示了一个英国前首相顾问多米尼克·卡明斯(Dominic Cummings)是如何试图重写历史的。“网站时光机”的“查阅改动”功能捕捉到了英国前首相顾问多米尼克·卡明斯是如何在他最初的文章(左)上添加秘密内容的(用蓝色标记)。
如果你想学习更多在线调查技术
5月31日(下周一)下午四点,我们邀请了在线调查大师 Paul Myers 举办了一场针对东亚记者的在线调查工作坊,他将会介绍更多“网站时光机”的高级技巧,以及如何透过搜索引擎缓存及其他技术存进行在线调查。
工作坊注册地址:
https://us02web.zoom.us/webinar/register/WN_Olr2heqpSfOpbyalJpGFtQ全文检索
因为存档网页内的文本还没有被索引,所以“网站时光机”还无法提供全文检索功能,这意味着你需要知道检索页面的具体网址才可以搜到相关页面。但“网站时光机”的工程师正在为特定档案库中的网页进行元数据索引。
使用 API
除了“保存页面”的 API(应用程序接口),“网站时光机”还有一些其他的API,例如查询网址是否已经被存档的 API。你可以在这里(https://archive.org/services/wayback-gsheets/)了解更多信息。
像大多数服务一样,“网站时光机”没有对API的使用频率设置正式的上限,但我们可能偶尔会采取节流措施。如果您在使用“网站时光机”时遇到任何问题,都可以发邮件或者在 Twitter 上发私信告诉我们,支持记者的工作是我们的优先事项。
了解存档网页的信息
我们意识到,背景和出处等信息对于更完整地理解相关网页的信息至关重要。因此,我们已经开始为存档网页添加处境横幅(context banner),以帮助用户更好地理解相关存档的信息。在存档网页已经被删除,或是它被一个知名研究机构提及的时候,这个横幅就会很有用。“网站时光机”的顶部可能会出现外部链接的提示,你也可以点击右上角的“关于此存档”了解更多存档页的信息。
存档网页的相关信息对于理解它的十分重要。例如,网页上一些图片是否和其他元素在同一时间被抓取?你可以通过点击每个存档网页右上角的“关于此存档”(About this capture)来了解存档页的相关信息。
我们一直都很重视存档网页的完整性以及存档页信息的透明度,这也增强了人们对“网站时光机”的信心——目前,世界各地的多个法院都接受“网站时光机”的信息作为证据。
浏览器扩展
我们有适用于 Safari、Firefox 和 Chrome 的浏览器扩展,以及适用于 iOS 和 Android 的应用程序。我们也与搜索引擎 Brave 合作,在他们的浏览器中建立了 404(和其他错误条件)检测功能。
除了对大部分公共网络资源进行存档之外,互联网档案馆还保存了其他资料,包括通过互联网学术档案(Internet Archive Scholar)服务提供的2500多万份学术论文;近3000万本可以预览、借阅或下载的电子书和文件;数百万小时的电视新闻存档,并且这些新闻的字幕已经被索引,可以进行全文检索。
如果你想更多了解“网站时光机”,非常欢迎你在 Twitter 上@internetarchive 或@waybackmachine,以及阅读我们的官方博客。
作者简介
Mark Graham 已经管理了五年多“网站时光机”。在此之前,他是NBC的高级副总裁,负责数字新闻相关业务。Graham 还帮助运营了第一个连接美国与前苏联的电子邮件服务,并协助建立过一家针对女性的在线服务机构——iVillage。
原标题:《如何使用“网站时光机”进行在线调查?》
阅读原文

后台-系统设置-扩展变量-手机广告位-内容正文底部
2021中国大运河文化带京杭对话于杭州启幕 奔流千年文脉常新
清华大学:立体录取通知书已升级,只差填上你的信息!

已有条评论,欢迎点评!