История создания
Идея создания веб-архива всего Интернета зародилась в конце 1990-х годов. Интернет стремительно развивался, и стало очевидно, что контент, публикуемый в Сети, может быстро исчезнуть или измениться. Основателем Wayback Machine стал Брюстер Кейл, который в 1996 году создал некоммерческую организацию Internet Archive. Цель проекта — сохранение культурного и научного наследия Интернета для будущих поколений. Платформу официально запустили в 2001 году, но информацию собирать начали раньше.

Что хранится
Wayback Machine хранит все, что находится на сайтах. CSS-стили, скрипты, текст, ссылки, изображения, видео и другие мультимедийные файлы. В архиве содержатся копии сотен миллиардов веб-страниц с середины 1990-х годов до сегодняшнего дня. Поисковые боты сканируют и популярные, и малоизвестные сайты, но во втором случае процесс добавления в онлайн-библиотеку может занять больше времени. Также в архиве хранятся цифровые копии книг, песен и программ. Сервис покупает оригинальную версию, оцифровывает ее и сохраняет. После этого любой желающий может с ней ознакомиться в течение двух недель.
Как это работает
Принцип работы Wayback Machine заключается в регулярном сканировании и сохранении копий страниц. Система похожа на поисковых роботов Google или Яндекса, но кроме текста и ссылок она сохраняет и другие файлы. Сервис находит только информацию из общего доступа. Копии хранятся в большой базе данных, доступ к которой может получить любой пользователь.

Где хранится
Для архивирования такого количества информации потребовалась внушительная инфраструктура, в которую входит более 750 серверов, 1 300 виртуальных машин, 20 000 жестких дисков и 30 000 других устройств. Хранятся данные на серверах Internet Archive, расположенных в разных местах по всему миру. Чтобы исключить потерю информации, регулярно создаются резервные копии в нескольких экземплярах.

Как пользоваться
На сайте есть временная шкала с отметками дат, для которых сохранены копии страниц. Кликнув на нужную дату, можно просмотреть версию, сохраненную на тот момент времени. Все данные будут разделены на следующие вкладки:
Calendar/Collections/Changes/Summary/Site Map/URLs
Чаще всего пользователи обращаются к календарю. Он отображает количество сохранений страницы за все время в те дни, когда робот заходил на сайт. Можно посмотреть информацию по каждому году. В календаре дни отмечаются разными цветами: синим, зеленым или красным, в зависимости от итога посещения. Синий цвет указывает на успешное сохранение, зеленый — на перенаправление на другой адрес, а красный — на ошибку загрузки сайта. Цвета не всегда корректно отображаются, иногда при переходе по «синей» дате пользователь может оказаться на другой странице. Это связано с тем, что робот зафиксировал посещение сайта с автоматической переадресацией, которую не распознал.

Можно сравнить две версии одной страницы, сохраненные в разное время. Для этого необходимо открыть вкладку Changes, выбрать две даты и нажать Compare. Страницы загрузятся параллельно, детальное сравнение позволит отметить все произошедшие изменения.
На вкладке Summary архив предоставляет общие данные о сайте в удобном формате. Графики и диаграммы делают информацию более наглядной. В верхней части страницы доступны настройки, позволяющие выбрать временной период, за который требуется аналитика. Можно настроить отображение только интересующих типов файлов.

Вкладка Site Map дает возможность посмотреть, как часто веб-архив обращался к конкретному сайту в течение года. На большом круге-диаграмме отобразятся уровни вложенности сайта, найденные системой. В центре — главная страница, в следующем кружке — первый уровень вложенности после слэша и так далее. Если график отображает недостаточно данных, значит сайт не позволяет роботам посещать страницы или активировалась переадресация.
На последней вкладке можно найти таблицу с подробной информацией по каждой странице сайта. Здесь отображаются URL-адрес, тип сохраненных данных, дата первого и последнего сохранения, общее количество сохранений и количество новых копий.
Как добавить страницу
Любой пользователь может отправить поискового робота на интересующий сайт. Для этого перейдите на https://web.archive.org/save/ и введите нужный адрес, после чего нажмите на кнопку Save Page.

Для чего нужно
Обычному пользователю веб-архив будет полезен для просмотра неработающих сайтов, поиска удаленных комментариев, изучения изменений на странице и даже подтверждения авторского права.
Журналисты и исследователи используют сервис для анализа эволюции сайтов и контента, отслеживания изменений и развития ресурсов. Разработчикам проект поможет восстановить утраченные данные. Также Wayback Machine — ценный ресурс по сохранению цифрового наследия.
