Как работает онлайн-сервис Яндекса «Поиск по архивам» и что там можно найти

Основа работы сервиса

На старте проекта его пользователям стали доступны расшифрованные рукописи, датированные XVIII — началом XX века. Это миллионы страниц исторических документов:

Метрические книги — аналог современных ЗАГСов (записей учета актов гражданского состояния), куда вносили сведения о рождении и смерти людей, заключенных браках.
Исповедные ведомости. В них фиксировались имена прихожан, посещавших исповеди в три больших поста, а также сведения о причастии. Учитывая распространение религии два-три века назад, это очень объемные списки.
Ревизские сказки — от слова «ревизия». В них отражались результаты подушной переписи населения с начала XVIII века. Помимо имени, фамилии, отчества и возраста человека, там указывались все члены его семьи и их положение относительно друг друга — кто кому приходится.

Сегодня сервис предоставляет доступ к архивам Москвы и Подмосковья, Оренбургской, Астраханской, Иркутской, Вологодской, Омской, Новгородской, Саратовской, Сахалинской областей, Хабаровского, Приморского краев, Республик Мордовия, Дагестан и нескольких районных хранилищ и библиотек.

Сделать поиск удобнее позволяют фильтры:

по году — можно указать значение «от» и «до»;
типу документа — источник, фонд, опись, дело;
географической привязке.

Таким образом пользователь сможет отыскать упоминания об интересном ему человеке, установив ограничения по поиску или запросив все возможные данные.

Для старта поиска достаточно указать фамилию и название населенного пункта. Например, «Климов, деревня Александровка». При наведении курсора на рукописный лист справа он преобразуется в блок печатного текста, который гораздо проще разобрать.

Как устроен «Поиск по архивам»

В основе распознавания рукописных текстов — оптическая технология, на которой работает нейросеть. Она умеет узнавать текст в старой орфографии, написанный дореформенным языком, содержащим такие неиспользуемые сегодня буквы, как еръ, еры́, ерь, ять и другие.

Еще одной особенностью нейросети стали модели. В дореволюционной России текст часто писался в колонки и постоянно переносился с одной строки на другую, поэтому разработчиками был создан особенный алгоритм распознавания. Он состоит из нескольких этапов, каждый — на базе своей модели.

Первая — определяет положение строки на отсканированном изображении.
Вторая — распознает буквы и складывает их в слова.
Третья — группирует полученные строки по блокам, составляя целостный текст.

Алгоритмы распознавания постоянно совершенствуются, позволяя учитывать особенности почерка, размер шрифта, качество бумаги исходника. Благодаря этому можно работать не только с метриками и ведомостями в формате списков, но и с газетными страницами, а также другими источниками.

Так, в «Поиске по архивам» стали доступны «Периодические издания» — областные ведомости, городские известия, вестники духовенства и т. п. — и «Справочники» — календари, адресные книги, очерки из учебных заведений. Теперь они располагаются в отдельных вкладках.

Какие данные ищут на площадке

Найденная в «Поиске по архивам» информация чаще всего используется для составления генеалогического древа, а также для дополнения биографических сведений известных лиц. К сервису обращаются для получения:

записей о рождении — когда, где;
установления точной даты смерти;
данных о женитьбе или замужестве;
сведений о составе семьи и других. Это незаменимый инструмент для социологов, историков, демографов и генеалогов.

Как работает онлайн-сервис Яндекса «Поиск по архивам» и что там можно найти

Основа работы сервиса

Как устроен «Поиск по архивам»

Какие данные ищут на площадке

Интересует подключение продуктов Ростелекома?