Основа работы сервиса
На старте проекта его пользователям стали доступны расшифрованные рукописи, датированные XVIII — началом XX века. Это миллионы страниц исторических документов:
- Метрические книги — аналог современных ЗАГСов (записей учета актов гражданского состояния), куда вносили сведения о рождении и смерти людей, заключенных браках.
- Исповедные ведомости. В них фиксировались имена прихожан, посещавших исповеди в три больших поста, а также сведения о причастии. Учитывая распространение религии два-три века назад, это очень объемные списки.
- Ревизские сказки — от слова «ревизия». В них отражались результаты подушной переписи населения с начала XVIII века. Помимо имени, фамилии, отчества и возраста человека, там указывались все члены его семьи и их положение относительно друг друга — кто кому приходится.

Сегодня сервис предоставляет доступ к архивам Москвы и Подмосковья, Оренбургской, Астраханской, Иркутской, Вологодской, Омской, Новгородской, Саратовской, Сахалинской областей, Хабаровского, Приморского краев, Республик Мордовия, Дагестан и нескольких районных хранилищ и библиотек.
Сделать поиск удобнее позволяют фильтры:
- по году — можно указать значение «от» и «до»;
- типу документа — источник, фонд, опись, дело;
- географической привязке.

Таким образом пользователь сможет отыскать упоминания об интересном ему человеке, установив ограничения по поиску или запросив все возможные данные.
Для старта поиска достаточно указать фамилию и название населенного пункта. Например, «Климов, деревня Александровка». При наведении курсора на рукописный лист справа он преобразуется в блок печатного текста, который гораздо проще разобрать.

Как устроен «Поиск по архивам»
В основе распознавания рукописных текстов — оптическая технология, на которой работает нейросеть. Она умеет узнавать текст в старой орфографии, написанный дореформенным языком, содержащим такие неиспользуемые сегодня буквы, как еръ, еры́, ерь, ять и другие.
Еще одной особенностью нейросети стали модели. В дореволюционной России текст часто писался в колонки и постоянно переносился с одной строки на другую, поэтому разработчиками был создан особенный алгоритм распознавания. Он состоит из нескольких этапов, каждый — на базе своей модели.
- Первая — определяет положение строки на отсканированном изображении.
- Вторая — распознает буквы и складывает их в слова.
- Третья — группирует полученные строки по блокам, составляя целостный текст.

Алгоритмы распознавания постоянно совершенствуются, позволяя учитывать особенности почерка, размер шрифта, качество бумаги исходника. Благодаря этому можно работать не только с метриками и ведомостями в формате списков, но и с газетными страницами, а также другими источниками.
Так, в «Поиске по архивам» стали доступны «Периодические издания» — областные ведомости, городские известия, вестники духовенства и т. п. — и «Справочники» — календари, адресные книги, очерки из учебных заведений. Теперь они располагаются в отдельных вкладках.

Какие данные ищут на площадке
Найденная в «Поиске по архивам» информация чаще всего используется для составления генеалогического древа, а также для дополнения биографических сведений известных лиц. К сервису обращаются для получения:
- записей о рождении — когда, где;
- установления точной даты смерти;
- данных о женитьбе или замужестве;
- сведений о составе семьи и других. Это незаменимый инструмент для социологов, историков, демографов и генеалогов.
