Общество

Анастасия Ракова рассказала об использовании нейросетей для распознавания архивных документов

Более 5,4 млн страниц исторических материалов из Главархива Москвы загрузили на портал поиска по архивным рукописным документам «Поиск по архивам», пользователи просмотрели документы, расшифрованные нейросетью, более 20 млн раз. Об этом рассказала заместитель мэра столицы по вопросам социального развития Анастасия Ракова.

Портал был запущен год назад. Проект создали Главархив и Яндекс в качестве дополнения сервиса «Моя семья», хранящего оцифрованные метрические книги с данными о рождении, браке, смерти москвичей и жителей Московской губернии.

«На основе ресурса "Моя семья" нейросеть "Поиска по архивам" училась читать рукописные тексты. За год работы сервиса к порталу обратились более 20 миллионов раз, что говорит о его популярности и необходимости. Сама же нейросеть проанализировала свыше 10 миллионов страниц исторических документов», — рассказала Ракова.

«Поиск по архивам» помогает историкам, социологам, демографам, журналистам находить сведения об исторических событиях и личностях, а обычные люди могут узнать больше о своих предках. В сервисе есть документы из архивов 11 регионов, в том числе Московской, Оренбургской, Новгородской, Иркутской областей. Всего нейросеть распознала свыше 60 тысяч рукописных и печатных текстов середины XVIII-начала XX веков.

Также в поиске доступны 3,6 млн оцифрованных страниц периодических изданий, в частности, «Советский спорт», «Вечерняя Москва», епархиальных ведомостей.

Расшифровка в «Поиске по архивам» ведется с помощью оптического распознавания символов: нейросеть узнает знаки, утратившие актуальность, учитывает особенности почерка и преобразует записи в печатный текст. При этом для работы с газетными страницами искусственный интеллект научили распознавать текст мелким шрифтом, напечатанный на огромных полосах на низкоплотной бумаге.

Подписывайтесь на НСН: Новости | Дзен | VK | Telegram

ФОТО: Соцкомплекс Москвы