«Почерк Петра I принципиально не отличается от почерков его современников», - директор СПбИИ РАН
«Почерк Петра I принципиально не отличается от почерков его современников», - директор СПбИИ РАН
Сетевой ресурс «Digital Петр», использующий технологии искусственного интеллекта для распознавания рукописей Петра I, стал подарком для российских ученых в преддверии 350-летия первого российского императора. Однако для достижения фундаментальных результатов программу необходимо развивать, – такое мнение высказал директор Санкт-Петербургского института истории (дом Н.П.Лихачева) РАН, член правления правления Российского исторического общества член-корреспондент РАН Алексей Сиренов в докладе на президиуме РАН 14 июня.
«Вне зависимости от юбилея Петра I проблема машинного чтения русских рукописных документов кажется мне наиболее актуальной в этом проекте. Почерк Петра плохо разборчив, и именно это стало причиной того обстоятельства, что фундаментальное издание наследия Петра I «Письма и бумаги Петра Великого» в течение более чем 150 лет так мало продвинулось <…>. Два года назад Сбербанк и Российское историческое общество выступили с инициативой разработать программу, которая помогла бы архивистам, историкам ускорить работу по изданию этого фундаментального труда. Специалисты нашего института подключились, была создана группа, принимал большое участие и Росархив, специалисты Российского государственного архива древних актов, где хранится большая часть рукописей Петра I. В течение полутора лет эти работы проводились», – рассказал Алексей Сиренов.
По его словам, задачей историков стал подбор и разметка документов для формирования датасета для машинного обучения (пар из сегментированных строк и их прочтения). Всего была размечена 681 страница из 9656 строк. На этом материале программистами Сбербанка была создана программа «Digital Петр», которая сейчас представлена в свободном доступе на тематическом сайте SberAI. Сейчас разработчики решают проблему адаптации механизма распознавания к другим типам почерков современников Петра I. Учитывая, что по мере цифровизации российских архивов число документов достигнет десятков и сотен тысяч, по мнению директора СПбИИ РАН, необходимо уже сейчас готовиться к решению важнейшей задачи – создать механизм быстрого поиска информации в этом массиве цифровых копий.
«В нашем распоряжении большое количество рукописных материалов XVI-XIX веков. В настоящее время, следуя государственным программам, архивы занимаются оцифровкой и представлением в интернете этих материалов. Прочитать их довольно трудно, хотя специалисты, безусловно, могут. Но мало того, что их трудно прочитать – невозможно организовать поиск нужной информации. Программы машинного чтения подобных документов выполнили бы очень важную прикладную задачу», – отметил директор СПбИИ РАН.
К числу перспективных фундаментальных задач Алексей Сиренов отнес экспертизу (определение подлинности) и атрибуцию (установление авторства) документов при помощи технологий искусственного интеллекта. Программа «Digital Петр» пока не умеет отличать подделки под почерк Петра I от оригинала: вопрос, можно ли будет использовать ее как инструмент для научной экспертизы в дальнейшем, остается открытым. Что касается атрибуции, то проведенные тесты дают ученым некоторую надежду.
«Для средневековых документов это задача, сейчас вообще не решаемая какими-то научными методами, мы еще находимся в донаучной области знаточества, когда отдельные эксперты могут отождествлять почерка. Для более позднего материала такие задачи ставятся, но пока еще не решаются. Если можно было бы, развивая эту или подобные программы, подойти к вопросу атрибуции почерка, это был бы очень существенный результат. И уже в нынешнем виде программа дает для этого какую-то надежду», – поделился ожиданиями Алексей Сиренов.
Президент РАН Александр Сергеев высказал мнение, что «Digital Петр» позволит существенно ускорить работу работа над многотомным изданием «Письма и бумаги Петра Великого». Работа над ним началась еще полтора века назад, и на данный момент вышел 14-й том с документами за первую половину 1714 года.
«Эта работа началась еще в 1782 году, когда отмечали 200-летие Петра I. Сейчас эти работы продвигаются вперед в связи с созданием очень интересного цифрового движка «Digital Петр»… Происходит эффективная оцифровка, распознавание документов с очень высокой точностью, и по-видимому, все-таки мы в ближайшее время будем иметь завершение “Писем и бумаг Петра Великого”», – выразил уверенность глава РАН.