Академия

Национальный корпус русского языка стал одним из наиболее востребованных инструментов русистов во всем мире

Национальный корпус русского языка стал одним из наиболее востребованных инструментов русистов во всем мире

На заседании Президиума Российской академии наук обсудили вопрос фундаментальных проблем лингвистики и задачи корпусных исследований языков.

Академик РАН Владимир Плунгян доложил о современном этапе развития корпусной лингвистики — направления, получившего особенно интенсивное развитие в связи с появлением больших электронных коллекций текстов (в том числе доступных в Интернете) и технологий обработки больших данных. Особое внимание он уделил терминологии и методологии этого актуального направления научной мысли.

В докладе была дана общая характеристика понятию «корпус языка», краткая история развития корпусной лингвистики в России и в мире, обозначены современные приоритеты этой области исследований. Корпусная лингвистика позволяет получать принципиально новые данные о языковых изменениях, а также осуществлять более эффективные исследования грамматики и лексики практически во всех релевантных для современной теории языка аспектах.

Кроме того, Владимир Плунгян сообщил о высокой востребованности главного проекта отечественной корпусной лингвистики — Национального корпуса русского языка, и его особенностей по сравнению с другими существующими корпусами.

О развитии Национального корпуса русского языка как компьютерно-лингвистической платформы, создаваемой на базе Института русского языка им. В. В. Виноградова РАН при участии специалистов других академических институтов (прежде всего, ИППИ РАН и ИЛИ РАН), российских вузов и компании «Яндекс», рассказала профессор и руководитель Школы лингвистики НИУ ВШЭ Екатерина Рахилина. Среди основных функций НКРЯ — новые статистические инструменты, визуализация выдаваемых пользователю результатов, поиск языковых выражений по всему 1000-летнему периоду истории русского языка (от XI века до наших дней), со всеми произошедшими за это время изменениями. Это ресурс не только для лингвистов, но и для широкой аудитории. Он способствует сохранению и приумножению знаний о русском языке, делает их доступными учителям, школьникам, преподавателям русского как иностранного и переводчикам — всем, кому интересен русский язык.

В свою очередь,  директор по социальным проектам Яндекс.Учебник Кирилл Медведев обратил внимание на успешный, уже более чем двадцатилетний опыт сотрудничества по созданию Национального корпуса русского языка лингвистов академических институтов и компании «Яндекс», что способствует развитию и совершенствованию поисковой системы, а также YandexGPT.

Директор Института языкознания РАН Андрей Кибрик рассказал о корпусных исследованиях языков Российской Федерации, которых сегодня 155, не считая диалектов. В качестве примеров он привёл корпусные ресурсы по татарскому, бурятскому, калмыцкому, чувашскому, удмуртскому, эрзянскому, адыгейскому, хакасскому, цыганскому, эвенкийскому, кетскому и другим языкам.

Член-корреспондент РАН Ирма Муллонен поделилась опытом создания и развития корпуса вепского и карельского языков. Работы ведутся исследовательским коллективом сотрудников Института ЯЛИ и Института прикладных математических исследований КарНЦ РАН.

С завершающим докладом выступил академик РАН Александр Молдован. Он отметил, что создание лингвистического корпуса непосредственно смыкается с лексикографическими задачами. Институт русского языка им. В.В. Виноградова РАН три года назад выступил инициатором масштабного проекта, который получил название «Национальный словарный фонд». Была сформулирована задача — собрать на единой информационной платформе материалы всех академических словарей русского языка и сделать их общедоступными.

Благодаря Национальному корпусу русского языка лексикографы получили прямой доступ к информации, которая раньше добывалась в течение длительного времени и никогда не достигала необходимой полноты и точности. Эти возможности решительно перестраивают технологию лексикографии, позволяя исследователю освободиться от множества рутинных операций и сосредоточиться на решении научных задач, связанных с изучением лексической семантики и норм словоупотребления.

В ходе мероприятия выступил специальный представитель Президента Российской Федерации по международному культурному сотрудничеству Михаил Швыдкой, который отметил важную роль отечественной лингвистики в продвижении и защите русского языка за рубежом как языка межнационального общения.

В завершении обсуждения вице-президент РАН академик РАН Николай Макаров подчеркнул актуальность озвученной тематики. По его словам, Российская академия наук должна выступать в роли заказчика таких исследований и работ, так как в настоящее время нет централизованного ведомства, которое могло бы взять на себя эту функцию.

Ссылка на видеозапись заседания президиума РАН доступна здесь.

Новости Российской академии наук в Telegram →