Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации

Аналитика

26/10/2015

Днепрогэс в филологии

Что такое Мультимедийный корпус русского языка (МУРКО), для чего лингвисты смотрят советские фильмы и как всё это поможет в изучении русского языка, рассказывает лингвист, создатель МУРКО Елена Гришина. 
 
− Что такое Национальный корпус русского языка и чем он отличается от энциклопедий и словарей?

− С энциклопедиями и словарями Национальный корпус русского языка имеет мало общего, потому что энциклопедии и словари – это набор статей, поясняющих слово. Корпус больше всего напоминает интернет-библиотеку – такие как Библиотека Мошкова, Либрусек. Основное различие заключается в том, что в Корпусе у каждой словоформы есть набор меток. У русского языка богатая словоизменительная система. Если это слово в родительном падеже, например «ноутбука», – то к нему будет приписано, что исходная словоформа – «ноутбук», что это мужской род, родительный падеж, единственное число, неодушевленный объект. Это что касается грамматики. И понятно, что к каждому слову можно приписать еще множество меток – по выбору составителей. Например, что в слове «но-ут-бук» три слога, ударение падает на третий слог, что это не абстрактное понятие, а конкретный предмет. Ряд может быть сколь угодно длинным. 

Это постоянно работающий огромный конгломерат, требующий пополнения и вычитки. Которым занимаются полторы старых калеки из предыдущего поколения, которые могут работать и бесплатно, потому что они фанатики, и некоторое количество молодёжи, которая любит лингвистику
Национальный корпус русского языка сейчас состоит из Основного корпуса, из Газетного корпуса, из Поэтического корпуса, из трёх Устных модулей и из четвертого устного модуля – МультиПАРК, которым я сейчас занимаюсь. Огромная историческая часть – древнерусский, среднерусский, церковно-славянский языки. Это постоянно работающий огромный конгломерат, требующий пополнения и вычитки. Которым занимаются полторы старых калеки из предыдущего поколения, которые могут работать и бесплатно, потому что они фанатики, и некоторое количество молодёжи, которая любит лингвистику.

− Как создание Корпуса изменило схему лингвистических исследований? 
 


Любой язык, для которого создан национальный корпус, − это язык, который существует в другой филологической и лингвистической реальности
– Корпуса позволяют лингвистам автоматизировать ту работу, которая до создания корпусов выполнялась вручную на карточках. Лингвисты составляли огромные картотеки, и до сих пор их можно увидеть на первом этаже Института русского языка – ими до сих пор пользуются. Это огромный труд многих поколений учёных, настоящий научный подвиг. На основе этих картотек писали научные работы, словари, создавали учебные пособия. Сейчас это автоматизировано благодаря компьютерам и корпусам, и то, на что уходили человеческие жизни, ты получаешь одним нажатием клавиши в течение тридцати секунд. Любой язык, для которого создан национальный корпус, – это язык, который существует в другой филологической и лингвистической реальности. Лингвисты в нём работают уже в совершенно других условиях.

− Какое место Мультимедийный корпус русского языка занимает в Национальном корпусе? 
 
– Это уже был другой шаг, мы к нему шли постепенно. Мы начали работать, как и все, с письменными текстами. Потом в какой-то момент нам пришла мысль: почему только письменные? Устная речь занимает в нашей жизни гораздо большее место, чем письменные тексты. А получалось, что устная речь в корпусе совсем не представлена. Поэтому где-то с 2003 года – на этот момент корпус письменной речи составлял 13 миллионов словоупотреблений (сейчас уже к полумиллиарду подходим) – мы начали собирать так называемые расшифровки, письменную фиксацию устных выступлений.
Самыми первыми текстами, которые мы получили, были тексты из фонда «Общественное мнение». Там в рамках социологической работы проводятся так называемые фокус-группы: собирается группа людей, вполне анонимных, социолог модерирует дискуссию, задавая вопросы, – а люди высказывают своё мнение.
Сама устная речь не звучала, но устный синтаксис, лексика и грамматика таким образом у нас появились. Устная речь всё-таки очень сильно отличается от письменной. В любом языке, а в русском – с его свободным порядком слов и диким обилием частиц – это в каком-то смысле вообще отдельная сущность. Мы начали потихоньку набирать расшифровки устных текстов – и сформировался Устный подкорпус.


− До создания Мультимедийного корпуса было ещё далеко? 
 

– Следующим шагом было понимание того, что мы можем этот корпус акцентуировать. Русское ударение свободно, мобильно и вообще представляет собой огромную сложность. Грамматика может держаться столетиями, а акцентологические изменения иногда замечаются на протяжении пятидесяти лет. И мы в какой-то момент поняли, что если будем не только расшифровывать устные тексты, но и ставить ударения, то мы получим бесценный материал о том, как на самом деле люди расставляют ударения. Не те ударения, которые рекомендуют в словарях и учебниках, а то, как на самом деле люди говорят.
Если ты имеешь доступ к реальной речевой практике, то ты можешь просчитать тенденцию в развитии. Например, об ударении типа «звонИшь», которое рекомендуется всеми словарями и считается абсолютно правильным, и ему специально учат, и за ударение «звОнишь» специально ругают. Тем не менее изучение всех глаголов этого типа на –ить показывает, что сколько бы культурная составляющая ни сопротивлялась, ударение «звОнит» входит в тенденцию русского языка. Рано или поздно оно победит или же останется единственным исключением, потому что именно за него бьются. Остальные слова такого же типа находятся без внимания, поэтому они идут по своей колее. Например, глагол «варить» – он во времена Пушкина звучал как «он варИт»: он звонИт, он варИт.

− Даже в песенке про поварят осталось: «поварята щи варЯт».

– Да, да. И у Пушкина нет ни одного ударения «вАрит», у него только «варИт». И вся Пушкинская эпоха – только «варИт». А потом, поскольку на этот глагол никто не обращал внимания, то он благополучно перенёс ударение в этой форме на первый слог – никто не заметил даже. А вот форме «звонИт» так не повезло, что по ней определяют уровень начитанности, интеллигентности и так далее.

Русская поэзия, силлабо-тоническая, по ряду довольно простых правил позволяет пересчитывать сильные доли в стихе – ямб, хорей и так далее, – и это дает возможность высчитывать ударения. К этому моменту у нас уже был потрясающий Поэтический корпус, размеченный. Вот мы слили две эти вещи – у нас получился наш Акцентологический корпус. И он тоже сейчас растёт, пополняется.
На этапе Устного корпуса мы поняли, что самый легкий доступ к видео, аудио, в котором мы можем получить квазиустную  речь, - это речь в кино. Тогда мы начали расшифровывать кино. Потом и кино пошло в Акцентологический корпус.
  

И вот в 2008 году пришла по-настоящему удачная идея, когда был наконец задан напрашивающийся к тому моменту вопрос: а собственно, почему мы бы нам не только прочитать устный текст, но одновременно его не услышать и увидеть? Тогда и родилась идея Мультимедийного русского корпуса, или, в нашем внутреннем корпусном просторечии, – МУРКО.

На самом деле, надо было сделать лишь один шаг. Дело в том, что, когда ты берешь один целый текст кино, ты в принципе с ним можешь работать. Если к нему есть расшифровка, ты можешь по ней найти нужные тебе места. Но вы можете себе представить, что такое найти отдельную реплику или фрагмент реплики – в фильме, который длится полтора часа? На одну реплику вы будете тратить один-два дня. А если вам надо таких реплик прослушать сто, двести, иногда – тысячу?

С созданием МУРКО появился инструмент поиска. Шаг был сделан очень простой: нужно разрезать фильм на фрагменты и точно так же разрезать расшифровку – и выровнять их между собой. Итак, у вас есть коротенький клип, от восьми до двадцати пяти секунд, в котором звучит какой-то текст, и какие-то люди что-то делают – в частности, жестикулируют. И к нему есть ровно такой же фрагмент расшифровки. Вы можете одновременно прочитать и посмотреть, что там происходит. Двум этим вещам вы присваиваете одинаковое имя – и  тогда в поисковой системе корпуса замечательные наши программисты делают так, что у вас на запрос от текста выходит не один текст, а прицепленный к нему клип. То есть вы получаете не просто совокупность контекстов, как в Национальном корпусе, а по каждому контексту вы можете прослушать и увидеть то, что там происходит. Так началась уже совсем другая жизнь для русской филологии в исследовании устной речи.

− Это в самом деле очень интересно…

 – Не сразу нам удалось заинтересовать людей, даже специалистов. Я, как энтузиаст, думала, когда мы в конце 2010-го года открывали пилотный МУРКО: «Ну всё, сейчас начнется взрывной рост любопытства». Нет, должно было пройти несколько лет, прежде чем люди распробовали, не поленились зайти, почитать инструкцию, не поленились первый раз поискать то, что им было нужно. Лишь после того, как люди в первый раз начинают искать, они начинают ценить МУРКО и пользуются им стабильно.
 
− Говорят, что Вы работаете над МУРКО практически в одиночку. Это правда?

– Нет, безусловно. Такую вещь невозможно делать одному. В МУРКО где-то под пять миллионов словоупотреблений – то есть это один из самых больших открытых мультимедийных корпусов в мире.


- Большая у вас команда?

– Команда у нас двухъярусная. Люди, которые определяют логистику работы: что за чем делать, на что обратить внимание, какие программы нам нужны, чтобы работа шла максимально удобным образом. Строго говоря, руководство, но такое работающее руководство – это Светлана Олеговна Савчук и я. И люди, без которых ничего бы не было: это люди, которые работали и работают за деньги, но и за совесть одновременно. Те, кто резал тексты и фильмы – сейчас мы уже с фильмами закончили, сейчас мы уже вставляем туда политику и науку, – этих людей в общей сложности было человек десять за эти годы. Так что работала команда.
Другое дело, что начинала я, конечно, одна. Придумывалось всё это в одиночестве. Уже когда стало ясно, как всё это делать, было понятно, что в одиночестве я ничего не смогу. Надо ли говорить, что первый фильм – «Бриллиантовая рука», естественно, - перерезался мною лично три раза. Пока я не поняла, как это нужно делать правильно, не разработала технологию, чтобы уже можно было её спокойно передать.

− Сколько всего фильмов вам пришлось пересмотреть и обработать?

– В какой-то момент я перестала резать фильмы – моя задача была их отобрать. Но так как я неплохо знаю советский кинематограф, мне было легко. Я большой фанатик советского кинематографа в принципе, я считаю, это огромное, мирового масштаба, культурное явление. Я знала фильмы шедевральные, первого порядка и хорошего среднего уровня, которые можно было брать. Поэтому я работала на своём багаже, смотреть мне приходилось только какие-то новые фильмы, из российской новой истории, которые стоило брать. Их немного, но они есть.

− МУРКО позволяет судить не только о русской речи, но и о других пластах русской жизни. Вы упомянули о жестах. Существуют ли типично русские жесты? И меняются ли они со временем?

– Наверняка, да – на оба вопроса. Но точно этого никто не знает. По очень простой причине. Я проделала довольно большую работу, книжку по русской жестикуляции закончила на материале МУРКО. Но для того, чтобы понять, что какой-то жест специфичен исключительно для русских и не характерен для американцев, вы должны аналогичную работу проделать для другого языка. Для этого нет достаточных материалов. Я работаю со статистикой, мне один жест ничего не скажет. Мне нужна подборка хотя бы в сотню. Для этого нужен большой Мультимедийный корпус, при этом открытый. И чтобы я могла спокойно, не разорившись, им пользоваться. Этого, к сожалению, нет. Мультимедийные корпуса, естественно, существуют, но если они делаются за деньги компаний, то компаниями они и закрываются. Если ты хочешь их получить, ты должен платить приличную сумму – ты или твой университет, твой институт и так далее.


 Особенность РАН, да будет славно имя её: в России этот ресурс изначально планировался как абсолютно открытый. И мы никогда не планировали на нём зарабатывать, Академия – тоже.

− Тогда зачем ваш проект? 

– Это делается для того, чтобы российская лингвистика вышла на новый уровень. Это считалось и считается до сих пор программой национального масштаба. Хотя ни в какие национальные программы не вписана отдельной строкой, что очень жаль. Я лично, как гражданин Российской Федерации и не самый последний лингвист, считаю, что в филологии аналогичных по масштабу проектов не было с эпохи создания больших словарей. Великих словарей, на которых стоит современная лингвистика: это словарь Ушакова 30-х годов, Малый академический словарь и Большой академический словарь. Это были огромные национальные проекты, такой Днепрогэс в филологии.
  
Между тем Мультимедийный корпус русского языка – сейчас эта конструкция держится на паре-тройке человек, способных отчалить в мир иной (мы немолодые уже), – и всё, проект зависнет. Такие вещи должны – с моей точки зрения – поддерживаться государством.
 
− Ваше интервью прочитает много людей, возможно, что-то изменится. 
 
– Я в каком-то смысле скептик. Я из того поколения советских учёных, когда была такая уверенность, что деньги и наука – они лежат в разных местах. И в нашем старшем поколении, которое в значительной степени тянет этот корпус, эта идея не умерла. Представление: «если у проекта много денег, то он будет удачным и состоится, а если у проекта мало денег – то он неудачный и не состоится», как показывает жизнь, – не самое правильное.

Елена Гришина, создатель Мультимедийного корпуса русского языка

Беседу вела Ольга Огарёва.


http://russkiymir.ru/publications/197018/