Какие виды синтаксиса существуют в русском языке? Как исследования синтаксиса помогают улучшить качество машинного перевода? Как лингвисты составляют корпусы текстов? Об этом рассказывает кандидат филологических наук Леонид Иомдин.
Я много лет занимаюсь машинным переводом и долгие годы разрабатывал систему машинного перевода, которая называлась ЭТАП. Эта система разрабатывается в Институте проблем передачи информации Российской академии наук в лаборатории компьютерной лингвистики. Моя конкретная специализация в этой задаче, в создании машинного перевода, — синтаксис. И волей-неволей мне приходилось решать разного рода синтаксические проблемы, связанные именно с адекватным описанием синтаксических явлений русского языка.
Постепенно выяснилось, что в русском, да и в любом языке, есть, если угодно, два синтаксиса. Это главный синтаксис, который описывает небольшое количество базовых синтаксических конструкций, например конструкции типа «подлежащее плюс сказуемое» либо «определение плюс существительное»: красный мяч, большой дом и так далее. Это базовые конструкции, их немного, но они описывают основную часть языка. И есть мелкие конструкции, которые описывают не базовую часть языка, а конкретную вещь. Но именно они являются наиболее сложными, а кроме того, они очень плохо описаны в традиционной лингвистике. Почему это происходит? Потому что они находятся на стыке словаря и грамматики. Грамматисты их, может быть, и упоминают, а у словарников не доходят руки до того, чтобы их подробно описать.
Я начну с очень простого примера. Когда мы занимались анализом русского текста, то обнаружили, что есть некоторые конструкции, которые с трудом поддаются анализу. Это самые обычные конструкции такого типа: «Мне негде спать», «Мне некуда пойти», «Мне нечего делать» и так далее. И мы видим, что как-то эти конструкции не описываются. Не очень понятно, к чему относится это словечко — «негде», «нечего» или «некуда». Почему? Если мы возьмем другие слова типа «нигде», «никуда», «ничто» — все очень хорошо, а с этими словами получается трудно. И мы стали думать: что же это такое? И обнаружили, что на самом деле «негде», «некуда» или «нечего» — это не слова, а специальные агломерации, которые состоят из двух элементов: с одной стороны это «не», а с другой стороны словечко типа «где», «куда» или «что». А что это за «не» такое? Это такой отрицательный глагол. Действительно, как можно сообщить выражение, противоположное по смыслу выражению «Мне негде спать»? Мы скажем: «Мне есть где спать». А «не» — это такой исторический отрицательный глагол: «Не есть/несть где спать» или даже «Мне нет где спать» в некоторых вариантах русского языка. И в прошедшем времени очень часто говорят: «Мне не было где спать».
Когда мы, Юрий Дереникович Апресян и я, обнаружили это, мы написали большую работу, посвященную исследованию именно этих конструкций. Эти конструкции относятся к малому синтаксису русского языка, который мне оказалось удобно называть не малым, а микросинтаксисом — не потому, что он маленький, а потому, что на него надо смотреть в микроскоп, потому что он требует очень тонких прецизионных инструментов. Как, например, есть хирургия, а есть микрохирургия — не потому, что она маленькая и ненужная или неважная, а потому, что очень трудно: там такие мелкие детали, которые надо смотреть под микроскопом, и здесь надо также смотреть под микроскопом.
Я расскажу о нескольких таких конструкциях, которые мне пришлось исследовать. Оказалось, что таких конструкций очень много, и на это нужно потратить много времени и усилий. Давайте посмотрим на следующие конструкции. Есть такое русское выражение — «черта с два». Все понимают, что это такое, хотя это разговорный элемент, но описать его трудно. А почему? Потому что надо понять, каким образом он встраивается в предложение. А что тут бывает? Например: «Черта с два он придет» — это такое обстоятельство: вряд ли он придет. А можно сказать по-другому: «Черта с два ты получишь» — это уже не обстоятельство, а дополнение: ты ничего не получишь, а именно — то, что ты получишь, будет ничем. Это второе значение.
Без того, чтобы как следует изучить пример, не удастся построить нормальную синтаксическую структуру, а следовательно, не удастся и перевести.
Вот еще один пример. Есть такое словечко — «все равно». Это не словечко, а пара слов. И вот оказывается, что этих «все равно» несколько и они по-русски очень разные. Давайте посмотрим на первое из них. Например: «Я все равно сижу дома, могу последить за ребенком». Это одно значение. Другое дело: «Мне все равно, придешь ты или нет». Обратите внимание, что это вещи очень разные. Когда мы говорим: «Я все равно сижу дома», это означает, что в любых обстоятельствах ничего не изменится, я сижу дома. А когда мы говорим: «Мне все равно», это означает некоторое мое состояние: мне безразличен исход или результаты. Теперь обратим внимание, что в первом случае это «все равно» может следовать только одно за другим, подряд, а во втором — не обязательно. Например, можно сказать: «Не все ли тебе равно?» И получается, что эта единичка «все равно» распределена по тексту, а она должна быть собрана во что-то единое. Это вещь очень сложная, и ее нужно специально отмечать. Более того, в первом случае мы говорим: «Я все равно сижу дома», и нельзя сказать: «Мне все равно сижу дома». А здесь в дательном падеже «мне» выражается субъект состояния — каково мне: мне безразлично, мне все равно.
И есть еще третье «все равно». Фаина Раневская говорила примерно так: «Сняться в плохом фильме — все равно что плюнуть в вечность». Это отдельная вещь, она отличается от второго «все равно». Она близка к этому, ближе, чем к первому «все равно», но она другая. А почему? Потому что нельзя сказать: «Мне все равно что плюнуть в вечность» — здесь нет субъекта состояния. А если сказать: «Для меня все равно что плюнуть в вечность» — это не субъект состояния, а субъект оценки. И такие тонкости очень важны, чтобы это описать.
И последний пример, который можно привести на эту тему, — это удивительная конструкция с глаголом «быть». Когда мы говорим о еде, мы можем сказать: «Я буду суп», «Я буду пиво», «Ты будешь чай?», «Нет, я не буду чай» и так далее. Обратим внимание, что эта конструкция используется только тогда, когда после «буду» мы говорим о еде, питье либо, может быть, о сигаретах: «Я буду Lucky Strike». Это удивительная конструкция в русском языке, которая таким образом семантически ограничена. Дело не только в том, что она ограничена словами со значением еды, питья или сигарет — она ограничена еще и по смыслу. Во-первых, она может быть только в будущем времени, нельзя сказать: «Я вчера был чай, Lucky Strike и пиво» — такого не бывает. Кроме того, невозможно себе представить, когда идет речь о ситуации, когда человек просто рассказывает, что он будет есть. Мы можем сказать: «Я приду домой и съем котлету». Но нельзя сказать: «Я приду домой и буду котлету». Для того чтобы адекватно это воспроизвести, требуются некоторые усилия, чтобы описать такого рода конструкции.
Надо сказать, что микросинтаксис очень близок к тому, что в лингвистике называется грамматикой конструкций. Эта грамматика конструкций — вещь не новая, она возникла в Америке, первым ее автором был Филлмор. В России ее очень активно развивает Екатерина Владимировна Рахилина, у которой есть целая книжка «Грамматика конструкций», и я занимаюсь чем-то очень похожим, что называется микросинтаксисом. Разница тут есть, хотя и не очень существенная. Грамматика конструкций исходит из того, что весь синтаксис языка есть, по сути дела, грамматика конструкций. Мне кажется, что это не совсем так, а именно: есть большой синтаксис, и есть малый синтаксис, микросинтаксис, который и является грамматикой конструкций.
Надо сказать, что таких микросинтаксических элементов очень много, и для того, чтобы как следует их описать, требуется отдельная работа. Мы предполагаем делать эту работу. Мы предполагаем создать специальный ресурс, в котором такие синтаксические конструкции русского языка будут описаны. Можно считать это словарем или некоторым тезаурусом, компендиумом. Это не вполне словарь, потому что его единицами являются именно эти синтаксические конструкции, которых очень много. А второй ресурс, который мы собираемся на эту тему сделать, — это так называемый корпус микросинтаксических конструкций, который, как нам кажется, будет очень полезной вещью. Мы будем этим заниматься, и надеюсь, что такого рода вещи окажутся полезными для других компьютерно-лингвистических задач. Надо сказать, что у нас есть большой опыт создания синтаксических корпусов текстов.
Существует так называемый Национальный корпус русского языка, в который входит очень много разных корпусов.
Один из этих корпусов, который мы создавали отдельно, — это так называемый СинТагРус, синтаксический корпус русского языка, где для каждого предложения приводится его синтаксическая структура. Этот корпус был очень полезным, я приведу только один пример. В русском языке есть конструкция, которая называется длительной. Например: «Он работал два часа», «Пароход плыл два часа». Эта конструкция очень хорошо описана в грамматике. Известно, что эти конструкции могут быть только в присутствии глаголов несовершенного вида. Можно сказать: «Корабль плыл два часа», а сказать «Корабль приплыл два часа» нельзя, надо сказать: «Корабль приплыл за два часа».
Правда, есть еще пара типов глаголов, которые могут присоединять к себе длительную конструкцию. Например: «Больному надо вылежать двое суток» или «Он посидел пару минут и ушел». Глаголы на вы- и на по-. И вот у нас есть корпус, в котором эти длительные конструкции написаны. Дальше, проведя поиск по этому корпусу, мы обнаруживаем, что вовсе не только такие глаголы несовершенного вида и еще глаголы на вы- и на по- там существуют, но существуют и другие глаголы. Например, у нас было предложение, где говорится о каком-то преступнике, который сел в тюрьму, и говорится: «Теперь он отдохнет на нарах годиков пять». «Отдохнет» — это глагол совершенного вида, и все равно это используется. Более того, оказалось, что это используется не только с глаголами, но даже с прилагательными. Например, мы говорим: «Абонент недоступен вот уже два часа» или «Я целый день занят».
Благодаря этому корпусу нам удалось обнаружить некоторые вещи, которые в русской грамматике были неизвестны. А самое любопытное состоит в том, что это обусловлено только тем, каким образом этот корпус составлялся: сначала автоматически строилась синтаксическая структура, а потом ее проверяли эксперты-лингвисты. Эксперт-лингвист увидел, что здесь есть длительная конструкция, и исправил ее, а в корпусе автоматически это построить было нельзя, потому что он построен на правилах. И такой сложный алгоритм создания корпуса привел к тому, что мы смогли обнаружить что-то новое.
Примерно такой же корпус мы хотим построить специально на микросинтаксических конструкциях. Там будут и «все равно», и «черта с два», и многие другие. Я полагаю, что таких единиц будет от одной до нескольких тысяч, и для того, чтобы корпус был представительным, там должно быть довольно много предложений этого рода.
Автор: Леонид Иомдин
https://postnauka.ru/faq/71767