Андрей Десницкий о том, почему компьютер не заменит на нашем веку человека-переводчика.
Пройдет всего три, максимум пять лет – и компьютеры начнут переводить с русского на английский настолько хорошо, что даже не понадобиться человеческая редактура. Знаете, в каком году прозвучало это пророчество? В 1954-м. С тех пор лет прошло уже больше шестидесяти, а задача так и не решена, более того – специалистам в этой области кажется, что мы едва ли не дальше от решения, нежели полвека назад.
Итак, в январе 1954-го года в Нью-Йорке впервые состоялся сеанс машинного перевода – громадным ламповым компьютером были переведены несколько фраз из советского учебника по химии (а вдобавок к ним и пара фраз из бытового общения) ¬ Not sign – совершенно адекватно и на правильный английский язык. Тогда и было сделано это предсказание.
С тех пор компьютеры стали маленькими, а мощности их возросли. Компьютеры научились выигрывать в интеллектуальные игры вроде шахмат или го у чемпионов мира, они уже начинают водить машины на дорогах (полвека назад это казалось полной фантастикой) – а вот в области перевода они по-прежнему уступают любому старшекласснику. Множество мелких досадных ошибок, особенно в переводе многозначных слов, а главное – полная нечувствительность к стилистике. Машинные переводы выходят совершенно «деревянными», и каждое третье-четвертое предложение содержит смысловую ошибку или явную белиберду.
Но оптимисты не унывают: вот теперь, с изобретением новых «нейронных сетей», осталось подождать всего три-пять лет, и переводчики останутся без работы…
Эти предсказания я слышу в основном в контексте разговоров о гуманитариях и их будущем: дескать, компьютеры учатся писать музыку и рисовать картины, скоро они заменят человека и в деле перевода. Но я как переводчик не верю, что это случится, пока не будут изобретены какие-то машины с принципиально новыми способностями, и сейчас объясню, почему.
Начнем с хороших новостей. Составлять технические или даже юридические тексты на разных языках компьютеры научились довольно неплохо (хотя человеческая редактура по-прежнему нужна)… только это никак не назовешь переводом.
Висит, к примеру, в Англии табличка «No smoking», а в России – табличка «Не курить». Они целиком и полностью соответствуют друг другу. И при составлении на разных языках инструкции по пользованию станком или пользовательского соглашения надо всего лишь заменить некоторое количество таких «табличек» – высказываний, которые понимаются совершенно однозначно и не требуют никакого внешнего контекста. «В случае … нажать на кнопку …», «Детям до … лет принимать по … таблетки … раза в день после еды».
Это не назовешь собственно переводом – это скорее сборка текста из готовых блоков.
Но проблема в том, что мы общаемся совсем не так.
Возьмем простую русскую фразу: «косил косой косой косой». Гугл переводит ее как «oblique oblique oblique», что, конечно, полная бессмыслица. Любой носитель русского языка понимает, что такое «косить косой», в его жизненном опыте есть соответствующая картинка.
Дальше остается понять, что коса была по своей форме косая, а тот, кто держал ее в руках, страдал косоглазием. И это не так уж трудно сделать… Я так и вовсе представляю себе зайца из песни про трын-траву.
Современные компьютерные программы знают, какие падежные формы принимает русское слово «коса». Они даже знают, что у этого слова есть три разных значения и могут угадать, что там, где рядом будут стоять слова «девушка, стрижка, красота», речь пойдет о женской прическе, где «море, дюны, рыбаки» – о полоске суши, а где «лето, сено, деревня» – о покосе травы. Но у компьютера нет никакого жизненного опыта, как нет и сознания. Он не чувствует под ногами песок Куршской косы или росистые травы, не любуется волосами любимой. И потому у него получается «oblique oblique oblique».
Это, конечно, пример языковой игры, которая сложна для любого переводчика – тут вообще нужно найти не семантический, а скорее культурный эквивалент. Например, на французский можно ее перевести как «Si six scies scient six cyprès», буквально «если шесть пил пилят шесть кипарисов», и звучит эта фраза как повторение одной и той же последовательности звуков: «си си си си си сипр».
Но ведь мы видим, что машинный перевод не справляется порой с самыми простыми фразами: «Оба-на» Гугл переводит как «Both on». И проблема не в том, что можно забить в программу эквивалент «Wow», который уже переводит в Гугле с десяток русских выражений.
Компьютер совершенно не слышит интонаций, которые человек неизбежно приписывает даже письменному тексту, не испытывает эмоций, не имеет опыта общения – а ведь тексты предназначены именно для общения между людьми. У него вообще нет и на данном этапе не может быть связной картины мира – по сути дела, он на настоящем этапе занят перебором вариантов.
Вот такое-то русское слово соответствует такому-то английскому в 70% случаев, что, конечно, недостаточно для уверенного перевода – но с учетом грамматической конструкции и анализа слов в ближайшем окружении можно добиться уверенности в 99 или даже 99,99%. И это только для пары языков английский – русский, если взять более редкие языки, перевод (который обычно осуществляется через английский) будет еще более проблематичным.
Но даже если удастся с помощью нейронных сетей удовлетворительно подбирать семантические эквиваленты, останется следующая проблема. Выше уровня семантики (что именно мы говорим) – уровень прагматики (что, собственно, хотим сказать).
Фраза «ну ты даешь» может выражать восхищение или насмешку, и много всего иного – но ни один словарь, ни одна грамматика не даст нам точно определить, что именно имеет в данном случае в виду говорящий.
Уж точно не то, что кто-то кому-то что-то дает, как предложит нам словарь. Тут необходимо видеть выражение лица или восстановить ожидаемую эмоцию из письменного контекста. Чтобы все это понять, нужно уметь общаться, как человек, а чтобы общаться, как человек, нужно быть человеком, сознавать себя и испытывать эмоции. Задача не для машины и не для сети из множества машин.
По-видимому, компьютеры в ближайшем будущем будут брать на себя все больше черновой работы, и я вполне представляю себе мир, где им доверена локализация текстов, состоящих из стандартных блоков (при том, что сами блоки готовятся людьми): инструкций, договоров, описаний. Главное требование к таким текстам – любое высказывание должно быть строго однозначным и смысл его должен совершенно не зависеть от того, кто, когда и кому это говорит.
Освободившись от такой мелочевки, гуманитарии середины XXI века, полагаю, смогут больше времени уделять настоящей творческой работе – познанию того, как устроено человеческое общество. И как происходит то, что делает его обществом – общение между людьми. Причем граница между гуманитарными и естественными науками будет становиться все более… нет, не условной, а скорее взаимопроникаемой.
Не случайно сегодня историю раннего расселения человечества по нашей планете пишут вместе генетики, лингвисты, антропологи и даже специалисты по мифологии – оказывается, мотивный и сюжетный анализ может подсказать, как именно распространялись по миру идеи и их носители задолго до изобретения письменности.
А знаменитый тест Тьюринга я бы сформулировал для себя так: когда я не смогу отличить перевод художественного или публицистического текста, выполненный человеком, от компьютерного перевода, я сочту, что машина сравнялась по своим когнитивным способностям с человеком и стала, по сути, личностью. Но что-то подсказывает мне: это никогда не случится с нынешними компьютерами. Они просто устроены иначе, и даже соединение их в какие-то суперсети не отменяет этой разницы.
А будут ли на моем веку изобретены какие-то иные машины, я не берусь судить.
Андрей Десницкий
Филолог
https://www.gazeta.ru/comments/column/desnitsky/12005221.shtml