Продолжение разговора о современной компьютерной лингвистике с директором по лингвистическим исследованиям компании ABBYY, заведующим кафедрами компьютерной лингвистики МФТИ и РГГУ Владимиром Павловичем Селегеем.
- Сейчас популярны системы автоматического перевода, основанные на статистической обработке большого объема уже существующих параллельных текстов на двух языках. Например, такую программу предоставляет пользователям Google. Но не приводит ли массовое использование этих программ к появлению большого количества грубо переведенных текстов, которые, попадая в интернет, вызовут обратную связь и качество работы этих программ-переводчиков снизится?
- Это действительно очень серьезная проблема, и мне не раз уже приходилось отвечать на подобные вопросы. Да, такая опасность есть, в интернете появляется всё больше и больше текстов, которые являются результатом машинного перевода. Мои китайские коллеги рассказывают, какой проблемой это стало сейчас для китайского языка. Большое количество машинных переводов с английского на китайский язык приводит к тому, что в современный китайский язык вторгаются нетипичные для него модели словообразования, грамматические модели, источником которых служат эти тексты. И это влияет на язык, так как обычно это тексты очень актуальны, это «тематические хиты», которые интересуют молодых людей. Это похоже на то, что иногда делает с русским языком реклама.
- Такая отрицательная обратная связь может стать проблемой и для систем статистического машинного перевода, и не только для них, поскольку интернет-статистику так или иначе используют сегодня все системы. Чтобы бороться с этой бедой, системы машинного перевода пытаются научиться автоматически идентифицировать тексты, которые получены «ненатурально».
- Нет сомнений, что системы МП так или иначе научатся это делать. Но проблема касается и людей. Они привыкли безоглядно доверять интернету. Переводчики уже не ищут значение переводимого слова в словаре, а переводят, основываясь на статистике, которую им выдают интернет-поисковики. И тут мы сталкиваемся с тем, о чем уже говорили – и с ненадежностью этой статистики, особенно в случае фраз, а не отдельных слов, и с тем, что статистика не различает тексты с точки зрения их языковых особенностей. В результате неопытный переводчик, особенно тот, кто осмеливается переводить на неродной язык, берет тот вариант перевода, который лишь выглядит самым употребительным, не видя и учитывая важнейших условий, в которых такое употребление действительно возможно.