Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации

Новости

07/07/2011

Технология "понятийного" перевода может стать революционной - ABBYY


 

Гендиректор ABBYY (один из крупнейших отечественных производителей программных продуктов для мирового рынка) Сергей Андреев в интервью Digit.ru рассказывает о "сколковском" проекте "понятийного" перевода и поиска и о сложностях работы с мобильными платформами.
 

- Каковы причины, по которым ваша компания участвует в проекте "Сколково"?

- Когда проект начинался, у нас была настороженность. Со временем, после контактов с командой проекта, отношение изменилось. С большими начальниками по поводу "Сколково" мы не встречались - с Вексельбергом увиделись первый раз, когда получали сертификат как одни из первых резидентов. Работали с руководителем IT-кластера Александром Туркотом.

Люди в "Сколково" правильные, успешные. Перед ними не стоит задача личного обогащения. Они могли бы спокойно жить без этого проекта.


Получится ли "Сколково"? Ответ дать непросто, потому что задача непростая. Я себе ее представляю так. Давно уже наши большие руководители проявляют недовольство тем, как у нас в стране наука устроена и как ее достижения у нас применяются, как внедряются, какие последствия наука имеет для экономики, для граждан.

Тут на мировом фоне мы выглядим не очень красиво. Как следствие - одновременно и беспокойство, что наука недофинансируется, и непонимание, что именно в ней надо финансировать. Миссия "Сколково" состоит в том, чтобы устранить эту проблему, создать работоспособную модель развития, в котором участвовали бы вузы, ученые, компании, инвесторы, чтобы технологии создавались и коммерциализировались. И если получится, эту модель тиражировать.

- В сколковском проекте не видно задач, имеющих ясный, понятный обывателю смысл. Вы такие видите?

- В "Сколково" есть пять направлений, определенных президентской комиссией по модернизации (энергоэффективность и энергосбережение, ядерные технологии, перспективные энергоносители, космические технологии, медицинские технологии и IT - Ред.). Все они очень правильные и актуальные. Недавно состоялось заседание наблюдательного совета "Сколково", на нем представили первые проекты: биотехнологический проект по созданию качественно нового лекарства от рака, проект создания и производства современных ветроэлектростанций с качествами, которым нет аналога в мире. Есть и другие. Они все имеют утилитарный смысл для обычных людей.

"Сколково" прежде всего нужно для создания системы воспроизводства востребованных научных исследований, а не для одного-двух прорывов. Нужна современная система совместной работы науки, образования и коммерции.

- ABBYY будет заниматься в "Сколково" тем, чем уже занимается, или принципиально новыми технологиями?

- Как производили программное обеспечение, так и будем производить. Но направление - да, новое, и мы рассчитываем, что в будущем для компании оно станет одним из главных.

Началось оно с намерения создать систему машинного перевода, лучше, чем нынешние. Идея в следующем. На каком бы языке цивилизованные люди ни говорили, система понятий, которые они обозначают словами, одна и та же. Все мы совершаем одинаковые действия, одинаково видим мир. Например, едим, живем в домах, видим вокруг себя одних и тех же животных, пользуемся одними и теми же предметами. Это и есть понятия, которые мы обозначаем словами. У понятий есть универсальная, независимая от языка иерархия. Они структурируются от общего к частному. Например, "предметы мебели" - "то, на чем сидят" - "стул". Это - не слова, это понятия. А слова - листочки на универсальном дереве понятий.

Вторая важная часть нашей конструкции - полный и точный синтаксический разбор предложения. Чтобы он был точнее, в процессе синтаксического разбора мы используем семантический анализ, основанный на вышеописанной универсальной иерархии понятий, и статистику взаимоотношений между понятиями.

Существующие системы машинного перевода сегодня делятся нa rule-based machine translation systems (основанные на правилах перевода) и статистические. Проблема rule-based machine translation systems в том, что, когда правил перевода становится слишком много, они начинают друг другу мешать. Серьезность этой проблемы видна по тому, как развивались такие системы - сначала достигли определенных успехов, потом прогресс остановился.

Статистический перевод использует так называемые параллельные тексты - тексты, переведенные людьми. Машина размечает параллельные тексты - какие предложения в какие переведены. Получается база переведенных предложений. Когда вам нужен перевод, машина пытается подобрать из своей базы предложения, подходящие наилучшим образом. Получается в принципе неплохо - текст выглядит гладким, красивым, потому что каждое предложение переведено не машиной, а человеком. Но есть существенные ограничения, более или менее принципиальные. Менее - это, например, работа с отрицаниями. Два предложения, отличающиеся частицей "не", внешне очень похожи, но понять, к чему относится частица "не", можно только синтаксическим разбором предложения, который в статистических системах не делается. Еще проблема - имена собственные. Внешнее сходство предложений побуждает статистическую систему переводить "Россия" как "Канада", а "Ющенко" как "Янукович".

Эти проблемы можно было бы решить, но есть препятствие, похоже, непреодолимое: количество доступных параллельных текстов очень неравномерно распределено по языкам и предметным областям. По общим предметным областям для основных языков покрытие неплохое. Но как только уходим в специализированные области, количество параллельных текстов начинает стремительно уменьшаться. Для переводов с японского на английский и обратно база предложений есть, а для француско-венгерского перевода - нет. База доступных параллельных текстов в области экономики, например, есть, а вот в области медицины или строительства - недостаточно. Получается принципиальное противоречие: чтобы машина научилась переводить, сначала надо очень много текстов перевести вручную.

Мы в состоянии при переводе использовать не слова, а понятия. До некоторой степени мы подходим к пониманию текстов. Компьютер может "понять", о чем говорится в предложении. Переводить с русского на русский. Например, понять, что "круглый стол " - не просто предмет мебели, и перевести это словосочетание как "коллективное обсуждение".

Статистический метод мы тоже используем - для того, например, чтобы научить машину правильно сочетать слова. Чтобы компьютер не выдавал тексты, про которые можно сказать "так не говорят".

- Составление дерева понятий - ручная работа?

- Там довольно много ручного труда, но используются полуавтоматические и автоматические методики - без них такую работу было бы нельзя сделать. Невозможно усилиями даже очень большой команды описать то колоссальное разнообразие свойств, которыми обладают языковые объекты.

- Сколько понятий вы уже описали?

- Более 63 тысяч. Сейчас концентрируемся на английском и русском языках, однако на дереве понятий уже появились французские и немецкие "листочки".

- Работы, видимо, начались задолго до "Сколково"?

- Задолго, лет 15 назад. Тогда это были несколько человек, которые продумывали концепцию системы. Еще через пять лет началась детальная архитектурная проработка. Лет шесть назад - серьезное программирование. В 2009-м были пройдены наиболее страшные технологические риски. До этого момента было еще непонятно, получится или нет. Сейчас уровень надежности проекта достаточно высок.

- Какие трудозатраты стоят за проектом?

- Грубая оценка - тысяча человеко-лет. Сейчас задействованы 300 человек, но эта численность нарастала неравномерно. Если перевести в деньги, то получится, опять-таки грубо, 50 миллионов долларов. Это без учета упущенной выгоды, которая имеет место, поскольку лучшие инженеры были отвлечены от работы над программными продуктами, которые приносят компании доход.


- Те 475 миллионов рублей, которые ABBYY получила в "Сколково", на фоне 50 миллионов долларов выглядят скромно.

- Это хорошая и своевременная помощь, но это не прорыв. Проект нетипичен для коммерческих компаний - так долго вкладывать в фундаментальные исследования, не выдавая результат, для коммерческой компании - весьма непросто. Но потенциал, как научный, так и коммерческий - просто сногсшибательный.

То, чем мы занимаемся, действительно наукоемко. В своей работе мы опираемся на серьёзные исследования российской лингвистики, мы с уважением относимся и к российскому лингвистическому образованию, и к учёным из данной области. Проект непростой...

- Вы уже знаете, какой именно эффект получите?

- Если компьютер приблизится к "пониманию" содержания текста, можно будет решить не только задачу перевода. Станет доступнее, например, качественное распознавание текста речи - с учетом контекста высказывания.

Очень интересное приложение - поиск данных. Сейчас все начинается с того, что человек пытается решить задачу искусственного интеллекта и подбирает ключевые слова, чтобы сформулировать запрос поисковой машине. Поисковая машина находит документы, в которых эти слова встречаются на разумном расстоянии друг от друга. Дефект в том, что не отслеживается взаимосвязь между ключевыми словами. Например: "автомобиль с подогревом сидений". Наверняка найдется много автомобилей, много сидений, и даже подогрев будет найден, поскольку присутствует в устойчивом словосочетании. Но получить выдачу, в которой будут только автомобили с подогревом сидений и ничего другого, скорее всего, не получится, потому что не учтена взаимосвязь между словами.

На наш взгляд, умный поиск должен выглядеть по-другому. Человек задает вопрос на естественном языке, система определяет понятия, о которых идет речь, и отношения между ними. Именно между понятиями, а не словами. А затем находит документ, который передает правильный смысл отношений между понятиями. Например, можно спросить: "Чем владеет Петр Иванов?", а в ответ получить свидетельство на квартиру, хозяином которой является Петр Иванов.

Еще можем сделать приложение, которое определяет авторство документа. Когда человек письменно выражает свою мысль, он использует свойственные ему синтаксические конструкции - и мы можем их идентифицировать.

- Есть нечто работающее? Что можно было бы посмотреть в деле.

- Система перевода, ее уже можно демонстрировать. Мы уже начали представлять ее крупным потенциальным заказчикам, договариваться о пилотных проектах. Поскольку настроить систему на специализированные тексты проще и быстрее, полезно взаимодействовать с заказчиками, у которых много таких текстов.

- Например?

- Крупные нефтегазовые компании. Да, по сути, любые крупные компании. У них огромные объемы данных, и есть потребность в мониторинге информации. Какие-то системы мониторинга уже существуют, но они настроены на фиксированные списки объектов и типы событий. А то, что мы делаем - гораздо более универсально. Можно задавать разные вопросы и искать любые типы отношений между данными. Наша технология, например, выделяет в тексте персоны и названия организаций, что не является фокусом, если в твою систему заложен список имен этих персон и названий. Мы с достаточно высокой долей вероятности выделяем персоны и названия без заложенной базы имен, просто потому, что при разборе предложения эти объекты классифицируются по смыслу как имена персон и организаций.

- Вы не откажетесь поговорить о конкурентах? Если не о Google, то хотя бы о Watson.

- Я говорю о весьма общих проблемах - машинный перевод, поиск, мониторинг и т.д. И неважно, как система называется и кто у нее производитель - важно, что подступиться к этим проблемам можно только с помощью общих описаний, позволяющих компьютеру приблизиться к смыслу высказывания. Так вот этих общих описаний ни у кого не видно. Этим путем пытаются идти несколько маленьких научных коллективов в нескольких странах, но они несопоставимы с нами по ресурсам.

То, что можем показать сегодня мы, похоже, довольно далеко стоит от того, что существует в мире.

О Watson сказать что-то конкретное не могу.

Поисковики сегодня внимательно рассматривают пользовательское поведение, видят переходы людей по ссылкам из пользовательской выдачи и пытаются самые популярные ссылки поднять вверх. Когда люди задают поисковику "машина времени", что они хотят найти? Поисковик полагает, что информацию о музыкантах одноименной группы, потому что большинство ищет не текст Уэллса. И поисковая машина корректирует выдачу под эту логику.

- Чем осложняет жизнь меньшинству?

- Причем осложняет заметно. Человеку приходится очень сильно напрягать мозг, чтобы подобрать ключевые слова, которые все-таки приведут к нужному ему результату поиска. А могут и не привести. И дальше для меньшинства будет только хуже.

Наши методы более универсальны и свободны от этого недостатка. Но этого мало, надо еще вовремя прийти на рынок.

- Последние годы не слышно ничего существенно нового о разработках ABBYY. Значит ли это, что вы всё поставили на новую технологию?

- И да, и нет. Пятнадцать лет назад мы только примерялись к этой теме, а десять лет назад начали переводить на проект ключевых специалистов. Это было очень непростым решением: мы сильно ослабляли основной бизнес. Очень высокая ставка. Это даже не 50 миллионов, это еще и упущенная прибыль.

Расчет, конечно, на то, что эта штука должна жахнуть так, чтобы земля под ногами ходуном заходила.

Но по основным продуктам, которые сейчас в продаже, тоже был большой прогресс. За последние десять лет компания выросла примерно в десять раз. Этого невозможно сделать на неизменных продуктах и технологиях. Например, словарь Lingvo для iPhone с возможностью сделать фото документа и на этом фото, дотрагиваясь до слов, получать перевод слов на другой язык. Это выглядит как чудо: все происходит в маленькой карманной машинке. А таких карманных машинок (сматфонов и планшетов) в 2011 году будет продано больше, чем обычных компьютеров и ноутбуков!

В области распознавания форм произошел очень большой прогресс. Раньше формами называли документы, где расположение полей жестко зафиксировано на бумаге. Сейчас можно находить поставщика и список товаров в любом счете или накладной. А ведь все счета и накладные выглядят по-разному. Искусственный интеллект, содержащийся в компьютерных программах, становится все умнее и умнее. Видимо, не так далеко до появления бытовых роботов.

- Когда ваша "сколковская" технология появится на рынке?

- Объявление вредно делать заранее, но, поскольку мы уже начинаем заниматься пресейлом, недолго осталось.

- А что история с Symbian? Вы много усилий потратили, чтобы переместить свои продукты на эту платформу.

- Мобильные платформы - очень рискованное место для бизнеса. Их много. Стандартов нет. Ландшафт рынка и расстановка сил меняются каждый месяц. Мы ставили не только на Symbian, но и на iOS, сейчас "доставляем" на Android.

Разработчики мобильной Windows поступили самоубийственно. Под Windows Phone 7 мы пока разработки не планируем, но посмотрим, как жизнь сложится дальше.

- В чем самоубийственность?

- Никакой преемственности с прежними версиями, фактически все программы надо переписывать заново. Не очень понятно, для чего это делать - размер рынка пока не виден.

Сила Windows Mobile в том, что у них была определенная инсталляционная база и большое количество приложений. Эту базу, конечно, надо было удерживать. Windows Phone 7 очень хорошая операционная система, очень прогрессивная. Проблема только в том, что она не имеет инсталляционной базы и не имеет приложений.

Идти или не идти на эту платформу? Пока для разработчика ответ, скорее всего, отрицательный. Это дорого и необоснованно. Хотя мы смотрим на перспективу. Возможно, недавнее заключение договора о стратегическом сотрудничестве между Nokia и Microsoft как-то изменит ситуацию и появятся причины для создания приложений под Windows Phone 7.

- Microsoft совершила ошибку?

- Это очень похоже на большую ошибку.

- Вы, поставив на Symbian, тоже ошиблись?

- Это ошибка, которую надо было сделать.

Если бы мы заранее знали о судьбе Symbian, потратили бы на этот проект меньше времени и денег, но вряд ли бы отказались вообще.

В нашем бизнесе важны не только доходы, но и количество установок программных продуктов. Многие интернет-компании имеют удивительные показатели капитализации исключительно из-за большого числа клиентов - это фактор, который можно утилизировать.

Поскольку границы между железкой, программным продуктом и онлайн-сервисом быстро стираются, возрастает значение количества твоих потребителей. Так что ставка на Symbian не является провалом - есть приличная база пользователей, есть брендинг, есть доходы. Хотя понятно, что только ради доходов мы бы конструировали свою стратегию развития на мобильных платформах иначе.

Мы смотрим на мобильные платформы как на цельный сегмент бизнеса и оцениваем его вне зависимости от того, какие операционные системы на нем представлены. Он весь либо хороший, либо плохой.

- Так хороший или плохой?

- На сегодня - не очень хороший. Но при оценке надо смотреть не только на координаты точки развития, но и динамику, и динамику динамики. Динамика - хорошая. Есть существенные основания считать, что в этом году он может стать сильно прибыльнее.

- Как вы относитесь к тому, что производители двух самых популярных мобильных платформ контролируют рынок приложений?

- Это очень недемократично! И совершенно нелиберально.

Были примеры, когда производители платформ так не поступали - например, Symbian. Но программные продукты для Symbian не продавались. А вот у Apple, которая устроила монополию в канале, продаются.

На десктопах рынок софта вел себя иначе, и ту модель многие пытались применять в мире мобильных устройств. Пока не сработало.

В чем секрет успеха AppStore? Может быть, в особой удобности совершения покупок, может, в качестве аппаратного обеспечения, может, в особенной аудитории пользователей Apple и их готовности тратить деньги? Может, во всем сразу? То есть секрет успеха совсем не обязательно содержится в монополизации рынка приложений. Подождем новых героев, которые докажут новые теоремы мобильного рынка. Здесь все меняется очень быстро.

07/07/201114:32
 

http://www.digit.ru/development/20110707/382814254.html
 

© 2010 Digit. Все права защищены
 

© Фото: Александр Уткин, «Время Новостей»