Компания ABBYY получила финансирование государственного фонда "Сколково" для продолжения работы над системой машинного перевода и распознавания текстов NLC, передает CNews.
Над проектом NLC (Natural Language Compiler) компания ABBYY работает уже в течение 15 лет. Информация об этом проекте никогда не была полностью обнародована, и сейчас, после получения гранта, компания решила представить пользователям направление, в котором ведется работа, и некоторые подробности проекта.
Компания сообщила, что сутью проекта-долгожителя является создание системы искусственного интеллекта, наиболее важной задачей для которой будет даже не перевод, а распознавание и анализ текстов, вычленение необходимых кусков текста из огромных массивов данных. При этом разрабатываемая технология не зависит от иностранного языка.
NLC не является отдельной программой, она разрабатывается в качестве перспективной платформы, пригодной для дальнейшей разработки программного обеспечения для смыслового поиска в тексте, нахождения фактов в тексте, не имеющем четкой структуры, для анализа документации и других приложений.
Справка
Обработка естественного языка (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.
Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника и т. д. Вот некоторые примеры сложностей, с которыми сталкиваются системы понимания текстов.
• Предложения "Мы отдали бананы обезьянам, потому что они были голодные" и "Мы отдали бананы обезьянам, потому что они были перезрелыми" похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом — к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны. По нормам русского языка второе предложение некорректно, потому что в нем местоимение ссылается не на последнее подходящее слово, однако в живой речи такое предложение очень даже может встретиться.
• Свободный порядок слов может привести к совершенно иному толкованию фразы: "Бытие определяет сознание" — кто кого определяет?
• В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему.
• В речи могут встретиться неологизмы, например, глагол "Пятидесятирублируй" — то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.
• Правильное понимание омонимов — ещё одна проблема. При распознавании речи, помимо прочих, возникает проблема фонетических омонимов. Во фразе "Серый волк в глухом лесу встретил рыжую лису" выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись. (Кроме того, что лиса может быть рыжей, а лес — глухим, лес также может быть рыжим (характеристика, в данном случае обозначающая преобладающий цвет листвы в лесу), в то время как лиса может быть глухой, что порождает дополнительную проблему, вытекающую из предыдущей.)
Финская Nokia также расположится в "Сколково". Проект компании нацелен на развитие операционных систем, которые используются Nokia для производства телефонов и смартфонов (Symbian и MeeGo), также планируется вести разработки в области мобильных сенсоров, нано- и квантовых технологий, которые можно применить в программном обеспечении для смартфонов.
17.12.2010 10:50
Источник: Таможня.ру
http://www.tamognia.ru/news/nb/1544419/