Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации

Аналитика

18/01/2011

Речевые технологии и смена поколений


 

Удобство речевых способов управления человек понял давно. Примерно с момента приручения первых животных. Вместо того, чтоб нажимать собаке пальцами на определенные точки тела и придавать ускорение пинком под хвост, он разработал несложную систему команд, с помощью которой отлично взаимодействует с ней и поныне. Изобретаемая человеком техника значительно тупее созданных природой существ, поэтому заставить ее понимать человеческую речь хотя бы на уровне собаки пока не удается, но кое-какие успехи в дрессировке все же достигнуты.
Достигнуты они, в первую очередь, в фантастических произведениях, где герои запросто общаются с техникой, как с человеком, например, Корбен Даллас со своим домом и такси в фильме «Пятый элемент». Этот стереотип «светлого будущего» настолько прочно вошел в нашу жизнь, что уже не кажется чем-то удивительным. Но стереотип есть, а реального и повсеместного использования речевых технологий нет. Существующие разработки предназначены в основном не для мобильных устройств, а для настольных компьютеров и мощных вычислительных систем. Почему же так происходит?

В первую очередь, из-за недостатка мощности у современных смартфонов. Например, в инструкции к практически любой предназначенной для установки на современное мобильное устройство программе можно найти что-то вроде: «Программа должна устанавливаться на максимально свободный телефон, поскольку процесс установки пакета требует максимально возможного количества ресурсов... Удаляйте все данные, которыми вы не пользуетесь, например, информацию о звонках, сообщения, контакты из адресной книги, звуки и т.д. Разумнее всего удалять ненужные данные сразу по получении, например, если вам позвонили, сразу очистите список принятых вызовов... Настройте телефон так, чтобы входящие сообщения и контакты хранились на карте памяти...» Прочитав это, поневоле задумаешься, стоит ли овчинка (удобство использования речевых технологий для управления) выделки (трудозатрат)?

Кроме того, надо учитывать, что операции по распознаванию речи занимают процессор и использование нескольких приложений одновременно, например, звонок во время прослушивания mp3-файлов, может вызвать его долгий ступор, в результате которого отпадет охота и слушать и звонить. Хотя ведь как было б здорово просто громко и отчетливо сказать «позвонить Джульетте» и услышать в кармане характерную мелодию цифрового набора, пусть и после некоторой паузы?

Но не в одной паузе тут дело. Нормальная система распознавания речи перед свои использованием требует «обучения» (режим speaker-dependent), то есть задания ей команд и присвоения командам определенных действий. Совершить это действие не сложно, сложно потом отдать эту команду с той же интонацией и той же громкостью, как было задано. Ведь голос человека может меняться в очень широких диапазонах в зависимости от времени суток, настроения или физического состояния. Например, бегун после стометровки вряд ли сможет воспользоваться функцией голосового набора, пока не восстановит дыхание. А не дай бог простуда? Заложенный нос? А если вокруг оживленный трафик и рычат моторы грузовиков, взлетают самолеты или ухают диджейские супербасы? Джульетта может проплакать весь вечер у окна, не дождавшись звонка от своего Ромео.

Разработчики систем речевого управления столкнулись еще с одной серьезной проблемой. Представьте себе, как будет выглядеть задание URL-адреса для подобной системы: «Ве-ве-ве, дот, мобайл...» - не дай бог произнести неправильно одну букву. С появлением русскоязычных доменов проблемы для нас отчасти снимаются, но что делать с английскими «Эйч», «Ар» и прочими буквами, которые у нас произносят то с рязанским, то с нижегородским акцентом?

А если в системе предусмотрен модуль голосовой аутентификации, и без того немалая проблема резко обостряется. Некоторые компании пытались реализовать такие проекты, но отказались от них, поскольку большинство людей на тестах смогли получить доступ в собственный телефон с десятого - двадцатого раза, а некоторые и вовсе не смогли.

Есть системы, содержащие стандартные наборы, не требующие настройки (speaker-independent), например, пять-шесть команд управления мультимедиа проигрывателем. Реализовывается это все просто, не требуя больших затрат. Но тогда уж человеку придется приспосабливать себя под систему и учиться произносить «Open file» с оксфордским акцентом.

Именно такую систему недавно презентовала Google. Она получила название Android Voice Actions и, как следует из названия, предназначена для смартфонов под управлением операционной системы Android (2.2 и выше). С помощью опции голосом можно отправлять текстовое сообщение, запускать музыку, звонить, отправить электронные письма, заходить на сайты, создавать заметки, искать местоположение на карте и задать направление перемещения в какой-либо пункт. И, конечно, осуществлять голосовой поиск.

Для каждого действия существуют четкие команды, после произнесения которых надо указывать конкретный адрес сайта, название музыкальной композиции (кто помнит, как она прописана), локацию на карте и так далее. Пока функция работает исключительно на английском языке и доступна пользователям из США. Google признается, что точность распознавания на данный момент не превышает 70%, то есть вполне может составлять и 40%, и 30% в зависимости от условий.

Справедливости ради надо отметить, что многие компании, в том числе Microsoft , предлагали свои решения для мобильных устройств, году, помнится, в 2005-м, но своего пользователя они тогда не нашли.

Другая чудесная возможность речевых технологий — автоматический синтез речи по тексту, вроде зачитывания вслух пришедших коротких текстовых сообщений — тоже на сегодняшний день почти не реализована. По тем же причинам.

Если б СМС состояли из фиксированных наборов слов, например «позвони мне», «встретимся завтра», «жду тебя на нашем месте», особых проблем бы не было. Достаточно просто забить шаблоны в память и сравнивать их с поступившими данными. Так «поступают» GPS-навигаторы или банковские системы, выдавая на-гора фразы, заранее наговоренные и записанные оператором и подбираемые с помощью несложных алгоритмов.

А вот с людьми, которые пишут от души, с ошибками, с одним им ведомыми сокращениями и жаргонными словечками, такой номер не пройдет. Распознавание такого текста даже на мощном компьютере займет немало времени и вычислительных ресурсов, что уж говорить об относительно скромных возможностях смартфона? И это при условии, что программа распознавания работает корректно. А сие вовсе не гарантировано, если писал ее программист из Индии, для которого русский язык такие же дебри, как для нас хинди, а адаптировал какой-нибудь не очень разумеющий пунктуации технарь?

Однако с речевыми технологиями не все так безнадежно, как может показаться. Во-первых, в последнее время резко увеличились мощности процессоров и объемы памяти современных смартфонов. Теперь в них можно загружать достаточно большие словари и успешно обрабатывать данные из них за приемлемое время. Во-вторых, наметились тенденции удаленной обработки речевой информации. Эта идеология предусматривает отправку сообщения на мощный вычислительный сервер, где производятся все операции по анализу, преобразованию, синтезу и исполнению голосовых команд и сообщений, а на телефон абонента пересылаются уже готовые «ответы».

Стоит ли в рамках такой архитектуры опасаться хакеров, которые захотят управлять чужим телефоном по собственному усмотрению, не знаю, но при профессиональном подходе к речевым технологиям управления и такую возможность со счетов сбрасывать нельзя. Заниматься этим должны разработчики.

Простому же пользователю будет очень удобно управлять телефоном и через него многими функциями, даже не доставая его из кармана, или не отцепляя от лацкана пиджака устройство размером с обычный значок, или не вынимая «таблетку» из уха. Ведь поскольку речевые технологии позволяют полностью избавиться от элементов управления, а то и экрана, размеры смартфона можно вообще уменьшить до размеров приемо-передающего устройства, тем самым сильно продлив срок его автономной работы от источника питания, что тоже важно, ведь в этой сфере особых прорывов не видно. Хотя это уже не смартфоны получатся, а устройства нового поколения...

Текст: Кирилл Кириллов

Статья журнала "Мобильные новости" 9(119) 2010: http://mnovosti.ru/art/4837.html