Одно из весьма интригующих событий в мире информационных технологий — недавнее сообщение IBM о том, что суперкомпьютер Watson, прославившийся победами над «знатоками» и впитавший в себя колоссальную базу знаний, научился не только быстро отвечать на вопросы, но и общаться с пользователем на естественном языке.
Новость тут же подхватили информационные агентства, усмотревшие в этом начало конкуренции IBM с Apple на одном из самых многообещающих направлений распознавания речи и, шире, речевых интерфейсов. Некоторые комментаторы высказали уверенность в том, что «Голубому гиганту» осталось сделать каких-нибудь полшага, чтобы предложить пользователям смартфонов уникальный сервис. Вы задаете электронному эрудиту Watson любой вопрос, просто надиктовав его в микрофон и - получаете ответ. А это уже угроза для проекта Siri. Ведь «Speech Interpretation and Recognition Interface», разработанный Международным Центром Искусственного Интеллекта — не просто персональный помощник, но и вопросно-ответная система, адаптированная Apple для iOS! Попутно под ударом оказывается и Google со своим голосовым интерфейсом. Ведь, как ни крути, поисковая система выдает множество документов, релевантных запросу. А Watson умеет четко ответить на поставленный вопрос. Наконец, новые коммуникационные навыки могут найти обширное применение и на корпоративном рынке.
Примерно в таком духе высказываются сегодня обозреватели. Однако не будем торопить события. Речевые интерфейсы только-только вступают в пору технологической зрелости. И на этом пути осталось немало препятствий, в том числе, и «специфические российские» — если иметь в виду интересы российских пользователей.
Начну с Apple. Siri на русском языке до сих пор работает посредственно — в отличие, например, от голосового поиска Google, который еще несколько месяцев назад с трудом распознавал голосовой запрос с первого раза, а сейчас выдает в ответ на него уже вполне релевантные результаты. И если Watson «разговаривает» не хуже чем решение от Google, то это действительно угроза для Apple.
Если же говорить о перспективах голосовых помощников в России, то широкому распространению этих технологий препятствует сразу несколько факторов.
Делать запросы голосом мало кому из россиян пока приходит в голову: для них это не массовая практика и даже еще не привычка, хотя, наверняка, это удобнее, чем искать нужную «здесь и сейчас» информацию «руками». Хотя, если бы «голосовая помощь» была внедрена, отлажена и хорошо работала, наша ментальность очень быстро приспособилась бы к новым реалиям и удобствам, которые предоставляет эта передовая технология.
В России технологии «Voicetotext» и «Texttovoice» нуждаются пока даже не в ментальном, а в серьезном технологическом развитии — если программы трансформирования голоса в текст и обратно появятся и распространятся повсеместно, будут просты, доступны и интуитивно-понятны в использовании, можно будет говорить не только о голосовом поиске или о интеллектуальном помощнике в поиске информации, а о комплексной услуге, которая может включать в себя и поиск, и расшифровку, и трансформацию данных в интересующей человека области. Но на это уйдет время.
Сам характер, стилистика и грамматическая структура английского языка намного проще для распознавания, чем грамматика и строй русского языка — с его свободным порядком слов в предложении. Поэтому с распознаванием голоса и голосовой помощью на английском все довольно хорошо. А структура русского языка, как ни удивительно, сильно препятствует развитию аналогичных технологий.
Но дело, думаю, не только в лингвистике. О безотказном распознавании речи по вполне понятным причинам мечтают и военные. В США, насколько я знаю, компаниям и даже стартапам долгое время выдавали достаточно серьезные гранты на разработки в этой области. Эти проекты и дали ныне результаты, приблизили появление коммерческих систем, подобных SIRI и представленной разработке IBMWatson.
Сам же сервис «голосовой помощи» — технология действительно глубокая. Она включает в себя не только распознавание голоса, но и применение искусственного интеллекта для представления знаний, и анализ масштабных баз данных, зачастую, весьма и весьма специализированной информации. Поэтому провайдерам подобных сервисов придется решать немало очень сложных задач, чтобы их услуги были не только необычны, но и действительно полезны для бизнеса или частных лиц.
Если проблемы, о которых я говорил выше, будут преодолены, у «голосовых помощников» появятся весьма широкие перспективы во всем, что касается массового обслуживания. Например, в телекоме отрабатывать типовые запросы клиентов в техподдержку сможет не человек, а такая система. — «Какая у Вас проблема?», — спросит она. — «Не работает SIP-телефон», — отвечает пользователь. – «Что именно случилось?» — спрашивает система в ответ, а потом она методично начинает проверять самые частые причины поломки абонентского оборудования такого типа, модели или производителя, «общаясь» по этому вопросу с клиентом. Или же, вместо многоуровневого голосового меню (IVR) система может предложить абоненту при звонке в компанию «произнести цифру один, если он хочет позвонить в отдел продаж» или «назвать фамилию и имя менеджера, и я соединю Вас с ним».
Точно так же система голосовой помощи может самостоятельно инициировать звонок клиенту, в случае, если баланс на его счете достиг критического уровня и предложить включить такую услугу как «обещанный платеж».
Ведение полноценного диалога с голосовым помощником, особенно в массовом сегменте почти любого рынка — вполне близкая реальность, инструмент, который можно и нужно будет применять в России для массового обслуживания, при условии развития соответствующих технологий.
Особенно наглядно и реально это для телекоммуникаций, сервис-провайдинга, медицины (я имею в виду массовое обслуживание в регистратурах поликлиник — обращение системы к базе данных клиентов и пр.). В любом случае — широкое поле для применения технологий есть. Значит, это вопрос времени, необходимого для их надлежащего развития и, конечно, вопрос грамотного ценообразования в этой области.