Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации

Аналитика

01/06/2010

Как компьютер помогает исследовать законы языка

 

Передача: Назад в будущее.
Ведущие: Татьяна Фельгенгауэр.
Гости: Максим Кронгауз, Анатолий Баранов.

Т.ФЕЛЬГЕНГАУЭР: 12.07 в столице. Здравствуйте, это радиостанция «Эхо Москвы», программа «Назад в будущее». Меня зовут Татьяна Фельгенгауэр. Экстренно у нас уехал Ашот Насибов, так что буду тут одна. Но зато у меня есть целых два гостя, да каких! Так как тема у нас озаглавлена: «Современная лингвистика. Как компьютер помогает исследовать законы языка», вы понимаете, что тут люди собрались в студии серьёзные.

Анатолий Баранов, профессор, зав. отделом экспериментальной лексикографии Института русского языка РАН.

Здравствуйте, Анатолий Николаевич.

А.БАРАНОВ: Добрый день.

Т.ФЕЛЬГЕНГАУЭР: И Максим Кронгауз, профессор, директор Института лингвистики Российского гуманитарного университета.

Здравствуйте, Максим Анисимович.

М.КРОНГАУЗ: Здравствуйте.

Т.ФЕЛЬГЕНГАУЭР: Ну давайте в целом, наверное, поговорим про компьютерную лингвистику. О! эти страшные слова, которые мало что кому говорят, но я уверена, как только мы начнём расшифровывать и объяснять, все поймут, что сталкиваются с этим регулярно и повсеместно. Но я только напомню, что у нас работает sms: +7 (985) 970-45-45. И свои вопросы и комментарии по ходу нашей беседы, пожалуйста, присылайте.

Ну давайте, наверное, тогда с самого начала: когда и откуда, и кто? Кто, кто начнёт вводить нас в курс?

М.КРОНГАУЗ: Я, может быть, несколько слов скажу об этой проблеме.

Т.ФЕЛЬГЕНГАУЭР: Максим Кронгауз.

М.КРОНГАУЗ: Это вообще давняя мечта человека - воссоздать искусственным путём свой разум – создать робота, который думает и ведёт себя так же, как человек.

И в начале ХХ века начали уже как-то более продуктивно думать в этом направлении, потому что мы знаем совсем не научные идеи типа гомункула или голема. Но учёные просто задумались о том, что такое мыслящее существо, мыслящий робот. Поскольку мышление - вещь очень непонятная и загадочная, вот решили отчасти подменить идею мышления более понятным проверяемым, а именно: речью. И в середине ХХ века был сформулирован замечательный тест, или критерий, Тьюринга. Такой был учёный Тьюринг, который занимался искусственным интеллектом, сформулировал тест, который определяет, можем ли мы считать программу робота мыслящей? Что это значит? А это значит, что, если мы не можем, поговорив с ним час, определить, робот это или человек, то вот это и есть такая правильная, мыслящая программа. Ну он ограничил условия. Там было такое соревнование – не просто разговор с неким существом, а разговор с двумя субъектами. Судья с ними разговаривает, они подают одинаково реплики. Причём интересно, что скорость реплик во времена Тьюринга считалась, что человек быстрее реагирует, а сейчас наоборот – машина быстрее реагирует. Поэтому важно их уравнять.

И вот, если машина выдерживает этот тест, то она мыслящая.

Надо сказать, что до сегодняшнего дня ни одна машина тест Тьюринга по-настоящему не прошла.

Т.ФЙЕЛЬГЕНГАУЭР: Я как раз хотела спросить: слушайте, ну, для пятидесятых – это же, наверное, что-то совершенно фантастическое, нереализуемое?

М.КРОНГАУЗ: Была такая идеальная и романтическая идея, что мы можем воссоздать человека.

Т.ФЕЛЬГЕНГАУЭР: Анатолий, а как от романтики ушли всё-таки к практике?

А.БАРАНОВ: Но я бы, во-первых, сказал, что тест Тьюринга был довольно быстро пройден, потому что была очень известная программа Виценбаума «Лиза».

М.КРОНГАУЗ: Она не прошла, сейчас я объясню.

А.БАРАНОВ: Она прошла совершенно прекраснейшим образом. Там другое дело, что она, конечно, моделировала не осмысление человека, как это можно было предположить, а просто речевое поведение человека в диалоге. То есть, в этой программе там были заложены шаблоны некоторые – там стандартные ответы на стандартные вопросы. А она искала эти стандартные вопросы по обычным ключевым словам. И, если она этих слов не находила, она меняла тему, она говорила: «Ну давайте поговорим о погоде». Или что-то в этом роде.

Т.ФЕЛЬГЕНГАУЭР: То есть, как большинство женщин.

А.БАРАНОВ: И оказалось, что тест был пройден-таки.

М.КРОНГАУЗ: Нет! Нет! Дело в том, что тест Тьюринга существует в разных форматах. И строгий тест Тьюринга, вот когда действительно есть два собеседника и судья, не прошла ни одна, ни одна машина. И есть разные ограничения и упрощения теста Тьюринга. И, в частности, сегодня в Интернете мы сталкиваемся с так называемыми речевыми ботами, которые легко обманывают людей, потому что притворяются там, выходят в чат, притворяются людьми и вполне функционируют, как люди.

Т.ФЕЛЬГЕНГАУЭР: Это вот мы перешли как раз к тому, что каждый из нас с вами знает немного, что такое компьютерная лингвистика.

М.КРОНГАУЗ: Конечно, да, да. И это такие вредоносные программы. С ними борются разными способами.

Здесь интересно, что поскольку тест Тьюринга в таком строгом формате не был пройден, то для машин, для речевых машин придумали специальный конкурс. И он проводится ежегодно. И конкурируют машины, которые просто демонстрируют свои речевые способности.

Каждый год присуждается некоторый приз машине, которая лучше это делает, которая приближается к прохождению строгого формата. Поэтому здесь принципиально следующее: просто поговорить с машиной, причём есть специальное упрощение. Например, говорить с машиной только на одну тему. Тогда машина вроде бы выдерживает. А как только мы задаём очень строгий формат, достигнуто до сих пор оказывается немного.

А.БАРАНОВ: Я только не соглашусь.

Т.ФЕЛЬГЕНГАУЭР: Анатолий Баранов сейчас расскажет свою точку зрения.

А.БАРАНОВ: Я знаю, что вокруг этой программы Виценбаума была устроена целая такая там традиция многих разных программ. Дело в том, что были разные программы, которые моделировали особенности речевого поведения афатиков, то есть, людей, которые не вполне в себе, там разные технические расстройства эти программы моделировали. И оказывалось, что при сравнении поведения реального человека и вот этих программ пользователи, вернее, люди, которые испытуемые, которые пытались определить, это человек или нет, они не могли этого определить.

Дело в том, что внешние формы коммуникаций и вот то, что связано с фактическим общением, а не интеллектуальным общением, не информационным общением, видимо, вот это преодолимо. А, конечно, моделирование интеллектов в точном смысле - это вряд ли возможно в ближайшем будущем. И в этом смысле я с Максимом согласен.

Т.ФЕЛЬГЕНГАУЭР: Но смотрите, были же какие-то, если мы говорим, что началось в пятидесятых всё, были какие-то революции, прорывы? Были какие-то серьёзные шаги вперёд? Да? Какие основные вехи вы могли бы отметить?

М.КРОНГАУЗ: Ну, я бы сказал, что очень важна была смена идеологий. Если первоначально действительно романтическая идея человечества и учёных состояла в том, что мы можем в некотором смысле воспроизвести человеческую деятельность, то есть, когда мы создаём программу-робот, который говорит, то мы хотим и должны сделать его таким, чтобы он напоминал человека. То есть, чтобы он действительно мыслил и говорил. А вот Толя уже упомянул, что в какой-то момент от этого отказались, потому что результата можно достичь другим способом, создав некую программу, которая действует не так, как человек, но которая имитирует речь человека.

Интересно, что это в разных областях пробовали, но, скажем, когда создавались компьютерные шахматные программы, то тоже вначале были попытки воссоздать мышление человека: оценка позиций, что-то ещё. И не было создано программ, которые бы играли в силу человеческого, в силу хорошего мастера.

А когда стали использовать возможности машины, отказавшись от идеи человеческого мышления, были достигнуты потрясающие результаты, просто с перебором, потому что машины в этом сильнее.

И примерно то же самое происходило в нашей области. Решили просто строить речь по другим законам - реагировать на ключевые слова, повторять, переспрашивать. То есть, не воссоздавать процесс мышления, а создавать некий поверхностный процесс речи. И здесь были достигнуты гораздо большие успехи.

И дальше прагматизм учёных-практиков развивался. Были охвачены области, где человек вообще не может проявить себя достойно, а машина может. То есть, стали использоваться именно…

Т.ФЕЛЬГЕНГАУЭР: Например?

М.КРОНГАУЗ: Ну, например, сегодня, перейдём к современности.

Сегодня мы имеем дело с огромными массивами, корпусами текстов, которые существуют в Интернете, просто спонтанно пополняется этот огромный массив. Либо создаются корпусы текстов по каким-то языкам, и человек не в силах просто обработать их. И здесь приходит на помощь, условно говоря, робот – программа. Ну, прежде всего, поисковая программа, которая помогает человеку ориентироваться, которая обрабатывает огромные массивы текстов, которые человек со своим разумом и своей скоростью обработать не может. Вот оказалось, что прагматика победила романтику.

Т.ФЕЛЬГЕНГАУЭР: В общем, нужно сузить и конкретизировать задачу, чтобы успешно её выполнить?

М.КРОНГАУЗ: Даже отойти от такого стандарта. Не нужно воспроизводить человека. Вот идея, что человек равен Творцу и может воссоздать себя, она как-то ушла. А стало понятным, что нужно создавать программы, которые обеспечивают конкретный, очень конкретный род деятельности.

Т.ФЕЛЬГЕНГАУЭР: Анатолий, вы могли бы рассказать о сегодняшнем успешном самом применении таких программ? Где мы можем это всё найти? Да, там машинные переводы, да, например, самые популярные?

А.БАРАНОВ: Ну да, видимо, всякие системы машинного перевода, которые сейчас продаются и их можно реально купить, там пойти, например, в Дом книги, и там есть программы эти. Видимо, это типичный пример развития технологий и то, что можно было бы сказать таким прагматическим успехом, как абсолютно правильно сказал Максим: действительно, тут имеет место такой прагматический успех, в чём прагматический, сейчас поясню.

Дело в том, что первые эксперименты по машинному переводу начались в самом начале пятидесятых годов.

В 52-м году была первая конференция по машинному переводу в МАИТИ, и в 54-м году – такой вот знаменитый Джорджтаунский эксперимент по машинному переводу. Ну, понятно: тогда СССР – это была сверхдержава, и необходимо было отслеживать тексты по физике, по математике, которые выходили в СССР. Понятно, что переводчиков с русского языка на английский не хватало. Но вот там стали строить систему машинного перевода в США. Причём, первая эта система, эта система называется «ГАД», она всего включала там порядка 250 слов и порядка 30 синтаксических конструкций. Но первый эксперимент, который был проведён с участием там публики – журналистов и так далее, он показал, что эта программа работает довольно успешно. То есть, количество ошибок, которые при переводе там текстов в конкретной предметной области, вот в области физики, по-моему, там был текст, что процент ошибок невелик. И тогда, именно с того времени стали выделяться большие деньги на развитие систем машинного перевода.

И надо сказать, что эта тенденция продолжалась там порядка в течение почти 20 лет. То есть до конца семидесятых годов.

И действительно, первое было такое впечатление, что вот-вот - и всё! И машинный перевод будет, и не нужно будет ни обычных переводчиков, и ничего не надо, и не только специальные тексты будут переводиться, но и литературные тексты.

Но к концу семидесятых годов оказалось, что эти надежды абсолютно беспочвенны. Более того, одна из комиссий Конгресса, исследовав состояние дел в этой области, пришла к выводу, что это невыгодно, что очень много денег было потрачено, государственных денег на финансирование программ по машинному переводу, но, к сожалению, адекватного результата не было получено.

Т.ФЕЛЬГЕНГАУЭР: А в чём проблема? Вот есть потолок, выше которого уже не подняться?

А.БАРАНОВ: Качество. Качество, качество перевода. Ещё вот и нужно помнить те компьютеры, которые тогда были в те времена.

Я, например, когда начинал свою деятельность научную, я работал в МГИМО. И у нас была мини-ЭВМ СМ-4. Она занимала комнату в 100 квадратных метров. И ещё к тому же она требовала летом очень серьёзного охлаждения – там стояли охлаждатели такие капитальнейшие.

И я отлично помню, что вот эти вот твёрдые диски там, где хранилась информация, они были где-то по три гигабайта, и их возили на тележке.

Т.ФЕЛЬГЕНГАУЭР (смеётся).

А.БАРАНОВ: Вот. В те времена вот эти машины они потребляли очень много энергии. Они требовали обслуживания людьми, безусловно, это всё требовало денег, конечно. И, когда сравнили те страницы текста, которые выдаёт программа машинного перевода, и те силы и деньги, которые были вложены в этот перевод, а, кроме того, оказалось, что и необходимо постредактирование, то выяснилось, что эти затраты не окупают себя. И собственно государственное финансирование в этой области было свёрнуто почти на 15 лет.

Но потом вот эти исследования опять начались, потому что, собственно, качественный перевод мало где нужен.

Ну есть сфера художественной литературы – это понятно. Но огромное количество публикаций по физике, химии, математике, то есть, то, что необходимо, то, что ту информацию, которую нужно получать для того, чтобы там знать какие-то последние научные и технические новости. Или обычные новости, тривиальные. Там, скажем, сообщения информационных агентств. Для них не нужны сложные системы машинного перевода.

А если вы имеете какой-то задел, то есть, если у вас есть какой-то перевод с ошибками и так далее, но там есть все необходимые ключевые слова, если вы являетесь специалистом в этой области, вы всё поймёте. Да, этого будет вполне достаточно.

Т.ФЕЛЬГЕНГАУЭР: То есть, нет запроса на более сложные и совершенные программы?

А.БАРАНОВ: Есть, конечно, но их сейчас невозможно сделать. Собственно говоря, ну машинный перевод в своём развитии прошёл там несколько этапов разных. И первый этап – это идея пословного перевода. То есть, мы берём слово источников языка, то есть, которое мы переводим, берём словарь и подставляем значение, которое есть в целевом языке.

Т.ФЕЛЬГЕНГАУЭР: Очень прямолинейно.

А.БАРАНОВ: Абсолютно тривиально, в лоб это всё делаем. Собственно говоря, вот все программы первого поколения они были устроены так. И первые варианты 4 программы «ГАД» он как раз вот так и выглядел.

Но оказывается что для простой, предметной сферы это в целом ряде случаев подходит, потому что вы получаете необходимые, ключевые слова и какие-то схематические отношения между ними. Вы можете сказать, о чём идёт текст, о чём речь идёт в этом тексте. И тогда вы можете очень хорошего переводчика попросить или сами перевести, если вы этот язык знаете.

А дальше уже появилась там идея семантического метода языка, которая стоит между источником-языком и целевым языком. Но вот этот этап развития системы машинного перевода он до сих пор не закончен, потому что оказалось, что сделать такой семантический метаязык очень трудно. И для того, чтобы делать успешные программы такого рода, необходимы фундаментальные исследования в области семантики и синтаксиса естественного языка.

Т.ФЕЛЬГЕНГАУЭР: И эти исследования наверняка ведутся?

А.БАРАНОВ: Да, конечно, ведутся. Но пока вот народ обходится именно программами первого поколения.

Эти программы первого поколения они устроены таким образом, что это такой бесконечный процесс переписывания исходного предложения в такое внутреннее представление системы. И оно переходит на многих уровнях. И в конце концов те разработчики системы, которые её начинали, они уже не очень понимают, как можно поправить, улучшить эту программу. И она уже работает, поскольку этих вот там французских слоёв очень много, то они не понимают, где поправить, как исправить ошибку, которая постоянно появляется.

Т.ФЕЛЬГЕНГАУЭР: Программа жертвует своей собственной жизнью?

А.БАРАНОВ: И я могу рассказать такой опыт интересный, который у меня был.

Значит, к нам пришли люди из университета. Я не буду называть, какой университет, довольно крупный университет, который решил перевести большое количество документов в сфере юриспруденции и социологии с английского языка на русский язык. Но оказалось, что, если привлекать обычных переводчиков, это будет стоить бешено дорого. Ну, и они обратились. А ректор был такой технический человек. Он слышал о системах машинного перевода. Он сказал: «Вот давайте-ка, мы сейчас купим систему машинного перевода». И они купили систему машинного перевода, а она была ещё такая с дополнительными банками данных для словарей специальных проблемных областей.

И вот они набили терминологию из этих специальных проблемных областей и стали пытаться переводить. Ясное дело, что ничего не получилось. Они получили дикие тексты, которые не просто требовали постредактиврования, а они требовали обращения к тексту-исходнику. И, что меня ещё поразило: когда мы делали эксперименты, проверяя вот до использования специальных словарей и после использования специальных словарей, ну, и оказалось, что в некоторых случаях - лучше, в некоторых случаях – так же, а в некоторых случаях – ещё и хуже.

А, кроме того, обнаружилось какое-то слово – «противолуга», которое я совершенно не знал. Я подумал: ну да, я не специалист в сфере юриспруденции, и полез в словари. Но нигде в словаре такого не было.

ФЕЛЬГЕНГАУЭР: Но это ведь прекрасно: вам машина сгенерировала новое слово.

А.БАРАНОВ: Да. И я полез в Интернет. И действительно, я обнаружил там два или три текста, где это слово встречалось. И эти тексты оказались примерами работы той же самой системы машинного перевода. А как она порождала это слово, абсолютно непонятно!

Т.ФЕЛЬГЕНГАУЭР: Но смотрите, машинный перевод – это же не единственный пример работы использования компьютерной лингвистики. Потому что те же самые поисковики – это всё то же оно.

М.КРОНГАУЗ: Да. Но это заметьте, что опять мы сталкиваемся с идеей катастрофы романтизма. Потому что в машинном переводе хотели воспроизвести деятельность человека. И это не получилось. Машина проиграла конкуренцию.

Я помню, что в семидесятые-восьмидесятые годы шутили, что для хорошей работы автоматического перевода нужно предредактирование, постредактирование, а желательно и просто перевод. Так практически и происходило.

Т.ФЕЛЬГЕНГАУЭР: А смысл?

М.КРОНГАУЗ: Я приведу один смешной пример. Есть много баек, связанных с машинным переводом, но один, самый короткий, связан с обращением Мадонны к своим поклонникам на сайте. Обращение было переведено с помощью автоматического перевода на всевозможные языки.

Русское обращение начиналось словами: «Дорогие вентиляторы!»

Т.ФЕЛЬГЕНГАУЭР: (смеётся). Да, но это замечательно! Но поисковик, как я понимаю…

М.КРОНГАУЗ: А есть успехи, достигнутые в основном в тех областях, где не стараются создать программу, которая будет конкурировать с человеком, а создать программу, которая помогает человеку.

Т.ФЕЛЬГЕНГАУЭР: Ну, то есть, это обработка большого количества текста.

М.КРОНГАУЗ: В частности. Не только, потому, что, если мы говорим о переводе, сейчас очень популярны и очень полезны так называемые «рабочие места переводчика». Это компьютеризированное место, ну, или наличие нескольких программ, которые помогают переводчику. Например, самый простой – это автоматические словари.

Т.ФЕЛЬГЕНГАУЭР: Давайте, мы сейчас прервёмся на краткие новости, и продолжится программа «Назад в будущее».

НОВОСТИ

Т.ФЕЛЬГЕНГАУЭР: 12.35 в столице. «Эхо Москвы», продолжается программа «Назад в будущее». Мы говорим сегодня про компьютерную лингвистику. За минувшие полчаса эти слова стали для нас всех менее страшными и более понятными.

+7 (985) 970-45-45 – это номер sms. Вы можете задавать свои вопросы Анатолию Баранову, профессору, зав. отделом экспериментальной лексикографии Института русского языка РАН. И Максиму Кронгаузу, профессору, директору Института лингвистики Российского гуманитарного университета.

Максим до того, как мы ушли на НОВОСТИ, начал рассказывать про «рабочее место переводчика» и про электронные словари как одно из проявлений компьютерной лексики.

М.КРОНГАУЗ: Да, безусловный успех сегодняшней компьютерной лексики – это создание электронных словарей. Очень полезная вещь, и все переводчики этим пользуются. Вот в тот момент, когда разработчики отказались от идеи какой-то прямой конкуренции со сложной человеческой деятельностью, безусловно, это направление науки очень выиграло.

И ещё один пример, когда всё-таки пришлось воспроизвести человеческую деятельность. Речь идёт о таком важнейшем этапе: распознавания как устной, так и письменной речи. Без этого нельзя создавать программу, которая имитирует человеческую деятельность. И эти проблемы решены. Но на это потребовалось достаточно много лет и много усилий. В частности, программа распознавания письменной речи сегодня существует и их несколько. И они вполне удачны.

Гораздо труднее распознавать, скажем, речь и письменный почерк. Но, тем не менее, тоже это как-то решается.

Т.ФЕЛЬГЕНГАУЭР: Да. И почерк может распознавать программа.

М.КРОНГАУЗ: Но мы знаем, что, в частности, как блокируются роботы на сайтах. Нужно ввести какие-то цифры, написанные не стандартным образом, а искажённым.

Человек это легко распознаёт, а программа – нет. Так что, здесь всё равно человек выигрывает эту конкуренцию.

Т.ФЕЛЬГЕНГАУЭР: Но вот Сергей из Томска спрашивает: «Мне очень помогает при переводах на английский язык программы речевого ввода. Будут ли они развиваться?»

М.КРОНГАУЗ: Они все развиваются постоянно. Это особая область. Действительно особая, немножко отдельная. Это программы синтеза и распознавания речи.

Т.ФЕЛЬГЕНГАУЭР: Александр прислал нам сообщение: «Когда ещё не было сайта с анекдотами, мы переводили с помощью одной из программ машинного перевода техинструкции. Каждый четвёртый текст получался с очень весёлой историей. Ну, действительно, и я тоже сталкивалась с тем, что вот эти вот переводчики они, конечно, выдают феерические совершенно тексты.

М.КРОНГАУЗ: Да, да, да. Но есть просто много анекдотов таких реальных, жизненных на эту тему.

Т.ФЕЛЬГЕНГАУЭР: Мы, когда начали с вами говорить вообще, в течение всего разговора, как-то всё время говорили про Америку, про открытия, про истоки, про развитие. А что, собственно, в нашей стране происходило? Как тут эта вся история развивалась?

А.БАРАНОВ: Ну, у нас системы машинного перевода развивались достаточно активно, уже начиная с середины пятидесятых годов. Более того, возникли очень интересные теоретические модели формальные. Ну, в частности, модель «Смысл-текст», которая развивалась Мельчуком и его коллегами. Но правда, вот эти теории, в которых предпринималась попытка создать такой общий язык для передачи смысла фактически. Потому что, когда мы говорим, что эта модель «Смысл-текст», то есть от смысла к тексту и от текста к смыслу. И в этом случае через систему машинного перевода получается как часть такой модели. То есть, это вариант такой модели, который работает именно вот на перевод с одного языка на другой.

Но вот эти исследования, очень полезные на том этапе для прикладной лингвистики, они всё-таки большее влияние, как мне кажется, оказали на теоретическую лингвистику, а не на прикладную.

Дело в том, что вот Максим об этом говорил, и очень правильно говорил о том, что прагматика победила, так сказать, сферу идеального, потому что действительно там было такое представление, что надо моделировать человеческое мышление. Как его моделировать надо? - Через моделирование, там? в частности, владение человека языком. Потому что мы говорим, мы понимаем другого человека. И это проявление интеллектуальной деятельности.

И вот на первых этапах развития системы искусственного интеллекта лингвисты очень тесно шли вместе со специалистами в области компьютосайт. Но потом оказалось, что вот это представление о том, что, а вот мы сейчас всё это прекрасно сделаем, и будем моделировать интеллект, и будет программа понимания текста хорошая, и всё такое, вот оказалось, что это недостижимо пока что, потому что мы ещё много не знаем и об интеллекте человека, и о языке, который использует человек.

М.КРОНГАУЗ: Но мы самого главного не знаем.

А.БАРАНОВ: Ну, может быть, и главного не знаем.

Но оказалось при этом, что можно некоторые сложные задачи, которые казались на определённом этапе неразрешимыми, свести к более простым. Ну, в частности, вот такое было активно развивавшееся в семидесятых годах направление, которое называлось по-английски НЛП, то есть это обработка естественного языка. Тут имелось в виду, что надо создать такую программу, которая будет обеспечивать взаимодействие человека с компьютером на естественном языке или ограниченном естественном языке. И были конференции на эту тему очень большие и работы всякие интересные. Но потом оказалось, что проще изменить систему взаимодействия с машиной, потому что ведь тогда боялись в семидесятых годах, что нужно всех учить программированию. Чтобы пользоваться компьютером, необходимо знать программирование. Но более эффективным оказалось просто изменить интерфейс – сделать другую операционную систему, где файлы – это папки, где стирание файла – это перемещение этой папки в корзину. И впервые эта идеология, эта метафора она была использована в операционных системах фирмы «Эппл Макинтош». Собственно говоря, вот эти вот «Windows» по очень многим параметрам очень напоминают эти операционные системы, которые ещё в шестидесятых годах разрабатывались, «Эппл» разрабатывала для своих компьютеров.

И вот изменение идеологии привело к тому, что не нужно вводить для машины вот эти команды, там, скажем: «Сотри файл», или «Скопируй файл». Не нужно это вводить в клавиатуре. Это не требует знания специального языка. А тут вполне достаточно использовать образ или картинку, которая высвечивается на дисплее. И вот развитие компьютеров пошло по этому направлению, что, конечно, облегчило очень сильно взаимодействие с компьютерами обычных людей.

М.КРОНГАУЗ: На самом деле, такое взаимодействие происходит. Я думаю, что люди, скажем, пользующиеся автомобильным навигатором, слышат, как программа подаёт некоторые сигналы и говорит: «Сверни налево», «Сверни направо». Так что, фактически это уже вошло в наш быт. Вошло на очень примитивном уровне. Тем не менее, мы не воспринимаем беседу с программой, как нечто странное.

А.БАРАНОВ: Нет, но мы не можем этому навигатору сказать: «А как мне проехать туда-то?»

И.КРОНГАУЗ: Вы знаете, вот это очень важно.

Т.ФЕЛЬГЕНГАУЭР: Вы знаете, я обычно своему навигатору могу сказать очень много разных слов, особенно когда он предлагает мне повернуть под «кирпич». Он не отвечает.

А.БАРАНОВ: Как раз очень интересно, что некоторые виды его деятельности воспроизводятся. Причём иногда кажется, что это самое сложное. Например, проще создать программу, пишущую стихи, чем программу, ведущую разговор на бытовую тему.

Оказывается, что связный диалог смоделировать, то есть сделать такую программу, которая его сможет поддержать, гораздо труднее, чем создать программу, которая напишет некоторые стихи, причём удачнее оказываются программы, которые пишут модернистские стихи. Потому что отличить модерниста-робота от модерниста-поэта труднее: в такие стихи вписывается что угодно. А вот программу, пишущую классические стихи, от Пушкина отличить довольно легко. Здесь интересно, что, вроде бы, те эксперименты, которые мы считаем свойством человеческого разума, воспроизводить легко, потому что в них меньше связности. Так что здесь много интересных нюансов, когда вроде бы то, что считается присущим только человеку, воспроизводится, ну пусть на каком-то достаточно примитивном уровне, но это делается. А вот воспроизвести простые рассуждения в диалоге и взаимодействия в диалоге практически невозможно.

Т.ФЕЛЬГЕНГАУЭР: То есть в ближайшее время мой навигатор на вопрос: «Куда ты завёл меня, собака?» - не ответит мне: «Прости, я отвлёкся» или: «Этот «кирпич» только что поставили».

А.БАРАНОВ: Ну, можно научить его улавливать какие-то шаблоны. Например, «Как проехать?» – и дальше адрес. А вот «Куда ты меня завёл, собака?», не сможет он поддержать эту беседу.

Есть такое общее правило, что если у программы есть очень богатая модель мира проблемной сферы, то есть она в этом виде в таких специальных концептуальных структурных фреймах там отражены знания о проблемной области. То она может достаточно удачно реагировать даже, если у неё слабый лингвистический процессор. И вот в этом смысле, может быть, вот эти программы, которые обслуживают навигаторы, они всё-таки смогут реагировать на вопросы и более или менее правильно отвечать на них, потому что это не столь уж такая сложная проблемная сфера, когда тема меняется.

Но вот в обыденном диалоге, если речь идёт не о фактическом общении (это я подчёркиваю), а если идёт речь о каком-то содержательном общении, тогда трудно очень сделать так, чтобы у программы была очень богатая модель мира, которая обслуживает всё: и ремонт холодильника, и как поговорить с сыном о тех оценках, которые он получил в школе.

М.КРОНГАУЗ: Эмоциональные диалоги тоже можно воспроизводить. Кажется, что это высший полёт. Нет, это часто проще, то есть не часто, а это проще, чем воспроизвести содержательный, связный диалог. Вот вы говорите: «Куда ты меня завёл, собака?» Очень легко задать такую программу, которая будет реагировать на бранные слова. Например, вступать в диалог такого рода: «Куда ты меня завёл, собака?», отвечать: «Сам ты собака».

А.БАРАНОВ: Нет, «Сам ты собака». (Все смеются).

М.КРОНГАУЗ: И эффект действительно полного взаимодействия с программой. Она просто реагирует на некоторые ключевые слова, помеченные как бранные, и вставляет шаблон: «Сам ты такой». Поэтому как раз легко воссоздать такой суматошный, человеческий эмоциональный диалог, когда программа переспрашивает, когда программа повторяет, но очень трудно воссоздать содержательный, рациональный диалог.

Т.ФЕЛЬГЕНГАУЭР: Сергей из Томска спрашивает: «Какие отрасли, кроме военной, превалируют сегодня в компьютерной технике?»

М.КРОНГАУЗ: Ну почему же, почему же только в военной? Ведь всё, о чём мы говорим, как раз с военной областью не связано. Ведь военная область – это тоже нужно, и это всё финансируется достаточно хорошо, но мы говорим, скажем, о программах в Интернете: программы поиска, программы восстановления ключевых слов, программы автоматических словарей, которые тоже есть в Интернете. Это всё существует не в военной области. Мы сегодня говорим только о таких бытовых программах.

А.БАРАНОВ: Но ты должен подчеркнуть, что военное финансирование, по-моему, оно закончилось в начале восьмидесятых годов.

Вообще реально с тех пор мне ни разу не приходилось участвовать в проектах такого рода.

М.КРОНГАУЗ: Да, мне вообще не приходилось, поэтому мне здесь проще.

А.БАРАНОВ: Я бы сказал, просто классические программы, связанные с военным финансированием, это, конечно, программы военного времени, программы-дешифровки, кодирования, и наоборот – декодирования, дешифровки, про которые написаны книги.

Т.ФЕЛЬГЕНГАУЭР: Ну, мы сейчас с вами подходим к очень важному моменту, без которого не обходится ни одна программа «Назад в будущее».

Что нас ждёт в ближайшее время? Какие вы можете сделать прогнозы, исходя из тех работ и исследований, которые сейчас ведутся? На что делать ставку?

М.КРОНГАУЗ: Мне кажется, что всё равно мы будем продолжать двигаться в этой области пока, то есть в области прагматики. Будут создаваться программы, полезные как инструменты для разного рода сложной человеческой деятельности. И в частности сегодня, поскольку, может быть, главным событием нашего времени является Интернет, и некое новое коммуникативное пространство, должны создаваться программы, помогающие человеку ориентироваться в этом коммуникативном пространстве, в коммуникативном информационном пространстве.

Сегодня выигрывает тот, кто лучше ориентируется в огромном, несистемном корпусе текстов, которые даёт нам Интернет. И вот наличие разного рода программ помогает человеку выигрывать в конкуренции с другими людьми, а не с программами.

А.БАРАНОВ: Ну да, я, пожалуй, соглашусь с этим. Единственно, я сделаю вот такое дополнение, как мне кажется, очень существенное. Мне кажется, что основное направление вот тех работ, которые реально проводятся и будут проводиться, это создание систем, которые вытаскивают информацию из огромного количества текста, который находится в Интернете. Потому что Интернет оказался таким невероятно богатым. Ну конечно, там очень много мусора разнообразного. Но это необыкновенно богатый источник информации о самых различных событиях, которые происходят в мире. И сейчас эти программы, которые извлекают информацию из текста, очень активно развиваются. Понятно, что делать это силами там одного эксперта или десятка экспертов невозможно. И вот нужны такие программы-роботы, которые эту информацию извлекают на постоянной основе в режиме мониторинга и выдают соответствующие результаты людям, которые этим интересуются.

Надо сказать, что там сейчас на рынке бум программ такого рода.

М.КРОНГАУЗ: И, если сказать просто, эти программы обработки текста, упрощения текстов и систематизации текстов. Потому что, что нам предлагает, скажем, обычная поисковая система? Нас интересует некая тема, некое событие в мире, в истории. Мы задаём ключевые слова, и дальше программа выдаёт нам некоторую иерархию текстов, которые нам имеет смысл почитать, чтобы ознакомиться с данным вопросом. То есть программа совершает сразу несколько действий интеллектуальных. Она, во-первых, находит эти тексты по ключевым словам, а во-вторых, она вырывает из них смыслы. А, в-третьих, создаёт иерархию текстов. Это очень сложная задача, потому что далеко не все тексты, в которых есть эти ключевые слова, нам надо читать. И здесь постоянная борьба человека с человеком через программу, потому что мы знаем, как в том же Интернете включают специально некоторые ключевые слова, чтобы программа находила именно этот текст, хотя он никакого отношения не имеет.

И вот идёт постоянная борьба человека с человеком, но через программы.

Также программа борьбы со спамом, для отсеивания спама. Это ведь тоже человек борется с человеком с помощью интеллектуального инструмента.

Т.ФЕЛЬГЕНГАУЭР: Ну, лет через 20-то всё-таки мой навигатор со мной заговорит?

А.БАРАНОВ: Да, я думаю, что навигатор, безусловно, потому что вот эти программы, которые имеют очень богатую проблемную, вернее, знания программные о проблемной области, конечно, это самый простой выход в связи с системой искусственного интеллекта, ну, который связан с языком, и это сделать достаточно просто.

А вот, конечно, делать интеллект вообще, это вообще большая такая задача на очень и очень отдалённое будущее.

М.КРОНГАУЗ: Я думаю, что эта задача не будет решена никогда. Но стремиться-то надо!

(Все смеются).

Т.ФЕЛЬГЕНГАУЭР: Спасибо большое! В программе «Назад в будущее» о компьютерной лингвистике и всяких невероятных, интересных вещах рассказывали сегодня: Анатолий Баранов, профессор, зав. отделом экспериментальной лексикографии Института русского языка РАН, и Максим Кронгауз, профессор, директор Института лингвистики РГГУ.

Большое вам спасибо за то, что всё так разъяснили и рассказали.

Всем счастливо!

ГОСТИ: Спасибо!


 

Дата : 30.05.2010 12:09

Полная версия: http://echo.msk.ru/programs/futureback/683057-echo/

© 2004 - 2008, Радиостанция «Эхо Москвы», http://echo.msk.ru/