Мы публикуем текст лекции , прочитанной директором по лингвистическим исследованиям компании ABBYY, заведующим кафедрами компьютерной лингвистики РГГУ и МФТИ, председателем оргкомитета ведущей российской конференции по компьютерной лингвистике «Диалог» Владимиром Селегеем 6 сентября 2012 года в в рамках празднования 20-летия Высшей школы экономики и открытия сезона «Публичных лекций «Полит.ру» 2012-2013 гг. в парке им. Горького.
Владимир Селегей: На самом деле я не уверен, что это должен быть монолог. Надо сказать, что в лингвистике монологи вообще не очень популярны. Всегда интересен как раз диалог, потому что это структура общения. Взаимная осведомленность в диалоге – это все очень важные вещи для изучения, в том числе и в компьютерной лингвистике. Надо всегда хорошо понимать, кто находится перед тобой в аудитории. Я бы хотел, чтобы подняли руки те, кто имеет хотя бы какое-то отношение к лингвистике. Замечательно, это уже не мало. Остальные – это скорее филологи или люди точного знания?
Борис Долгин: Еще могут быть люди социального знания, например.
Владимир Селегей: Хорошо, понятно. Это на самом деле очень правильное соотношение для рассказа о компьютерной лингвистике, потому что, несмотря на то, что эта наука была названа Борисом горячей, у нас в стране она пока еще не слишком популярна. Об этом свидетельствует то, что до этого года в России не было ни одной кафедры компьютерной лингвистики. Если есть наука, по идее, должны быть места, где этой науке учат. Но так получилось, что только в этом году такие места появились. В частности, оно появилось и в Вышке, где есть теперь специализация «компьютерная лингвистика» на филологическом факультете. Сейчас в Москве есть несколько мест, где начинают учить компьютерной лингвистике. У вас есть возможность оказаться в сфере этой науки.
Теперь, когда мы с вами немножко познакомились, я попробую рассказать о том, что из себя представляет, на мой взгляд, деятельность людей, которые занимаются компьютерной лингвистикой. Я немножко испугался давать в названии лекции «компьютерная лингвистика», потому что не был уверен, что все понимают, что это такое. Например, можно предположить, что компьютерная лингвистика – это когда людей обучают иностранному языку с помощью компьютера. Почему бы нет? Очевидно, что ясного понимания нет, поэтому я употребил другое сочетание - «автоматический анализ естественного языка» в названии лекции для того, чтобы, может быть, это было чуть понятнее.
Борис Долгин: Это если бы все знали термин «естественный язык».
Владимир Селегей: Да, видите, как все сложно. Но мне кажется, интуиция подсказывает, что такое естественный язык. Для того, чтобы с чего-то начать, нужно попытаться разобрать тот самый неупомянутый в названии термин «компьютерная лингвистика» и решить, с чем же мы имеем дело.
Компьютерная лингвистика включает в себя слово «лингвистика», и я думаю, что, к сожалению, относительно ее предмета в обществе тоже нет ясного понимания. Несмотря на то, что лингвистика как наука сформировалась очень давно, и у нее есть очевидный объект изучения – человеческий язык. Человеческий язык вообще. Лингвистика отличается от русистики, германистики и чего угодно, что тоже называют эти словом тем, что она предполагает существование такой особой структуры, такой способности человека, которая называется владение естественным языком – и ее можно изучать в предположении, что каждый конкретный язык является просто одним из способов реализации этой структуры. Это то, что называется типологическим подходом. Универсализм в постановке задачи и отличает ту лингвистику, о которой я сегодня буду говорить с добавлением слова «компьютерная», от того, чем сегодня обычно называют лингвистикой на просторах нашей страны. Сейчас существует огромное количество лингвистических университетов. У изучавшего перевод в дипломе будет написано, что он лингвист. Если выпускник будет учить языкам, тоже будет написано что он - лингвист. Здесь единого понимания нет.
Та лингвистика, которая имеет отношение к теме сегодняшней беседы – это наука, которая изучает, как вообще функционирует человеческий язык. При этом универсальный подход требует таких методов, которые отличаются от тех методов, которые можно применять при изучении одного языка. Например, существует богатейшая традиция изучения китайского языка, но она очень далека от того понимания лингвистики на Западе, о которой я сейчас говорю. Это такой остров, абсолютно независимый от других традиций. Это скорее филологический подход. Тут могут быть глубокие озарения относительно того, как устроен китайский язык, но в целом это знание не масштабируется , его нельзя включить в универсальную систему.
Борис Долгин: Знания трудно переводятся и не из-за разницы языков.
Владимир Селегей: Таким образом, нам с вами интересна наука, которая пытается изучать разные языки с единых позиций – и ясно, что такое изучение должно опираться на какие-то серьезные формальные модели. Лингвистика в таком понимании начала формироваться с появлением структурализма в начале ΧΧ века. Она стала опираться на точные модели: такие модели, которые можно было бы успешно применять к разным языкам. Это своего рода математика. Я не думаю, что каждый математик согласится, что структурная лингвистика – это ее раздел, но это не так важно. Важно стремление к точному, масштабируемому знанию.
Теперь можем перейти к компьютерной лингвистике. Что же это такое? И здесь существуют разные способы понимания, я бы сейчас сконцентрировался на том, которое наиболее «функционально». Компьютерная лингвистика – это совокупность задач (и методов их решения), возникших оттого, что мы хотели бы моделировать каким-то образом человеческую способность владения языком -применительно к тем потребностями, которые возникли в связи с наличием компьютера.
Первой такой естественно возникшей задачей, и далеко не самой простой, стал еще в 50-ые годы машинный перевод, но с тех пор возникло много других задач, которые входят в сферу этой лингвистики. Я думаю, что если вас спросить, встречаетесь ли вы с какими-то плодами компьютерной лингвистики каждый день, то вы, если вы внимательны, должны честно ответить «да». Самый простой пример – если у вас есть телефон и вы набираете смс. Этот тот замечательный Т9, которым вы пользуетесь, когда набираете сообщение.
Борис Долгин: Или который упорно пытаетесь отключить.
Владимир Селегей: Да, это, тем не менее, маленькое, но плодотворное достижение компьютерной лингвистики. На самом деле мысль, что можно с помощью ограниченного количества клавиш набирать текст в алфавите, который существенно больше, чем количество клавиш – это совершенно замечательная идея, которая, на мой взгляд, достаточно успешно реализована (хотя, конечно, мы иногда и отключаем).
В нашу жизнь вошел Интернет. Это мощная область применения компьютерной лингвистики. Так, если вы пользуетесь системами поиска в интернете – «Яндексом», «Google’ом», «Bing’ом», «Yahoo», чем угодно – то тут компьютерная лингвистика к вам стучится в дверь, потому что без нее обойтись трудно. Особенно это заметно при поиске на таком языке, как русский. Мы уже привыкли, даже не обращаем внимания, что система поиска обрабатывает наш запрос лингвистически. Например, мы не удивляемся, что при поиске некоторого слова программа находит тексты, где это слово встречается в разных формах. Для глаголов это проблема непростая: так, русский переходный глагол может иметь больше сотни форм, а если вы еще объедините переходный и непереходный глаголы, получается еще больше. Это простые примеры.
Еще из области простых примеров: все мы пользуемся текстовыми процессорами, редакторами (Word и другими). Большинство являются пользователями тех компонентов этой программы, которые связаны с компьютерной лингвистикой. Например, казалось бы самая простая вещь – переносы. Но автоматическая расстановка переносов – достаточно сложная задача. Есть много вещей, которые необходимо учитывать. Включая, например, проблему «неблагозвучия» частей слова. Например, был случай, когда такое совершенно невинное слово как «беспокойный» вызвало проблемы для одной из газет, потому что человек прочитал в ней в начале страницы «покойный Иванов». Хорошая программа переноса должна учитывать такие вещи. Я уже не говорю о понятной русскоязычным людям проблеме с совсем уж нехорошими фрагментами слов.
Более серьезные всем знакомые функции программ это, разумеется, проверка орфографии, стиля и т.д.
Таким образом, уже сегодня компьютерная лингвистика способна относительно успешно решать многие подобные задачи, но еще больше таких задач, которые мы бы хотели решать.
Про машинный перевод я уже говорил. Распознавание и синтез речи. Распознавание текстов – очень серьезная задача. Например, до сих пор не существует программы, которая бы хорошо распознавала текст, написанный от руки. Вот вы конспектируете лекцию, а потом хотите засунуть страницы в какое-нибудь устройство и получить электронный конспект. К сожалению, для такой задачи сегодня решения пока нет.
Информационный поиск – это тоже очень важно. Мы бы хотели, что бы те системы поиска, которые есть в интернете, искали чуть «поумнее», чем сейчас. Чтобы они понимали, что нашему запросу может соответствовать не буквально то, что мы написали, а еще и то, что можно из этого логически вывести. Например, нас интересует, чем некто владеет, что у него есть. Вы понимаете, что в языке есть огромное количество глаголов, значение которых это владение или смену владения включает, например, купить, продать, получить, потерять и т.д.
То есть, когда мы ищем информацию, мы хотели бы, чтобы система поиска производила логический анализ текста и гораздо глубже анализировала наш запрос.
Когда компьютерная лингвистика возникла в 50-е годы, было такое ощущение, что стремление к математически точному моделированию языка, которое появилось в лингвистике, обеспечит и решение всех задач компьютерного анализа. Казалось, что нужно всего лишь взять, немного доработав, хорошую лингвистическую теорию, перевести ее в компьютерные программы -- и все заработает. Была идея, что машинный перевод можно сделать в течение 2-3 лет просто за счет того, чтобы в компьютер перевести огромные словари и какие-то имеющиеся в книгах представления о грамматике языков. К сожалению, выяснилось, что это невозможно. И на это потребовалось много времени.
К началу 70-х годов у людей, которые занимались компьютерной лингвистикой, было ясное ощущение, что одной лингвистикой обойтись нельзя. И не только из-за принципиальных границ применения самой лингвистики, о которых я еще немножко расскажу, но и из-за неполноты знаний самой лингвистики: та степень формализации, которая требуется для компьютера, совершенно не всегда извлекается из книги.
Я могу привести вам маленький, немного анекдотический пример. Существует двухтомная, академическая грамматика русского языка. Казалось бы, она должна исчерпывающе описывать в максимально точной форме все, что относится к правилам употребления русского языка. Но как оказалось в какой-то момент, в русской академической грамматике не было нигде явно написано, что предлоги в языке обычно предшествуют существительному. Понятно, что все, кто владеет языком и так об этом знают. Но тут есть два «но»: во-первых, компьютеру это надо объяснить в явном виде, а, во-вторых, есть случаи, когда предлог не предшествует, а следует за существительными (например, не корысти ради и т.д). Для того, чтобы сформулировать отклонение, у вас должно быть правило. Компьютер требует, чтобы все, что мы принимаем в языке за очевидное, было явно и четко сформулировано в виде системы правил, которыми можно было бы пользоваться. И это колоссальная проблема. Я могу сказать, что в русском языке, как и во многих других языках, до сих пор не решены до конца многие проблемы, например, как устроено относительно придаточное предложение с местоимениями «которое» и т.д. Там очень сложные правила образования. Чтобы научить компьютер правильно анализировать и синтезировать текст, надо обладать знаниями, которые нигде еще пока что не сформулированы.
Но есть и другая принципиальная проблема. Представим себе текст об итогах работы медкомиссии в какой-нибудь строительной компании, в котором написано: этот моляр (через букву «о») нуждается в лечении. Допущена ли здесь ошибка? Большинство людей скажут: конечно, это ошибка, здесь должен быть маляр. Но для тех, кто знает что моляром называют некоторые зубы во рту все не так просто, особенно если фразу написал стоматолог. Что должна сделать программа и при чем здесь лингвистика? Честно скажем – ни при чем. Это не задача лингвистики - разбираться в том, зуб или работника вы имели в виду. Для нее оба варианты допустимы. Это задача совсем другой системы знаний, которые нужно привлекать для решения задач компьютерной лингвистики.
Можно привести много других примеров неоднозначностей такого рода. Есть знаменитый пример из области машинного перевода, когда система поняла фразу: «принимать по одной таблетке после приема пищи» как «принимать – и потом пищать». Какое правило языка нарушено при таком понимании значения слова «пищи»? Ответ – никакой. Потому что грамматически фраза «после приема пищи» совершенно правильная, придраться не к чему. Это означает, что выбор правильного варианта – это уже не задача лингвистики, это требует методов уже какой-то другой науки.
Большие проблемы для компьютерного анализа могут представлять даже такие простые слова, как предлоги типа «для» или «при». Только потому, что «для» имеет, очевидно, разбор как деепричастие, «при» - как повелительное наклонение. Вы понимаете, что очень часто можно построить структуру абсолютно формально синтаксически правильную, если считать что «для» - это деепричастие. И только наши знания о мире помогают нам разобраться.
И таких примеров можно приводить бесконечно много. К сожалению, решить задачи компьютерной лингвистики только с помощью лингвистических моделей (и дело тут даже не в полноте этих моделей) – невозможно. По объему привлекаемых знаний компьютерная лингвистика не тождественна лингвистике. Лингвистические знания можно и нужно использовать в компьютерной лингвистике, но это все же разные науки. Это понимание различия пришло не сразу, но сегодня оно есть, и иногда даже абсолютизируется, что создает другую проблему.
Дело в том, что когда лингвисты несколько охладели к решению задач компьютерной лингвистики, им на смену пришли инженеры и математики, которые сказали примерно следующее: раз лингвисты не знают даже, где должен стоять предлог – и вообще, куда ни ткни, обязательно чего-то не хватает в описании -- мы попробуем решать проблемы компьютерной лингвистики вовсе безо всякой лингвистики.
Такая программа поначалу могла показаться малообоснованной, но произошли такие события, свидетелями которых мы все оказались, которые радикально изменили ситуацию. Этими событиями стали, во-первых, появление персональных компьютеров, а во-вторых, появление и бурное развитие Интернета. Уже только широкое распространение компьютеров привело к тому, что в электронный формат стало переводиться огромное количество текстов. Это означало, что с ними можно работать «математически», их можно анализировать и обрабатывать с помощью компьютера.
Ну а появление Интернета можно назвать уже настоящей «статистической» революцией. Интернет – это новый мир, в котором каждый стал создателем текстов. Никакой объем оцифрованных текстов, созданных до появления интернета, не может и сравниться с тем объемом материала, пригодного для статистического анализа, который возник с его появлением. Возник и каждые два-три года удваивается. Письменная культура современного мира реализуется именно в Интернете. Даже если вы пишете статью на пишущей машинке по старинке, все равно вы приносите ее в издательство, а там ее переносят в электронный формат, и она оказывается рано или поздно в сети. Современный мир – это мир электронных текстов, включивший в себя не только достаточно небольшую часть текстов, которые пишут профессиональные литераторы, но прежде всего то, что пишем все мы – носители языка. Каждый из нас имеет право на языковые выказывания. Эти языковые высказывания могут и должны анализироваться на тех же правах, что тексты Толстого или Устиновой: «образцовых» писателей, элитарных, склонных к культурному «стебу» или массовых.
Выяснилось, что когда текстов так много, с ними могут успешно работать методы их математической (статистической) обработки. Например, многие из вас, возможно пользуются такой программой, как Google Translator, который худо-бедно позволяет переводить с одного языка на другой. Эта система переводит тексты за счет того, имеет возможность соотносить огромное количество так называемых параллельных текстов (текстов вида оригинал-перевод). И это получается практически без использования лингвистики. То есть, если у вас есть тексты, которые переводятся на разные языки и таких текстов очень и очень много, то можно попытаться решить непростую, но понятную математическую задачу. Попытаться для каждой новой переводимой фразы найти какие-то куски в этом пространстве ранее переведенных текстов, которые входят в эту фразу, а если повезет - так и буквально с ней совпадают. Если не совпадает полностью, можно попытаться провести некоторую декомпозицию и попытаться покрыть переводимый фрагмент максимально большими, доступными кусочками ранее переведенных текстов -- и потом склеить из этого перевод. То, что вы видите по работе Google – это примерно такой алгоритм. И надо сказать, что для каких-то целей, если речь не идет о литературном переводе, а о беглом знакомстве с текстом на незнакомом языке, такой подход работает достаточно хорошо.
В результате этих процессов компьютерная лингвистика в начале ΧΧΙ века стала основываться преимущественно на статистических, а не лингвистических подходах.
Современный лингвист оказался в двусмысленной ситуации: он приходит в лингвистическое учебное заведение и по его окончании обнаруживает, что в компьютерной лингвистике ему места нет, потому что лингвисты там как бы и не нужны. Потому что есть уже огромные массивы текстов которые можно анализировать математическими методами и получать нужные данные, необходимые для решения некоторой задачи.
Но существует, к счастью, одно важное «но». Оно оставляет пространство для деятельности тем, кому хотелось бы, чтобы машина не просто механически соотносила тексты, но еще понимала в какой-то степени смысл этих текстов. На самом деле те задачи выбора между значениям, которые я сегодня упомянул, статистически решаются не так уж хорошо. Имеется огромное число явлений в тексте, которые вообще очень плохо поддаются чисто статистической обработке без лингвистической модели. У нас нет сейчас времени их обсуждать, но можете мне поверить, что таких явлений очень много. И сейчас постепенно происходит некоторая смена парадигмы.
Конечно, это был правильный и совершенно необходимый этап в развитии компьютерной лингвистики, когда мы от попыток решать проблемы чисто лингвистически перешли к их решению чисто математически. Но сегодня мы находимся в ситуации, когда мы ясно видим уже и принципиальные ограничения чисто статистических методов. Наиболее перспективным направлением в компьютерной лингвистики видится сегодня соединение того, что мы вынесли из этого этапа математического решения проблем с тем, чего добилась в создании моделей языка лингвистика. Это позволит получить новое качество, которого нам не хватает при решении очень многих задач. Например, в информационном поиске.
В качестве примера такого синтеза можно упомянуть одно из грандиозных достижений, развившихся за эти годы математического уклона – методы так называемого машинного обучения. Может быть, вы слышали этот термин. Я на простом примере вам объясню. Вот представьте себе такую небольшую, но жизненно важную задачу, с необходимостью решать которую каждый из вас сталкивался – она называется фильтрация спама. Мы живем в мире, где интернетом и электронной почтой пользуются, увы, для того, чтобы что-то нам «впарить» или даже обмануть. И мы не можем простым способом от такой ненужной нам информации отказаться. Очень часто спам представляет собой искусственно сгенерированные с помощью «роботов» тексты. Фильтрация спама – это очень важная задача. По некоторым оценкам 80-90% всего объема электронной переписки сегодня – это спам. Как избавиться от спама? Очевидно, что любой человек, который читает спам, понимает, что это спам. Я не думаю, что у вас бывают сильные сомнения. Только очень наивные люди всерьез воспринимают корявые сообщения о том, что условная Нигерия хочет подарить вам 10 миллиардов долларов на каких-то невинных условиях. Эти тексты выглядят ненатурально, но если вы спросите любого лингвиста, чем спам отличает от не спама, ни один уважающий себя лингвист не даст вам однозначного ответа.
Что делает ненатуральное ненатуральным, а натуральное – натуральным, это очень большая и нерешенная проблема. И вот тут приходят на помощь методы машинного обучения. Как они работают? Представим себе, что у вас есть миллион электронных писем, которые люди относят к спаму, и миллион писем, которые идентифицированы как хорошие, нормальные письма. Как решить с помощью компьютера простую для нас задачу, к какой группе отнести очередное письмо – к первой или ко второй? Нужно попытаться изучить эти группы и определить, какие их свойства существенны для отнесения к той или иной группе. Тут есть только одна проблема – какие свойства текстов мы способны различать. Сегодня программы, которые пытаются идентифицировать спам, могут обращаться при анализе только к внешней структуре текста и анализировать сочетаемость входящих в них слов. Допустим, определять, что вот такие сочетания слов или такие способы оформления текста для спама характерны, а для полезных писем не свойственны. И уже этого позволяет достичь серьезных успехов.
Очевидно, что есть много других более сложных для использования параметров, которые тоже хотелось бы исследовать. Если провести сравнение с гипотетической системой медицинской экспертизы, то ясно, что вряд ли можно успешно различать болезни, основываясь только на данных о температуре больного. Точность диагностики зависит от того, какими данными на тех текстах (или диагнозах), на которых вы обучаетесь, вы располагаете. Если вы рассматриваете тексты, только как цепочки слов, вы можете обучиться только каким-то самым простым, тривиальным, хотя иногда весьма эффективно работающим зависимостям. Но если вы хотите изучать проблему глубже и решать задачи эффективнее, вам необходимо понимать про текст и многое другое.
Например, какие части речи, грамматические значения, падежи, времена имеют слова в этом тексте. Каковы синтаксические отношения между ними: где тут подлежащее, где сказуемое, где дополнение или обстоятельство. Чем более сложные вещи вы можете в тексте различать, тем более сложные зависимости можно методом машинного обучения обнаруживать.
Это и есть то, к чему сейчас приходит компьютерная лингвистика. Во многом синтез лингвистики и математики происходит именно за счет того, что лингвистика служит очень полезным модельным инструментарием, который позволяет производить правильную первичную разметку тех текстов, на которых потом обучаются математические методы идентификации тех явлений, которые вы изучаете. Это тот путь, который, наверное, будет характерен для компьютерной лингвистики в будущем. И вы может в этом участвовать независимо от того, математик вы или лингвист.
Обсуждение лекции
Борис Долгин
Борис Долгин: Большое спасибо. Я, во-первых, хочу представить появившегося, как я и предупреждал, соведущего – историк восточного христианства, религиовед Алексей Муравьев. Он же является руководителем проекта «Русская политейя». Сбоку тут, наверное, еще можно увидеть баннер РВК, которые поддерживают наш проект «Публичные лекции», а с ним, я напоминаю, мы сегодня в рамках дня вышки здесь и выступаем.
Наступила дискуссионная часть. Может быть, у Алексея есть что прокомментировать. Единственное, что хочу уточнить со своей стороны - правильно ли я понял мысль, что на смену господства статистических методов может прийти их интеграция с тем, что разрабатывали для формального анализа текста, что начинало компьютерный анализ текста?
Владимир Селегей: Совершенно верно. Сегодня мы еще не умеем связывать такие сливки лингвистических теорий со статистическими методами, но это наша цель, если мы хотим действительно решать задачи машинного понимания. Это, может быть, не очень близкий, но наиболее перспективный курс.
Борис Долгин: Потому что, конечно, множество замечательных ученых в некоторый период бури и натиска лингвистики посвятили себя выяснению самых тонких закономерностей связи между словами, синтаксисом, семантикой. Есть та база, которую очень не хотелось бы растерять. Хотелось бы интегрироваться. Те люди частично живы, их ученики, несомненно, живы. Если бы это удалось сделать, это было бы замечательно.
Владимир Селегей: Сделанное никуда не исчезло. Лингвистика как самодостаточная наука продолжает развивать все эти исследования тонких закономерностей языка. Я хочу сказать только одну вещь: когда лингвист не пользуется компьютерными методами анализа, по крайней мере не изучая статистические закономерности, которые есть в языке, он рискует остаться что называется в границах своего диалекта – того языка, который кажется правильным ему. А для решения многих задач в компьютерной лингвистике надо очень правильно понимать иерархию языковых явлений, важность тех или иных языковых ограничений. Интуиции одного лингвиста, и даже двадцати лингвистов, и даже тысячи лингвистов недостаточно, для того, чтобы понять, что на самом деле в языке важно, а что нет. Поэтому здесь статистика является подспорьем не только для компьютерной лингвистики, но и для самой лингвистики.
Тут есть положительная обратная связь. Развитие лингвистики помогает компьютерной лингвистике, а те методы, которые создает компьютерная лингвистика, дают в руки лингвистам новый инструментарий, которого не было.
Борис Долгин: Замечательные корпусы языка. Так называемая корпусная лингвистика.
Владимир Селегей: Да, я не упоминал слово «корпус», потому что понимаю, что не все в аудитории знают что такое, допустим - Национальный корпус русского языка.
Борис Долгин: Хотя он в открытом доступе, если кому-то захочется поэкспериментировать.
Владимир Селегей: Кстати, лингвисты, которые работают в Высшей школе экономики, в большой степени приложили руку к созданию Национального корпуса русского языка. В некотором отношении это почти свой для Вышки проект, который здесь, безусловно, должны знать. Это инструмент и для компьютерного лингвиста, и для лингвиста
Борис Долгин: И для филолога.
Владимир Селегей: Совершенно верно, это инструмент и для филолога. Кстати, в Политехническом музее планируется цикл лекций по компьютерной лингвистике, на которые я всех приглашаю.
Борис Долгин: Которые мы обязательно будем снимать.
Владимир Селегей: Которые будут проходить по вторникам, начиная с 9 октября. Это будет цикл лекций, где уже гораздо более серьезно будут рассмотрены различные проблемы компьютерной лингвистики. В том числе сотрудниками Вышки. Будет рассказано и про Национальный корпус русского языка.
Алексей Муравьев: Благодарю. У меня возникло два соображения. Если говорить о корпусах, то в этом смысле…
Борис Долгин: Мы не ввели понятие, прошу прощения. Некоторый массив текстов сознательно в случае Национального корпуса русского языка или несознательно рассматривает весь Интернет как большой корпус языка, используемый для некоторого последовательного анализа.
Алексей Муравьев
Алексей Муравьев: И важно, что эти корпуса – тексты, которые входят в него и определенным образом размечаются. Это очень важный метод. Мне пришло в голову, что компьютерная лингвистика в определенном смысле дитя структуралистского переворота. Как отдаленное последствие, но тем не менее. И вот когда знаменитый Фердинанд де Соссюр писал свой «Cours de linguistique générale» в Женеве, он противопоставил в виде бинарной позиции два понятия: язык разговорный и язык письменный. Тут вопрос такой: нет ли у нас сейчас в компьютерной лингвистике такого порога создания дополнительного языка, который вырастает из того, что в лингвистике называется суперсегментные вещи? Например, эта разметка как таковая. Мы говорим: у нас есть омонимия разных уровней. Если мы используем только письменный язык, то возникает разговорный язык. В письменном языке существуют свои омографы. А когда мы говорим, что нам компьютерная лингвистика создает необходимость дополнительного языка разметки, мы создаем дополнительный код.
Владимир Селегей: Во-первых, конечно, не дополнительный код. Разметка – это элемент системы и в этом смысле новых сущностей мы здесь не создаем. Это та самая структурная лингвистика и те самые элементы структуры языка, которые мы научились выделять на разных уровнях: в морфологии, синтаксисе, семантика, прагматика, теория речевых актов. Но, кстати, возвращаясь к этому знаменитому противопоставлению языка и речи, можно сказать, что современная компьютерная лингвистика, этот ее уход к статистике привел к тому, что получился серьезный перекос в сторону речи. Потому что корпус – это, конечно, живые свидетельства речи. Когда вы изучаете ее как математический объект, вы видите эти рефлексы языка – то, что в речи реально реализуется. Саму систему языка вы при этом не видите. А система языка – это мощный инструмент. Частное знание, которое вы встречаете в речи, очень важное, но только понимание языковой структуры позволяет от частных примеров переходить к моделям языка. Поэтому здесь произошел перекос. Это перекос оправдан, потому что до этого лингвистика категорически не занималась речью. Лингвистика склонна к изучению формальной структуры. В этом смысле сейчас происходит новый виток в спираль познания: «слияние» лингвистики и статистики – это в некотором смысле попытка объединить модель языка и модель речи, найти между ними правильное соотношение.
Борис Долгин: Мне кажется, что у Алексея была некоторая дополнительная мысль. Может, я ее примысливаю, но все-таки, не является ли эта самая лингвистическая разметка конструированием того, что структуры, о которых мы говорим, с одной стороны нами ищутся, но с другой стороны это всего лишь наши концепты? Это наши представления о том, как язык устроен. Мы накладываем на текст эти самые представления, как бы выведенные из текста нами как субъектами. Это активная познавательная деятельность. Мы постулируем, что существительное чем-то отличается от глагола. Но это уже часть создаваемого нами представления о языке. Не влияет ли это представление, если я правильно понимаю что спрашивал Алексей, на восприятие языка уже размеченного?
Алексей Муравьев: Совершенно верно.
Владимир Селегей: Я бы сказал так – это вопрос, который не лежит в сфере компьютерной лингвистики. Скорее философской методологии этой науки. Потенциал того уровня разметки, который мы имеем сегодня (с точки зрения философской интерпретации, в том числе чего опасаться и чему радоваться) не очень велик. Но, конечно, если мы переходим от морфологии к более глубоким уровням языка, мы обнаружим огромное количество проблем интерпретации, потому что синтаксическая структура предложения не дана в наблюдении. Что такое синтаксис никто в точности не знает. Есть некоторая система связей в предложении. Как она должна выглядеть –не знает никто.
Алексей Муравьев: Кроме Хомского.
Владимир Селегей: Кроме Хомского. Но Хомский меняет свою точку зрения каждые три года.
Борис Долгин: Есть еще много его оппонентов.
Владимир Селегей: Его коллеги даже не успевают. Едва ли человек становится адептом очередного этапа теории, как он уже успевает ее поменять на что-то другое. Это шутка, но на самом деле для того, чтобы говорить об объективности лингвистического описания, нужно иметь еще какие-то психолингвистические доказательства. У меня просто не было времени об этом говорить, но сегодняшняя современная психолингвистика очень сильно связана с компьютерной лингвистикой, потому что компьютерная лингвистика предоставила инструменты, которыми мы раньше не обладали. Пытаться делать какие-нибудь выводы, просто разговаривая с человеком, довольно сложно. Представьте себе, что у вас есть методы компьютерного анализа того, что происходит в мозгу, и тут появляется новое пространство для того, чтобы пытаться как-то это интерпретировать. Поэтому возможно ли объективное знание, применительно к языку – это вопрос очень сложный, но, по крайней мере, возможны способы надежной верификации. Если система логического анализа текста устойчиво выдает результат, с которым носитель языка согласен, то можно надеется, что та разметка, которой мы пользовались для выводов, тоже, скорее всего, верна. Кстати, появление миллионов пользователей привело к тому, что возник естественный верификационный механизм для систем компьютерной лингвистики.
Это дает повод сказать о важнейшем признаке становления компьютерной лингвистики как науки - о том, что называется сегодня в системе научных конференций evaluation. Этот самый ужасный evaluation, правилам которого российские исследователи, увы, не всегда умеют следовать – это необходимость в каждой работе доказывать, что то, что вы сделали – верифицируемо, может быть соотнесено с результатами ваших коллег, может быть повторено. Понятно, что интуитивная лингвистика не обладала такими средствами верификации, какими обладает современная лингвистика, вооруженная компьютерными методами. Есть некоторый шаг к объективности, есть надежда, что ту проблему навязывания языку чуждой ему теории, о которой вы говорите, мы сможем преодолеть.
Борис Долгин: Я понял, что мы уже хорошо проагитировали посещение курса подробных лекций.
Голос из зала: Где-то в 60-70-х годах была генерация баз знаний. А потом эти исследования заглохли. Как вы считаете, можно ли ввести семантику в перевод или лингвистику, или это безнадежно?
Владимир Селегей: Это, конечно, не безнадежно, но я должен пояснить с терминологической точки зрения.
Голос из зала: Почему это заглохло?
Владимир Селегей: Это на некоторое время заглохло, я сейчас объясню. Семантика – это все-таки еще подсистема языка. Базы знаний – это уже следующий уровень, это система знаний о мире – то, что сегодня называется онтологией. Так вот задача автоматического создания знаний, извлечение знаний – это сегодня одна из самых популярных задач в компьютерной лингвистике. Опять-таки у нас нет времени сегодня об этом говорить. В Политехническом будет такая лекция. Можно обрабатывать те тексты, которые сегодня в огромном количестве находятся в интернете. Можно пытаться извлекать знания, из энциклопедий. Но для того, чтобы это делать, нужно понимать, как знания кодируются в языке. Получается естественный процесс. Если вы понимаете, как устроена система языка, у вас есть надежда, что справившись с семантическим описанием предложений вы можете уже перейти и к аккумуляции знаний из текста. Тут есть проблемы, ведь один факт знания может быть передан в языке миллионом способов. Чтобы извлекать знания нужно понимать, как устроена семантика языка, и развивать отдельное серьезное направление науки, которая называется логический вывод, теория представления знаний и т.д. Это часть искусственного интеллекта. То есть, эта проблема пересекается с компьютерной лингвистикой, но имеет свой суверенный объект описания. И это направление, безусловно, не заглохло, этим интенсивно занимаются.
Голос из зала: А кто сейчас занимается?
Владимир Селегей: Весь мир занимается. Если вы сейчас посмотрите на современные конференции по компьютерной лингвистике и искусственному интеллекту, то увидите огромное количество секций по этой тематике. Занимаются и те люди, которые и раньше занимались, например, Филлмор.
Голос из зала: Ну, что-то, по-моему, неудачно.
Голос из зала: У меня есть маленький комментарий. Не так давно лекцию в «Публичных лекциях Полит.ру» читала Барбара Парти, которая занимается формальной семантикой.
Борис Долгин: Которая в том числе и ученица уже упомянутого Хомского.
Голос из зала: И так получилось, что мой сын, лингвист, сдавал у нее спецкурс в МГУ. Поэтому я могу всячески ее рекомендовать и не только ее. Это не Хомский, это гораздо более строгая наука. Поэтому это целая школа.
И второй животрепещущий вопрос – говорят, что лингвистическая статистика как компьютерная может обнаружить написал текст мужчина или женщина, ответственный работник КПП или простой человек.
Владимир Селегей: Я уже говорил о машинном обучении: то, что вы назвали – это типичная задача для методов машинного изучения. Опять-таки, если вы спросите лингвиста, чем отличается язык мужчины от языка женщины, то какие-то очевидные идеи у лингвиста, конечно, будут, но точного представления нет. Если вы спросите, чем отличается язык слесаря и водителя – тут еще сложнее. Скорее всего, будет что-то в области лексики, но опять-таки для решения таких задач методы машинного обучения очень хорошо работает. И чем больше языковой разметки в текстах, на которых вы учитесь различать, тем больше шансов, что ваши результаты будут адекватны. Я могу сказать так – пол автора определяется очень точно. Правда, может быть не на всех видах текстов. Если это научный отчет, то тут довольно сложно, хотя тоже не безнадежно. Но если речь идет о блоге, то специалисты уверяют, что точность их методов определения пола автора уже около 90%. Сложнее с возрастом. В интернете бывает сложно с возрастом, потому что люди маскируются.
Борис Долгин: Трудно устроить правильную разметку.
Владимир Селегей: Да, очень трудно получить правильно размеченный массив. Тем не менее, тоже можно. Еще одна вещь, где могут хорошо работать методы машинного обучения – это региональная привязка. Дело в том, что мы этого не знаем, не замечаем, но современные методы изучения текстов позволили установить, что есть колоссальные региональные различия в языках. Про жителей Петербурга мы все знаем, что они чуть иначе говорят, чем жители Москвы, это почти анекдот, хотя основанный на истине, но ровно такие же и даже более сложные лексические различия существуют между югом России и севером, между отдельными областями. И тут очень хорошо могут работать такие методы.
Борис Долгин: Сейчас будет вопрос, но, к сожалению, он будет все-таки последним. Остальные вопросы, похоже, уже можно будет задать в Политехе и на каких-то наших лекциях, потому что дальше будет следующая лекция.
Константин: Вы просыпаетесь утром где-нибудь в Африке или Южной Америке, можно в Европе, и слышите, как переговариваются попугаи – один сидит на одном дереве, другой – на другом, и о чем-то они говорят. Вы ничего не понимаете, чувствуете себя дураком. Так вот занимается ли лингвистика изучением простейших языков как моделью человеческого языка?
Борис Долгин: Языков не человека?
Константин: Не человека, но как модель человеческого языка.
Владимир Селегей: Мне было бы нечестно давать какой-то долгий ответ, потому что я сам этой темой, безусловно, не занимаюсь, но я знаю коллег, которые этим занимаются. Лингвистика может заниматься любыми семиотическими системами и в этом смысле, если доказано, что язык попугаев является такой семиотической системой и это не просто пение, выражающее эмоции, скорее всего это так - это действительно система, ее можно изучать. Но, к сожалению, попугаи умеют очень плохо объяснять, что же они имели в виду. Я думаю, что когда мы их научим немножко нашему языку, мы сделаем и в изучении их языка большие успехи.
Борис Долгин: В качестве ссылки могу сказать, что у нас читала лекцию Светлана Бурлак. Уже после этого она написала достаточно большую книгу-обзор. Она занимается происхождением человеческого языка - в том числе в связке с проблемами языка животных. У нее очень хороший, масштабный обзор литературы по этой теме. Можно пройти по ссылкам на эту тему в ее большой книге и понять, чем еще занимается лингвистика.
01 октября 2012