Издание The New York Times Magazine опубликовало статью, в которой рассказывается, как «Google Переводчик» научился переводить почти как человек, что такое искусственный интеллект и при чем тут кошки и «Китайская комната». Редакция vc.ru публикует перевод статьи, выполненный создателем сообщества Newoчём Артёмом Слободчиковым.
Однажды поздней пятничной ночью в начале ноября Юн Рекимото, известный профессор в сфере взаимодействия человека с компьютером из Токийского университета, искал в сети материалы для лекции, как вдруг он заметил, что в социальных сетях стали появляться интересные публикации.
Судя по всему, «Google Переводчик», популярный сервис машинного перевода, внезапно и практически неизмеримо улучшился. Рекимото сам зашел на сайт переводчика и начал экспериментировать. Он был поражен. Давно пора было идти спать, но «Переводчик» крепко вцепился в его воображение.
Свои изыскания Рекимото описал в блоге. Сначала он взял несколько предложений из двух опубликованных версий «Великого Гэтсби», перевода Такаши Нозаки от 1957 года и более позднего варианта Харуки Мураками, и сравнил их с тем, как эти же предложения обработал «Google Переводчик».
Как потом объяснил мне в переписке Рекимото, перевод Мураками написан «на очень четком японском языке», но стиль у писателя всё равно достаточно сложный. Вариант Google, напротив, хоть и содержал некоторые «неестественные места», в целом был «более понятным».
Во второй половине поста Рекимото описывались способности сервиса в обратном переводе — с японского на английский. Профессор взял собственный перевод первого абзаца из «Снегов Килиманджаро» Хемингуэя, пропустил его через «Google Переводчик» и на выходе получил версию на английском. Рядом с ней он опубликовал оригинал Хемингуэя и предложил своим читателям угадать, какой из вариантов создала машина.
№ 1
Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai «Ngaje Ngai», the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.
№ 2
Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called «Ngaje Ngai» in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.
Перевод на русский (Н. А. Волжина):
Килиманджаро — покрытый вечными снегами горный массив высотой в 19710 футов, как говорят, высшая точка Африки. Племя масаи называет его западный пик «Нгайэ-Нгайя», что значит «Дом бога». Почти у самой вершины западного пика лежит иссохший мерзлый труп леопарда. Что понадобилось леопарду на такой высоте, никто объяснить не может.
Даже для носителя языка второй вариант выдаст только отсутствующий артикль про леопарда — именно эту версию создала машина. То, насколько эти два абзаца похожи, удивило Рекимото, прекрасно осведомленного о возможностях предыдущей версии сервиса. Всего за сутки до этого Google Translate перевел бы тот же самый фрагмент следующим образом:
Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west, «Ngaje Ngai» in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.( здесь очень много ошибок, начиная от в корне неверного словоупотребления и заканчивая ошибочными конструкциями — прим. переводчика).
Рекимото поделился своим открытием с сотней тысяч своих подписчиков в Twitter, и в течение нескольких часов люди публиковали собственные эксперименты с сервисом машинного перевода. Одни оказались успешными, другие же, наоборот, смешными. Когда над Токио встало солнце, «Google Переводчик» стал трендом № 1 в японском сегменте Twitter, обойдя культовое аниме и долгожданный сингл от девичьей группы. Чуть ли не каждый задавался вопросом: как «Google Переводчик» стал настолько искусным?
Четыре дня спустя несколько сотен журналистов, предпринимателей и рекламщиков со всех концов света собрались в лондонском офисе разработки Google, чтобы прослушать особое заявление. На входе гостей ждало печенье с предсказаниями с символикой «Google Переводчика». На одной стороне бумажки была фраза на иностранном языке — в моем случае, на норвежском, — а на другой предложение скачать приложение «Переводчика».
Столы были заставлены пончиками и смузи, при этом на каждом была этикетка с названием вкуса на немецком (zitrone), португальском (baunilha) или испанском (manzana). Спустя некоторое время всех попросили пройти в большой затемненный зал.
Сундар Пичаи, генеральный директор Google, рядом с его кабинетом в Маунтин-Вью, штат Калифорния. Фото: Брайан Финке для The New York Times.
Мэр Лондона Садик Хан вышел на сцену, чтобы произнести открывающую речь. Он начал вот с чего: друг недавно сравнил Садика с Google. «Это потому что у меня есть ответы на все вопросы?» — спросил мэр. «Нет, потому что ты всегда пытаешься закончить мои предложения», — ответил друг. Толпа вежливо посмеялась. В конце Хан пригласил на сцену генерального директора Google Сундара Пичаи.
Пичаи приехал в Лондон по двум причинам: чтобы открыть здесь новое здание Google, краеугольный камень нового строящегося «квартала знаний» на Кингс-кросс, и чтобы объявить о завершении начальной фазы трансформации компании, которую он анонсировал за год до этого.
Как несколько раз говорил Пичаи, в будущем Google «на первое место поставит ИИ». Теоретическое значение этих слов было сложно понять, так что пошли толки. На практике же это значило, что, если компании будет сопутствовать удача, скоро продукты Google перестанут быть результатом традиционного программирования — в их основу будет положено «машинное обучение».
Google Brain, особый отдел компании, был создан пять лет назад с таким руководящим принципом: искусственные нейросети, которые познают мир методом проб и ошибок как младенцы, в результате могут выработать у себя гибкость, присущую людям. Эта идея не нова — первые ее варианты появились еще в 1940 году, на заре современных вычислительных машин, — но на протяжении большей части истории почти все специалисты по вычислительным машинам считали ее весьма сомнительной, даже мифической.
Но с 2011 года Google Brain продемонстрировал, что его подход к изучению искусственного интеллекта может решить многие проблемы, которые не поддаются обычным методам. Распознавание речи работало так себе, пока Brain не занялся им вплотную — благодаря машинному обучению, распознавание речи на Android, мобильной платформе Google, едва не сравнилось с человеческим. То же самое произошло с распознаванием изображений. Менее года назад Brain впервые полностью пересобрал потребительский продукт, и в тот вечер мы праздновали его моментальный успех.
«Переводчик» появился в 2006 году и с тех пор стал одним из самых надежных и популярных активов Google; в месяц им пользуются более 500 миллионов человек, которые каждый день ищут перевод для 140 миллиардов слов на разных языках. Он существует не только как отдельное приложение — «Переводчик» интегрирован в Gmail, Chrome и многие другие продукты Google, где мы воспринимаем его как нечто само собой разумеющееся, отлаженную, естественную часть цифрового мира.
Как объяснил из-за кафедры Пичаи, только во время кризиса с беженцами в компании осознали геополитическое значение «Переводчика»: на экране за Сундаром появился график, демонстрирующий пятикратное увеличение количества переводов с арабского на немецкий и обратно. (Пичаи это было близко — он вырос в Индии, стране, разделенной десятками языковых барьеров.) Команда постоянно добавляла новые языки и функции, но улучшение качества перевода за последние четыре года изрядно замедлилось.
До сегодняшнего дня. В прошлые выходные «Переводчик» изменился: теперь большей частью его трафика занималась система, основанная на ИИ, причем не только в США, но и в Евразии. Обновление затронуло перевод между английским и испанским, французским, португальским, немецким, китайским, японским, корейским и турецким.
Остальные из примерно сотни языков «Переводчика» были на подходе, по плану их должны были добавлять по восемь в месяц до конца года. К приятному удивлению инженеров Google, новую инкарнацию сервиса удалось закончить за девять месяцев. Система с ИИ за вечер достигала улучшений, на которые старой версии понадобилась вся ее жизнь.
Пичаи любит странные отсылки к литературе. Месяц назад он в своем офисе в Маунтин-Вью сказал мне, что «Переводчик» существует отчасти потому, что не все могут, как физик Роберт Оппенгеймер, изучить санскрит, чтобы прочитать «Бхагават-гиту» в оригинале. В Лондоне на мониторах за его спиной мерцала цитата из Борхеса: «Uno no es lo que es por lo que escribe, sino por lo que ha leído».
Ухмыляясь, Пинчаи прочитал неуклюжий перевод этой фразы на английский, сделанный старой версией «Переводчика»: «One is not what is for what he writes, but for what he has read» («Одним из них является не то, что за то, что он пишет, но за то, что он прочитал»).
Справа был еще один перевод, сделанный новой версией с ИИ: «Ты — не то, что ты пишешь, но то, что ты прочел»
Ремарка была подходящая: новый «Google Переводчик» работал на первых машинах, которые в определенном смысле научились читать.
Решение Google о реорганизации вокруг ИИ было первым крупным проявлением одержимости машинным обучением, которая охватила всю индустрию. За последние четыре года крупные компании — Google, Facebook, Apple, Amazon, Microsoft и китайская фирма Baidu, помимо прочих, — вступили в борьбу за талантливых специалистов в сфере ИИ, особенно заметную в университетской среде.
Многие из лучших академиков ушли в корпорации за ресурсами и свободой. В Кремниевой долине притчей во языцех стало то, что Марк Цукерберг, генеральный директор Facebook, лично — по телефону и с помощью уговоров по видеочату — участвует в попытках его компании переманить лучших выпускников. Базовые семизначные зарплаты стали реальностью. Посещаемость на самых важных академических конференциях в этой сфере увеличилась чуть ли не в четыре раза. На кону не только частичная инновация в сфере, но контроль над тем, что вполне может стать совершенно новой вычислительной платформой: всепроникающим, живым искусственным интеллектом.
Смысл словосочетания «искусственный интеллект» кажется очевидным, однако его всегда воспринимали по-разному. Представьте, что вы перенеслись в семидесятые, остановили случайного прохожего и показали ему Google Maps. После того, как вы с трудом убедили бы его в том, что вы не странно одетый волшебник, а вещица, которую вы достали из кармана, — это не темный амулет, а небольшой компьютер, более мощный, чем тот, что управлял высадкой на Луне, Google Maps почти наверняка покажется ему истинным примером «искусственного интеллекта».
В каком-то смысле так и есть. Google Maps может совершать операции, доступные любому знакомому с картами человеку, например, подсказать путь от отеля до аэропорта, при этом более точно и надежно. Он также может делать то, на что люди неспособны по вполне очевидным причинам, например, оценивать трафик, прокладывать лучший маршрут и менять его на ходу, если вы не туда повернули.
Однако едва ли кто-нибудь сейчас употребит в отношении Google Maps почетную фразу «с использованием ИИ» — настолько сентиментальными и скупыми мы становимся, когда речь заходит о слове «интеллект». Мы думаем, что искусственный интеллект это то, что отличает HAL (ИИ из классического фильма «Космическая одиссея: 2001» Стенли Кубрика — прим. переводчика) от ткацкого станка или тачки.
Как только мы автоматизируем какую-нибудь задачу, мы обесцениваем необходимый для нее навык до уровня обычного механизма. Сейчас Google Maps выглядит скорее механистично, в худшем значении этого слова: сервис принимает конкретную команду (добраться из точки, А в точку Б) и пытается выполнить ее настолько эффективно, насколько это возможно. Таким образом, планка, после которой мы признаем наличие «искусственного интеллекта», постоянно отодвигается.
Когда у него есть возможность осторожно проводить границы между понятиями, Пичаи разводит в стороны ИИ в его текущем состоянии и финальный «общий искусственный интеллект». Общий искусственный интеллект не будет слепо следовать за инструкциями, вместо этого он будет наделен возможностью распознавать подтекст, интерпретировать. Он станет общим инструментом, созданным для выполнения множества целей в общем контексте.
Пичаи верит, что будущее его компании зависит от этой технологии. Представим, что вы сказали Google Maps следующее: «Я еду в аэропорт, но по пути мне надо купить подарок племяннику». Более интеллектуальная версия сервиса — своего рода помощник, вроде операционной системы с голосом Скарлетт Йоханссон из фильма Спайка Джонза «Она», — будет знать то, что знает, скажем, ваш близкий друг или прыткий стажер: возраст племянника, сумму, которую вы обычно тратите на подарки детям, местонахождение открытого магазина.
Но истинно интеллектуальные Google Maps также знают то, что неизвестно вашему другу, например, последние модные тенденции в детском саду племянника или, и это более важно, чего хотят пользователи сервиса. Если интеллектуальная машина сможет найти запутанные связи в данных о том, что мы делаем, она может быть вполне в состоянии экстраполировать их и выяснить, чего мы захотим в будущем, даже если мы сами этого не знаем.
Новые помощники, улучшенные с помощью ИИ, — Siri от Apple, M от Facebook, Echo от Amazon, — созданы с помощью машинного обучения, причем с похожими целями. Однако корпоративные мечтания о машинном обучении не исчерпываются прозорливыми потребительскими ассистентами.
Дочерняя компания Samsung, занимающаяся диагностической визуализацией, ранее в этом году заявила о том, что ее новые аппараты УЗИ могут обнаруживать рак груди. Консультанты по менеджменту из кожи вон лезут, чтобы подготовить руководителей к расширению поля применения самопрограммируемых компьютеров в производстве. AlphaGo от Deepmind, приобретение Google от 2014 года, победил гроссмейстера в древней настольной игре го, несмотря на предсказания о том, что на это понадобится еще десять лет.
В своем известном эссе 1950 года Алан Тьюринг предложил тест для общего искусственного интеллекта: за пять минут обмена текстовыми сообщениями компьютер должен успешно выдать себя за человека. Как только компьютер научится быстро переключаться между двумя языками, будет заложен фундамент для машины, которая однажды «поймет» человеческий язык настолько, что сможет вести правдоподобный диалог. Сотрудники Google Brain, которые участвовали в обновлении «Переводчика», верят, что такая машина сможет служить в качестве всеохватывающего личного ассистента, наделенного общим интеллектом.
Далее перед вами предстанет история того, как команда исследователей и инженеров Google — сначала один-два, затем три-четыре, а ближе к концу их стало больше сотни, — значительно продвинулись в этом направлении. Это во многом необычная история, не в последнюю очередь из-за того, что она опровергает многие привычные стереотипы Кремниевой долины.
В ней не нашлось места для людей, которые считают, что завтрашний мир будет радикально отличаться от сегодняшнего благодаря какому-нибудь неугомонному изобретателю из гаража. Речь также не пойдет о тех, кто верит в то, что технологии решат все наши проблемы, равно как и о тех, для кого технологии это обязательно путь к апокалипсису. О сломе старых парадигм не будет сказано ни слова.
Здесь будет не одна, а три пересекающиеся истории, которые в итоге приведут нас к успешной метаморфозе «Google Переводчика» — история техническая, институциональная и история об эволюции идей. В технической речь пойдет о команде, ответственной за один продукт в одной компании, и о процессе того, как они улучшали, тестировали и презентовали новейшую версию старого продукта — и все за вчетверо меньший объем времени, чем они рассчитывали.
Институциональная история расскажет о сотрудниках небольшой, но важной группы, занимающейся искусственным интеллектом, внутри той же компании, и о том, как их вера в старые, неподтвержденные и весьма неприятные идеи о компьютерах перевернула восприятие этой сферы во всех крупных компаниях. Героями истории об идеях станут ученые-когнитивисты, психологи и своенравные инженеры, которые долго и незаметно трудились, чтобы в итоге, руководствуясь своими, на первый взгляд, иррациональными убеждениями, перевернуть наше понимание не только технологий, но и, в теории, самого сознания.
Первая история, история о «Google Переводчике», описывает события, происходившие в Маунтин-Вью на протяжении девяти месяцев, и объясняет, как трансформировался машинный перевод. Местом действия второй истории Google Brain и множества его конкурентов, станет Кремниевая долина, и в ее конце вам станет ясно, как за пять лет изменилось все это сообщество.
Сюжет третьей истории, повести о глубоком обучении, описывающей семь десятилетий научного труда, будет прыгать через полмира от одной лаборатории к другой — из Шотландии в Швейцарию, затем в Японию, а потом надолго в Канаду — и, вполне возможно, станет еще одним шажком к переосмыслению того, как мы воспринимаем себя, существ, которые в первую очередь обладают интеллектом.
Все три истории рассказывают об искусственном интеллекте. Та, что охватывает 70 лет, демонстрирует, чего мы может ожидать или хотеть от него. Пятилетняя история касается того, что он сможет делать в ближайшем будущем. А девятимесячная покажет, на что он способен прямо сейчас. В совокупности они — лишь доказательная база для общей концепции. Ведь сейчас мы находимся в самом начале пути.
Часть I: Машина, которая учится
Рождение мозга
Джефф Дин, хотя формально он лишь старший научный сотрудник, де-факто является главой Google Brain. Дин — жилистый, энергичный мужчина с длинным прямым лицом и глубоко посаженными глазами, пышущий нешуточным энтузиазмом. Он родился в семье медицинского антрополога и эпидемиолога, и детство его прошло повсюду — в Миннесоте, на Гавайях, в Бостоне, Арканзасе, Женеве, Уганде, Сомали и Атланте.
В старшей школе и колледже Дин писал ПО для Всемирной организации здравоохранения. В Google он работает с 1999 года — Дин стал примерно 25-м сотрудником — и успел приложить руку к системам едва ли не каждого крупного прорыва компании.
В корпоративной культуре Google есть занятный артефакт под названием « Факты о Джеффе Дине», написанный в духе мемов о Чаке Норрисе: «PIN-код Джеффа Дина — это последние четыре цифры числа пи», «Когда Александр Белл изобрел телефон, он увидел пропущенный звонок от Джеффа Дина», «Джеффа Дина повысили до 11 уровня в системе, где уровней всего десять». (Кстати, последнее — чистая правда.)
Джефф Дин, инженер Google и предводитель Google Brain. Фото: Брайан Финке для The New York Times
Однажды в начале 2011 года Дин зашел в одну из «микрокухонь» кампуса Google — это «гугловское» словечко для общих пространств для отдыха, расположенных на большинстве этажей комплекса в Маунтин-Вью — и столкнулся с Эндрю Ыном, молодым стэнфордским профессором компьютерных наук, который работал в компании консультантом.
Ын рассказал ему о Project Marvin, внутреннем проекте (названном в честь пионера ИИ Марвина Мински), созданном недавно с его помощью, чтобы экспериментировать с «нейросетями», пластичными цифровыми решетками, отчасти основанными на архитектуре мозга. Сам Дин работал над примитивной версией этой технологии в 1990 году, когда работал в Университете Миннесоты — тогда этот метод вычислений ненадолго попал в мейнстрим. А теперь, за последние пять лет, количество академиков, работающих над нейросетями, снова начало расти и достигло нескольких десятков. Ын рассказал Дину о том, что Project Marvin, которым занималась лаборатория X (секретное подразделение Google), достиг многообещающих результатов.
Дин был настолько заинтригован, что решил потратить на проект свои «двадцать процентов» — часть рабочих часов, которые каждый сотрудник Google должен тратить на программы, не входящие в его базовую рутину. Вскоре он предложил Ыну привлечь к работе над Project Marvin еще одного коллегу, разбирающегося в нейронауке — Грега Коррадо. (Коррадо немного рассказывали о ней в магистратуре, но только с исторической точки зрения. «Хорошо, что я тогда внимательно слушал», — пошутил он, когда рассказывал мне об этом.) Поздней весной они пригласили одного из лучших выпускников Ына, Куока Ле, в качестве первого интерна в проекте. Именно тогда некоторые инженеры Google начали называть Project Marvin иначе: Google Brain.
С тех пор, как летом 1956 года на межинституциональной конвенции о сознании в Дартмуте родился термин «искусственный интеллект», большинство исследователей считали, что проще всего создать ИИ будет с помощью очень большой всеобъемлющей программы, которая включит в себя как законы логики, так и достаточный объем знаний о мире.
Например, если бы вы захотели перевести фразу с английского на японский, вам надо было бы запрограммировать всю английскую грамматику, затем все значения слов из «Оксфордского словаря английского языка», а также всю грамматику японского языка, и только потом ввести предложение на исходном языке, чтобы получить перевод на целевой язык в виде таблицы. Как бы сказал Борхес, вы дали бы машине языковую карту целых стран. Такой подход обычно называют «символическим ИИ», — потому что его процесс познания основан на формальной логике, — или «старым добрым ИИ», но с пренебрежением.
У старого доброго подхода есть две главные проблемы. Первая заключается в том, что для человека он сопряжен с ужасными временными затратами. А вторая связана с тем, что он работает только в сферах, законы которых крайне четко сформулированы, например, в математике или шахматах. Однако перевод являет собой пример сферы, в которой этот подход терпит унизительный крах, поскольку слова нельзя свести к их словарным значениям, а также потому что в языках исключений бывает не меньше, чем правил.
Системы, построенные на формальной логике, склонны переводить «министра сельского хозяйства» как «жреца фермерского дела». Но в математике и шахматах такой подход работал прекрасно, и сторонники символического ИИ считали, что нет лучших сфер для демонстрации «общего интеллекта».
Выше — фрагмент документального фильма 1961 года, рассказывающего о предпосылках исследований в области искусственного интеллекта. Если вы сможете запрограммировать компьютер на повторение сложных мыслительных задач вроде математических уравнений и шахмат, в конце концов вы сможете создать нечто похожее на сознание. Видео загружено на YouTube Роберто Пьераччини.
Однако у такой системы есть ограничения. В восьмидесятых исследователь в сфере робототехники в Университете Карнеги — Меллон заметил, что компьютеры легко было запрограммировать делать то, на что способен взрослый, однако им были практически недоступны действия, которые легко выполняет любой ребенок, например, подержать мячик или распознать кошку. К началу девяностых, если не учитывать унизительный для человека прогресс в компьютерных шахматах, мы даже близко не подошли к общему искусственному интеллекту.
Но всегда было еще одно видение ИИ, противоречащее общепринятому. Согласно ему, компьютерам стоит учиться снизу вверх (на данных), а не сверху вниз (на законах). Эта идея появилась в начале 1940-х, когда исследователи поняли, что лучшая модель гибкого автоматизированного интеллекта — это сам мозг.
В конце концов, мозг — это лишь множество штучек под названием нейроны, которые либо передают электрический заряд свои соседям, либо нет. Важны не сами нейроны, а многообразие связей между ними. Благодаря такой структуре во всей ее простоте у мозга появились адаптивные преимущества.
Мозг может работать, когда информации мало или вовсе нет, он может выдержать серьезный ущерб, не потеряв контроль, очень эффективно хранить огромные массивы знаний, выделять определенные взаимосвязи, но сохранять при этом хаотичность, чтобы справляться с двусмысленными и неопределенными данными.
Не было причин не пытаться повторить эту структуру в электронном виде, и в 1943 году продемонстрировали, что цепочки из простых искусственных нейронов могут выполнять базовые логические функции. Также, в теории, они могут учиться так, как учимся мы.
На протяжении жизни в зависимости от проб и ошибок определенного человека синаптические соединения между парами нейронов становятся сильнее или ослабевают. Искусственная нейросеть способна на нечто подобное, если постепенно, руководствуясь методом проб и ошибок, и под присмотром повторить цифровые взаимоотношения между искусственными нейронами. В нее не надо будет заранее закладывать жесткие правила. Вместо этого она сама будет меняться, чтобы отражать взаимосвязи в поглощаемых данных.
Этот подход к искусственному интеллекту был скорее эволюционным, а не креационистским. Если вам нужен гибкий механизм, то вы выберете тот, который умеет адаптироваться к окружающей среде. Если вы хотите создать то, что умеет адаптироваться, вы не будете изначально обременять его правилами шахмат. Наоборот, стоит начать с самых базовых способностей — чувственного восприятия и управления моторикой, — надеясь, что более сложные навыки разовьются сами собой. Люди ведь не учатся понимать язык, выучивая наизусть словари и учебники по грамматике, так зачем же нам заставлять компьютеры это делать?
Google Brain стал первым крупным коммерческим институтом, направленным на изучение возможностей, заложенных в такой подход к работе с ИИ. Поначалу Дин, Коррадо и Ын работали над проектом немного — для них это был скорее совместный эксперимент. Однако процесс пошел незамедлительно.
За основу для архитектуры своих моделей они взяли последние теоретические принципы, а также идеи, лежащие на полке с восьмидесятых и девяностых, и использовали для их реализации ни с чем не сравнимые банки данных компании и ее огромную вычислительную инфраструктуру. Они давали сетям колоссальные объемы размеченных данных — записи голоса с корректной расшифровкой, например, — а компьютеры улучшали свои реакции, чтобы они лучше соответствовали реальному положению дел.
«Та часть эволюции, когда у животных развились глаза, стала серьезным прорывом», — однажды сказал мне Дин. Он любит все преуменьшать. Мы как обычно сидели в комнате для переговоров с маркерной доской, на которой он начертил изогнутый таймлайн с множеством пометок, отражающий развитие Google Brain и его связь с переломными моментами в современной истории нейросетей.
«Теперь у компьютеров есть глаза. Мы можем создать их на основе уже существующих возможностей, чтобы машины могли понимать фотографии. Роботы кардинально изменятся. Они смогут работать в незнакомой среде и над очень разнообразными проблемами». Эти способности могут показаться примитивными, но применений для них невероятно много.
Джоффри Хинтон в офисе Google в Торонто. Его идеи помогли заложить основу для нейросетевого подхода к работе «Google Переводчика». Фото: Брайан Финке для The New York Times
Неожиданный стажер
В первый год существования Brain эксперименты по созданию машины со способностями годовалого ребенка — так выразился Дин, — шли прекрасно. Их команда по распознаванию речи поменяла часть своей старой системы на нейросеть, и в результате качество работы выросло так, как не вырастало за 20 лет. Способность системы распознавать объекты увеличилась соразмерно. Это случилось не потому, что за год люди из Brain сгенерировали кучу революционных идей. Все дело в том, что Google наконец-то выделила ресурсы — компьютерные и человеческие, — чтобы заполнить пробелы, пустовавшие уже давно.
Значительная часть этих как отмерших, так и поныне актуальных воззрений, была либо придумана, либо отточена англичанином-эрудитом Джоффри Хинтоном, в чем-то похожем на Аристотеля. На второй год существования Brain Хинтона пригласили туда в связи с уходом Эндрю Ына. (Сейчас Ын работает в Baidu, возглавляет команду по искусственному интеллекту численностью в 1300 человек).
Хинтон хотел оставить свой пост в Университете Торонто всего на три месяца, так что по странным бюрократическим причинам его пришлось нанимать в качестве стажера. На тренингах для стажеров ориентационный лидер говорил что-нибудь вроде: «Введите свой LDAP», — то есть логин, — а Хинтон поднимал руку с вопросом «Что такое LDAP?» Все молодые люди в аудитории, которые про глубокое обучение знали только то, что это обязательная часть искусственного интеллекта, начинали шушукаться: «Кто этот старик? Почему он этого не понимает?»
«Во время обеденного перерыва кто-то из очереди крикнул: "Профессор Хинтон! Я на ваш курс записался! Что вы тут делаете?". В остальном было неплохо», — вспоминает Хинтон. Несколько месяцев спустя Хинтон и два его студента продемонстрировали поразительные результаты в крупном конкурсе по распознаванию изображения, который проводил коллектив под названием ImageNet, работающий над open-source-проектами
Им надо было не только научить компьютер находить на картинке обезьяну, но и отличать паукообразную обезьяну от ревуна и бесчисленного множества пород кошек. Вскоре Google связалась с Хинтоном и его студентами и сделала им предложение. Они согласились. «Я думал, их интересует наша интеллектуальная собственность. Оказалось, что им были нужны мы», — рассказывает он.
Хинтон происходит из одной из этих старых британских династий вроде Дарвинов, причудливо разбросанной по интеллектуальному пространству, член которой вне зависимости от должности обязан внести хотя бы минимальный вклад в решение небольших проблем астрономии или гидрогазодинамики.
Его пра-прадедом был Джордж Буль, который своими фундаментальными работами по символической логике обеспечил появление компьютера. Другой пра-прадед был известным хирургом, отец — азартным энтомологом, его двоюродный брат по линии отца — ученый в Лос Аламосе.
Этот список можно продолжать долго. Хинтон учился в Кэмбридже и Эдинбурге, затем в Университете Карнеги — Меллон, после чего оказался в Торонто, где до сих пор проводит половину своего времени. (Правительство Канады давно и щедро поддерживает его работу.)
Я встретился с ним в канадском офисе Google. Его взъерошенные желто-оловянные волосы были уложены в духе взрослого Ноэля Галлахера, а носил он мешковатую полосатую рубашку, которая так и норовила вылезти из-за ремня, и овальные очки, то и дело сползавшие на кончик его выдающегося носа. Хинтон сыплет энергичными, если не беспорядочными остротами вроде «Компьютеры начнут понимать сарказм раньше американцев».
Хинтон работал над нейросетями еще с конца шестидесятых, когда учился в Кэмбридже. В индустрии он считается своего рода ее интеллектуальным прародителем. По большей части, когда раньше Хинтон заводил речь о машинном обучении, остальные смотрели на него так, будто он приводит аргументы в пользу гелиоцентрической системы мира или кровопускания пиявками.
Люди воспринимали нейросети как уже опровергнутую глупую идею, во многом из-за одного слишком переоцененного проекта: «Перцептрона», модели искусственной нейросети, которую в 1950-х разработал Фрэнк Розенблат, психолог из Корнеллского университета. Газета The New York Times писала о том, что ВВС США, спонсировавшие создание машины, полагали, что она «будет способна ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование». В общем и целом, ничего из этого не было достигнуто.
Марвин Мински, отец искусственного интеллекта в Америке, работал над нейросетями в 1954 году для диссертации, но затем его утомили раздутые обещания, которыми разбрасывался Розенблат — он в то время работал в Высшей научной школе Бронкса. (Марвин также конкурировал с ним за финансирование от Министерства обороны.) Мински вместе с коллегой из MIT опубликовал книгу, продемонстрировавшую, что есть до боли простые проблемы, которые «Перцептрон» решить не способен.
Мински в своей критике «Перцептрона» коснулся только однослойных сетей — такие сети обрабатывают введенную в машину информацию только одним набором искусственных нейронов.Позже Мински стал продвигать идеи, весьма сходные с теми, на которых основывалось современное ему глубокое обучение. Но Хинтон уже тогда знал, что нейросеть сможет справиться со сложными задачами, если будет состоять из множества слоев.
Самое простое описание нейросети таково: это машина, которая выдает предсказания или классификации, основываясь на ее способности находить взаимосвязи в данных. Если слой один, то вы можете найти лишь простые взаимосвязи. А когда слоев много, можно искать взаимосвязи между взаимосвязями.
Возьмем, к примеру, распознавание изображений, которое основано на хитром изобретении под названием «свёрточная нейронная сеть». (Оно было описано в эпохальном научном труде 1998 года, автор которого, француз по имени Ян Лекун, после защиты докторской работал в Торонто под началом Хинтона, а сейчас возглавляет серьезную инициативу по развитию ИИ в Facebook.)
Первый слой сети учится идентифицировать самый базовый визуальный объект — «грань», то есть ничего (погасший пиксель), после которого идет что-то (активный пиксель) или наоборот. Каждый последующий слой сети ищет взаимосвязи в предыдущем. Так, цепочка из граней может составить круг или квадрат. А несколько кругов или квадратов могут быть лицом. И так далее.
Это более или менее напоминает то, как мозг по кусочкам собирает информацию, поступившую в визуальную кору от фоторецепторов на радужной оболочке глаза. На каждом шаге ненужные детали отбрасываются. Если несколько граней и кругов формируют лицо, вам не особенно важно, где в визуальном поле это лицо находится; для вас важно, что это именно лицо.
Видео выше — демонстрация с показа ранней версии свёрточной нейронной сети Яна Лекуна в 1993 году. К концу девяностых она обрабатывала 10–20% всех чеков в США. Большинство современных систем распознавания изображения работают на похожей технологии. Видео загружено на YouTube Яном Лекуном.
Проблема с многослойными глубокими нейросетями заключалась в том, что для них метод проб и ошибок значительно усложнялся. Для одного слоя все просто. Представьте, что вы играете с ребенком и говорите ему: «Подними зеленый мячик и положи его в ящик А». После чего ребенок берет зеленый мячик и отправляет его в ящик B. Вы говорите: «Давай еще раз, положи зеленый мячик в ящик А». Ребенок выбирает правильный ящик. Браво.
Теперь представьте, что вы говорите ребенку: «Возьми зеленый мячик, открой дверь номер три и положи зеленый мячик в ящик А». А он берет красный мяч, проходит через дверь номер два и кладет его в ящик B. С чего начать объяснения? Нельзя просто повторить изначальные инструкции, ведь ребенок не знает, в какой момент он сделал неверный выбор.
В реальности вам пришлось бы сначала взять два мяча и сказать: «Смотри, этот красный, а этот зеленый». Однако весь смысл машинного обучения заключается в том, чтобы избежать таких конкретных объяснений. В семидесятых и восьмидесятых Хинтон и еще кое-кто нашли решение (точнее, переизобрели старое) этой проблемы с множеством слоев, и в ученых снова загорелся интерес к нейросетям. «Людям очень понравилась наша идея. Но мы ее переоценили», — вспоминает Хинтон. Ученые быстро вернулись к своему прежнему мнению — Хинтона и людей вроде него снова стали считать чудаками и визионерами.
Однако их идеи сохранили популярность среди философов и психологов, которые назвали их «коннекционизмом» или «параллельной распределенной обработкой». «Приятно, конечно, думать, что мы были немногочисленной группой, стойко несущей факел знания. В сфере искусственного интеллекта так и было. Но в психологии многие верили в наш подход, просто не могли его проверить», — рассказывает Хинтон. Он тоже не мог, несмотря на всю щедрость канадского правительства. «Нам не хватало вычислительных мощностей или объемов данных. Люди из наших все время говорили: «Ах, если бы у меня всего этого было много, то нейросеть обязательно заработала бы». Не самый убедительный аргумент».
Глубокое объяснение глубокого обучения
Когда Пичаи заявил, что Google теперь «на первое место поставит ИИ», он не просто объявил о новой бизнес-стратегии — Пичаи многое поставил на эту далеко не самую отлаженную идею. Он перераспределил ресурсы так, чтобы люди вроде Дина обеспечили людей вроде Хинтона достаточным объемом данных и вычислительных мощностей, чтобы у тех появилась возможность предоставить убедительные аргументы.
Средний мозг состоит из примерно 100 миллиардов нейронов. Каждый нейрон обладает до 10 тысяч соединений с другими нейронами, то есть синапсов всего от 100 до 1000 триллионов. Простейшие искусственные нейросети сороковых годов на такое были в принципе не способны.
Мы все еще далеки от создания столь масштабных нейросетей, но достижения Google Brain позволили ученым создать искусственные нейросети, сравнимые с мозгом крысы
Однако чтобы понять, почему масштаб так важен, нужно объяснить некоторые технические детали того, что же машинный интеллект делает с полученными данными. Во многом наша смутная боязнь ИИ связана с тем, что нам он кажется кем-то вроде гения-социопата в библиотеке, впитывающего знания как губка, и что однажды искусственный интеллект, созданный для производства зажимов для бумаги, решит, что люди это не более, чем насекомые.
На самом деле все работает совершенно по-другому. ИИ только и делает, что прочесывает информацию в поисках связанных элементов — сначала базовых взаимосвязей, затем более сложных, — и пока что наибольшую угрозу представляют ошибки в изначальной информации, которую мы ему даем.
Если вам хватило этого краткого объяснения, можете перейти к следующей части текста, в которой речь пойдет о кошках. В противном случае, читайте далее. (К счастью, эта часть тоже о кошках.)
Представьте, что вам надо запрограммировать распознаватель кошек на базе старой символической модели. Вы днями загружаете в машину максимально исчерпывающее и конкретное описание понятия «кошка». Вы объясняете ИИ, что у кошки четыре лапы, острые ушки, усы, хвост и так далее. Вся эта информация хранится на определенном участке памяти машины, маркированном «Кошка».
Теперь вы показываете ИИ картинку. Сначала ему нужно разобрать изображение на элементы. Затем он берет эти элементы и применяет к ним правила, сохраненные в его памяти. Если (лапы = 4), если (ушки = острые), если (усы = есть), если (хвост = имеется) и если (поведение = надменное), то (кошка = в наличии).
Но что, если показать нашему распознавателю кошек печальную шотландскую вислоухую породу с известным генетическим дефектом, из-за которого их ушки свисают вниз? Наш символический ИИ дойдет до (ушки = острые), потрясет головой и скажет: «Не кошка». Он воспримет задачу чрезвычайно дословно. Даже самый глупый младенец способен на гораздо более сложные умозаключения.
Теперь представьте, что вместо закладывания в машину жестких правил классификации, хранящихся в ячейке памяти, вы решаете опробовать тот же подход на нейросети. Вот только в ней негде хранить понятие «кошка». Есть лишь гигантский пузырь из взаимосвязанных переключателей вроде дорожных развилок.
С одной стороны пузыря вы вводите данные (изображения), с другой — получаете ответ (маркировку). Затем вы даете нейросети работать самостоятельно, и она начинает индивидуально настраивать каждый из этих переключателей на пути, который должна проделать информация, чтобы входящие данные соответствовали результату.
В ходе подготовки к этому в пузыре создаются сложные лабиринтоподобные тоннели, связывающие любые входящие данные с корректными результатами. Чем больше у вас данных для тренировки, тем более многочисленные и сложные тоннели можно проложить. Как только подготовка будет завершена, в пузыре будет достаточно тоннелей, чтобы выносить надежные суждения о том, что делать с невиданными ранее данными. Это называется «контролируемое обучение».
Нейросети нужно много нейронов и данных, потому что механизм ее работы в чем-то смахивает на огромную демократию. Представьте, что вы хотите научить компьютер различать пять разных вещей. Ваша нейросеть состоит из миллионов «нейроизбирателей», каждому из которых дали бюллетень с пятью строчками: кошка, собака, паукообразная обезьяна, ложка и дефибриллятор.
Вы показываете вашему электорату изображение и спрашиваете: «Это кошка, собака, паукообразная обезьяна, ложка или дефибриллятор?». Все нейроны делятся на группы в зависимости от того, за кого они проголосовали, после чего глава избирательного комитета смотрит, что выбрало большинство, и осторожно вопрошает: «Собака?».
«Нет, маэстро, это кошка. Давай по новой», — отвечаете вы
Тогда глава комитета выясняет, кто проголосовал за вариант «кошка», а кто нет. В следующий раз количество голосов тех, кто выбрал правильно, будет подсчитано в двойном размере, — по крайней мере, когда они проголосуют за «кошку».
Также каждому из них придется отдельно доказывать, что они умеют идентифицировать собак и дефибрилляторы, но гибкой нейросеть делает то, что каждое ее звено может вносить отдельную лепту в решение каждой отдельной задачи. Важны не индивидуальные голоса, а взаимосвязи из них.
Если Джо, Фрэнк и Мэри голосуют вместе, они выбирают собаку, но если Джо голосует с Кейт и Джессикой, то они решают, что на картинке кошка. Если же Кейт, Джессика и Фрэнк соберутся вместе, то решат, что на ней дефибриллятор. Нейросети нужно лишь зарегистрировать достаточное количество регулярно появляющихся сигналов, чтобы решить: «Судя по всему, конкретно это скопление пикселей демонстрирует то, что люди называют "кошка"».
Чем больше у вас «избирателей» и чем чаще они голосуют, тем более живо нейросеть регистрирует даже самые слабые сигналы. Если у вас есть только Джо, Фрэнк и Мэри, вы можете использовать их только чтобы выбрать между кошкой, собакой и дефибриллятором. А если у вас есть миллион разных избирателей, которые могут собираться в миллиарды вариантов групп, вы можете научиться классифицировать данные с невероятной точностью. Ваш натренированный электорат будет способен взглянуть на немаркированное изображение и более-менее точно его идентифицировать.
Этим идеям так противились в компьютерных науках отчасти потому, что итоговый результат будет основан на взаимосвязях взаимосвязей, он не будет идеален, а машина никогда не выучит определение кошки. Она просто узнает ее из тысячи. В этом весь смысл.
«Нейроизбиратели» отличат радостного котика, спящего на солнышке, от злого, выглядывающего из тьмы грязной мусорки, если показать им миллионы разных ситуаций с кошками. Вам нужно лишь собрать очень много избирателей, чтобы быть уверенными в том, что на каждую из слабых закономерностей вроде шотландской вислоухой с ее печальными ушами будет приходиться хоть какая-то часть вашей сети. Также вам нужно достаточно маркированных данных, чтобы ваша нейросеть повидала как можно больше возможных вариаций феномена.
Однако важно заметить, что из-за вероятностной природы нейросетей они подходят не для каждой задачи. Нет ничего страшного в том, чтобы определить 1% кошек как собак или отправить вас не на тот фильм, но когда дело доходит до чего-нибудь вроде самоуправляемых машин, мы не хотим рисковать.
Причем это не единственный нюанс. Контролируемое обучение — это метод проб и ошибок, подкрепленный маркированными данными. Машина, может, и учится, но человек сильно влияет на категоризацию исходных данных. Если среди них была фотография мужчины и женщины в костюмах, которую кто-то пометил как «женщина и ее начальник», это будет закодировано во все будущее распознавание взаимосвязей.
Следовательно, маркированные данные могут быть ошибочными, если люди неправильно их пометят. Если попросить машину выбрать подходящих кандидатов для выдачи займа, она может обратиться к данным вроде истории судимостей, но если эти данные изначально были неверными — например, основанными на дискриминационном антинаркотическом законодательстве, — рекомендации по займам тоже будут ошибочными.
Системы распознавания изображений вроде нашего идентификатора кошек — это лишь один из множества вариантов глубокого обучения, однако их постоянно используют как пример, потому что каждый слой делает то, что человек может хоть как-то понять — сначала идет поиск граней, затем кругов, а потом лиц. Значит, от ошибок можно защититься.
Например, из-за одного странного упущения ранняя версия программы распознавания изображения от Google не всегда могла правильно идентифицировать отдельную гантель, несмотря на то, что разработчики учили ее на комплексе изображений, включавших множество тренировочных снарядов.
Инструмент визуализации показал им, что машина выучила не концепцию «гантель», а концепцию «гантель + рука», потому что все гантели на тренировочных изображениях находились в руках. Разработчики показали машине немного отдельных гантель. Проблема была решена. Но не все так просто.
Научная работа о кошках
Когда с момента создания Brain прошло один-два года, усилия его ученых по наделению машин навыками однолетнего ребенка оказались достаточно успешными, чтобы команду выделили из лаборатории X и сделали частью более масштабной исследовательской организации (Глава Google X однажды сказал, что Brain окупал все траты его подразделения).
В Brain все еще работало меньше десяти человек, и они лишь в общих чертах понимали, к чему ведет их работа. Но даже тогда они думали на несколько ходов вперед. Сначала человеческий мозг учится узнавать мячик и некоторое время почивает на лаврах, но рано или поздно он захочет попросить дать ему мячик. Тогда появляется язык.
Первым шагом в этом направлении стала научная работа о кошках, которая прославила Brain. Научная работа о кошках продемонстрировала нейросеть с более чем миллиардом «синапсов», — она была в сто раз больше любой известной на тот момент нейросети, но все равно даже рядом с человеческим мозгом не стояла, — способную принять сырые немаркированные данные и вычленить из них человеческий концепт высокого порядка.
Исследователи из Brain показывали нейросети миллионы кадров из роликов с YouTube, после чего она выделила из этой мешанины то, что любой младенец или мартышка, не колеблясь, идентифицировали бы как кошачью мордочку. В машину не была заранее запрограммирована информация о кошачьих мордочках. Нейросеть вышла в мир и сама нашла для себя данные. (Исследователи выяснили это с помощью нейросетевого эквивалента МРТ, который показал, что за призрачную кошачью мордочку искусственные нейроны «голосовали» с большим энтузиазмом).
На тот момент почти все машинное обучение было ограничено параметрами маркированных данных. Научная работа о кошках показала, что машины могут обрабатывать сырые немаркированные данные, возможно, даже те, о которых люди не знали заранее. Это был серьезный прорыв не только в опытах по распознаванию кошек, но и в целом для искусственного интеллекта.
Ведущим автором работы о кошках был Куок Ле. Ле — человек небольшого роста, тонкий, словно тростник. Говорит он мягко, при этом на его лице часто мелькает загадочная улыбка. Из обуви Ле предпочитает пенни-лоферы (плоские школьные ботинки, в язычках которых есть отверстия, где можно было спрятать монетку в один пенни — прим. переводчика).
Он вырос в предместьях вьетнамского города Хюэ, где его родители выращивали рис. Дома у него не было даже электричества. Он с ранних лет обладал способностями к математике, так что его отправили в школу с углубленным изучением естественных наук. В конце девяностых, когда он все еще учился в школе, Ле решил создать чатбота. В конце концов, разве это сложно, думал он.
«На самом деле, очень», — сказал он мне с каменным выражением лица
Он покинул рисовые поля, чтобы стать студентом в австралийском Университете Канберры, где работал над связанными с ИИ задачами вроде компьютерного зрения. Самый распространенный тогда метод, связанный с вводом в машину понятий вроде «грань», показался ему обманом.
Тогда Ле не знал — или знал, но лишь смутно, — что в сфере вычислительной техники есть еще пара десятков ученых, которые мечтали о том, что машины смогут учиться с нуля. В 2006 году Ле взяли в Институт биологической кибернетики «Общества Макса Планка» в средневековом немецком городе Тюбингене. Там он прочел две новые работы Джоффри Хинтона. У каждого, кто пришел в эту сферу, изрядно побродив по свету, есть своя история — и когда Ле прочитал эти работы, он почувствовал, как с его глаз спала пелена.
«Споры шли нешуточные. Очень даже», — вспоминал он. Мы сидели в небольшой комнате для встреч, прямой, с высокими потолками. В ней был лишь небольшой стол и две маркерные доски. Он взглянул на кривую, которую начертил на доске за собой, затем снова на меня и мягко заключил: «Таких споров я никогда не видел».
Ле помнит, как однажды в группе для чтения он встал и заявил: «За этим будущее». По его словам, «в те времена это было непопулярное мнение». Его бывший руководитель из Австралии, с которым Ле сохранил теплые отношения, не мог понять его решения. «Почему ты выбираешь именно это?» — спросил он Ле в электронном письме.
«Тогда мне нечего было ответить. Мной руководило любопытство. Уже была успешная парадигма, но, честно говоря, меня просто заинтересовала новая. В 2006 году в этой сфере мало что происходило», — рассказывает Ле. Он присоединился к Ыну в Стэнфорде и начал следовать идеям Хинтона. «К концу 2010 года я уже был уверен в том, что скоро все изменится».
Вскоре после этого Ле стал первым стажером Brain, где он написал свою диссертацию, — расширенная версия которой в итоге стала той самой работой о кошках. Простыми словами, Ле хотел выяснить, можно ли научить компьютер самостоятельно идентифицировать информацию, совершенно определенно относящуюся к данному изображению.
Он дал нейросети кадр одного видео с YouTube. Затем он приказал ей отбросить некоторую информацию, содержащуюся в изображении, при этом не указывая какую конкретно. Машина выполнила его команду, руководствуясь случайными критериями. А потом он сказал: «Шутка! Теперь воссоздай изначальное изображение, основываясь только на оставшейся информации».
Он словно просил машину сделать обобщение изображения, а потом расширить его до оригинала. Если бы обобщение основывалось на несущественных данных, — например, на цвете неба вместо наличия усов, — нейросеть не смогла бы правильно реконструировать изображение. Она напоминала бы пещерного человека, который из своей короткой встречи с саблезубым тигром запомнил только то, что зверь двигается с мягким шелестом.
В отличие от пещерного человека, у нейросети Ле было много попыток. Во время каждой из них она математически «давала» высочайший приоритет разным фрагментам информации и, с течением времени, у нее получалось все лучше. Однако логика нейросети была неясна. Она различала взаимосвязи, но для человеческого наблюдателя в них не всегда был смысл. Та же нейросеть, которая научилась так ловко находить наш концепт кошки, с энтузиазмом бралась за мешанину из кусков животных и мебели вроде козы, скрещенной с пуфиком для ног.
В те кошачьи времена Ле не считал себя лингвистом, однако он почувствовал стремление соединить свою текущую работу с его ранними трудами над чатботом. После написания работы о кошках он понял, что если можно попросить нейросеть обобщить изображение, то же самое можно сделать с фразой. Этот вопрос занял все внимание Ле и Томаса Миколова, его коллеги по Brain, на следующие два года.
Тогда Brain вырос из своих небольших офисов. Команда некоторое время занимала помещения на одном этаже с топ-менеджерами. Однажды им пришло сообщение от администратора, в котором тот просил перестать спать на диванах перед кабинетами Ларри Пейджа и Сергея Брина — это волновало важных клиентов.
Затем Brain перевели в строение для исследователей через дорогу, где менеджеры не вклинивались бы в беседы команды на микрокухне. Примерно в то же время подтянулись конкуренты Google. (Когда Ле рассказывал мне о том, как тесно работал с Томасом Миколовым, он постоянно повторял имя Миколова, причем это вроде бы было для него неприятно. Я никогда не видел Ле таким напыщенным. В итоге я не выдержал и, стоило мне произнести начало вопроса «Так он… ?», как Ле кивнул. «В Facebook», — ответил он.)
В те времена они работали над архитектурами нейросетей, способными классифицировать не только статичные фотографии, но и сложные структуры, разворачивающиеся с течением времени, вроде языка или музыки. Многие из них были предложены еще в девяностых годах, и Ле с коллегами вернулся к этим проигнорированным идеям.
Они понимали, что стоит создать структуру, способную на базовые лингвистические предсказания, на ее фундаменте можно будет построить множество разных вещей — например, инструмент для предсказания подходящего ответа на электронное письмо или разумного течения беседы. Можно было создать машину, которая, пускай только со стороны, но была способна на нечто, очень похожее на мышление.
Часть II: Лингвистическая машина
Языковой переворот
Вскоре количество сотрудников Brain приблизилось к сотне. Мало кто из персонала Google мог сравниться с ними по степени свободы и популярности. Brain зачастую похож не на отдел в огромной корпоративной иерархии, а скорее на клуб, ученое сообщество или межгалактический бар.
Сейчас команда занимает двухэтажное здание цвета яичной скорлупы с большими, угрожающе угольно-серыми окнами в северо-западном конце главного кампуса в Маунтин-Вью. На их микрокухне есть настольный футбол, которым на моей памяти не пользовались ни разу, набор для Rock Band, в который никто при мне не играл, и комплект го, который немного более популярен по сравнению с остальными развлечениями.
Когда в июне я только начал посещать офис Brain, там были ряды из пустых столов, при этом большинство из них было помечено бумажками с надписями вроде «Джесси, 27.6». Сейчас они все заняты. Когда я впервые к ним приехал, место для парковки найти было легко. Ближайшие к входу места были зарезервированы для мам или владельцев Tesla, остальное же пространство было свободно. Но если в октябре я приезжал позже 9:30, мне приходилось парковаться через улицу.
Из-за роста Brain Дин начал нервничать о том, как же компания будет справляться с возникшим спросом. Он хотел избежать того, что в Google называли «катастрофой успеха» — это ситуация, когда теоретические способности компании опережали ее возможности по применению достижений на практике. Однажды он кое-что посчитал на салфетке, а потом ознакомил руководителей с результатами в ходе короткой презентации.
«Если в будущем каждый человек будет говорить с их телефоном на Android по три минуты в день, вот сколько машин нам понадобится», — показал он им. Google пришлось бы усилить ее глобальную инфраструктуру в два или три раза. «И это, — произнес он с театральной паузой и расширенными глазами, — прозвучало пугающе. Нам бы пришлось — он замер, представляя последствия, — строить новые здания».
Однако был и другой вариант: разработать, произвести и установить новые, более быстрые процессоры во все дата-центры. Их назовут TPU или «тензорные блоки обработки данных» (tensor processing units), а весь их смысл заключается в том что они — и это не особенно очевидно — менее точны по сравнению с обычными процессорами.
Вместо того, чтобы вычислять, сколько будет 12,246 умножить на 54,392, они выдадут поверхностный результат 12, умноженных на 54. На математическом, а не метафорическом уровне, нейросеть — это лишь структурированная серия из сотен тысяч или десятков тысяч матричных умножений, производимых по очереди, и гораздо важнее выполнять эти вычисления быстро, а не точно. «Обычно железо, заточенное под конкретную цель, это плохая идея. Но так как нейросети можно было применять для решения множества задач, то и железо это становилось многофункциональным», — вспоминает Дин.
Когда разработка процессора почти завершилась, Ле с двумя коллегами, наконец, показал, что нейросети можно сконфигурировать так, чтобы они могли взаимодействовать со структурой языка. За основу он взял концепцию под названием «встраивание слов», которая на тот момент существовала уже более десяти лет.
Когда вы обобщаете изображения, вы можете предугадать, каким будет результат каждого этапа — сначала грань, потом круг и так далее. Когда вы по похожему принципу обобщаете язык, вы создаете многофакторные модели родства между всеми словами, основываясь на их общепринятом употреблении. Машина не «анализирует» данные так, как могли бы мы, вооружившись лингвистическими нормами, чтобы идентифицировать некоторые слова как существительные, а другие как глаголы. Вместо этого она по-разному переиначивает слова по всей модели.
Если измерений всего два, такая модель будет бесполезна. Например, вы хотите, чтобы «кошка» была где-то неподалеку от «собаки», но в то же время рядом с «хвостом», «надменностью» и «мемами», потому что нужно отразить все взаимоотношения слова «кошка» с остальными, как сильные, так и слабые.
Оно может быть связано со всеми этими словами одновременно, только если связи проходят в разных измерениях. 160 000-факторную модель построить непросто, но, как выяснилось, язык можно спокойно представить всего примерно в тысяче измерений — другими словами, в виде вселенной, где каждое слово снабжено списком с тысячей чисел.
Ле по-доброму отчитал меня за то, что я постоянно просил его описать эти модели словами. «Гидеон, мне не очень нравится визуализировать тысячефакторные модели в пространстве из трех измерений», — сказал он с мягким протестом в голосе как у Бартлби (отсылка к повести Германа Мелвилла «Писец Бартлби» — прим. переводчика).
И все же оказалось, что определенные измерения в модели отражали нормальные человеческие категории вроде пола или размера. Если бы вы взяли тысячу чисел, означающих «король» и буквально вычли бы из них тысячу чисел со значением «королева», то у вас получился бы результат, равный вычитанию чисел-«женщин» из чисел-«мужчин».
А если взять полную модель английского языка и полную модель французского, то, по крайней мере в теории, можно научить нейросеть брать предложение из одной модели и предлагать эквивалент в другой. Нужно лишь дать ей миллионы миллионов предложений на английском и их предпочитаемых переводов на французский, и вскоре она стала бы находить нужные взаимосвязи между словами так же, как распознаватель изображений находил взаимосвязи между пикселями. Затем можно ввести в нейросеть предложение на английском и попросить ее предсказать наилучший аналог на франзуском.
Однако основное отличие между словами и пикселями заключается в том, что на изображении все пиксели находятся одновременно, а слова в фразе сменяют друг друга с течением времени. Поэтому нужно дать нейросети способность «держать в уме» движение хронологической цепочки — весь путь от первого слова до последнего.
В сентябре 2014 года за одну неделю вышло три работы — одну написал Ле, две другие выпустили академики из Канады и Германии, — которые хоть и в теории, но давали все необходимые для этого инструменты. Благодаря этим работам появились бессрочные проекты вроде Magenta от Brain, исследования того, как машины могут генерировать искусство и музыку. Также они проложили путь к инструментальным задачам вроде машинного перевода. По словам Хинтона, тогда он думал, что на последующую доработку понадобится как минимум пять лет.
Засада
Научная работа Ле показала, что перевод с помощью нейросетей возможен, но он использовал лишь относительно небольшой набор данных, находящихся в публичном доступе. (Небольшой по меркам Google — на самом деле это был крупнейший объем публичных данных в мире. При этом старая версия «Переводчика» за десять лет работы собрала в сто или тысячу раз больше данных.) Стоит отметить, что модель Ле плохо справлялась с предложениями длиннее семи слов.
Майк Шустер, который тогда был штатным исследователем в Brain, принял эстафету. Он знал, что если Google не сможет довести теоретические разработки до применения на практике, это сделает кто-то другой. Ему потребовалось два года. «На первый взгляд, кажется, что для того, чтобы перевести какую-нибудь фразу, нужно только взять данные, провести пару экспериментов и все, но на самом деле так это не работает», — объясняет он.
Шустер — это подтянутое, собранное существо неизвестного возраста с обветренной кожей и головой в форме поршня. Плечи его прямы, длинные карго-шорты закатаны до колен, на ногах — неоново зеленые Nike Flyknits. Он выглядит так, будто проснулся в позе лотоса, потом нацепил свои маленькие эллиптические очочки без оправы, впитал калории из скромной порции натуральных желудей и по пути на работу с легкостью поучаствовал в пустынном десятиборье.
На самом деле, по его словам, он всего лишь проезжает 29 километров на велосипеде. Шустер вырос в Дуйсбурге, в промышленном районе бывшей Западной Германии, и изучал электрическую инженерию, прежде чем переехал в Киото и занялся нейросетями.
В девяностых он проводил эксперименты с нейросетями на машинах размером с конференц-зал — приходилось потратить миллионы долларов и недели времени, чтобы научить машину делать то, с чем сейчас любой компьютер справится за час. В 1997 году он опубликовал работу, которую полтора десятка лет почти не цитировали, при этом только за этот год к ней обратились примерно 150 раз. Чувство юмора у него есть, хоть он и ходит все время с суровым выражением лица, которое, на мой взгляд, появилось из-за смешения немецкой сдержанности со сдержанностью японской.
Шустеру пришлось решать запутанные проблемы. Во-первых, Ле сам писал свой код, и он не был совместим с новой открытой платформой машинного обучения TensorFlow, которую тогда разрабатывала Google. Осенью 2015 года Дин отправил к Шустеру еще двух инженеров, Юнхуй У и Чжифена Чена. На то, чтобы воспроизвести результаты Ле на новой системе, им потребовалось два месяца. Ле время от времени к ним заглядывал, но даже он не всегда понимал, что они делают.
Как сказал мне Шустер, «Некоторые фрагменты просто работали, и никто не знал почему».
В этом феврале главы исследовательской организации Google — объемного подразделения с примерно тысячей сотрудников, занимающегося вопросами будущего и неклассифицируемыми проектами — собрались на выездную встречу в Westin St. Francis, на Юнион-сквер, роскошном отеле, но чуть менее шикарном, чем собственное строение Google такого рода, расположенное в Сан-Франциско, то есть в паре километров на восток оттуда.
Утро было отведено под «молниеносные разговоры», быстрые сообщения о ходе передовых исследований, а на день были запланированы перекрестные «стимулированные дискуссии» между отделами. Все это делалось, чтобы дать почву для возникновения неожиданных хитрых бесед в духе компании Bell Labs, благодаря которым держится на плаву любая серьезная компания.
Во время обеденного перерыва Коррадо с Дином отправились на поиски Макдуфа Хьюза, директора «Google Переводчика». Хьюз обедал в одиночестве, и Коррадо с Дином сели по обеим сторонам от него. Как выразился Коррадо, «Мы его поймали».
«Итак — сказал Коррадо настороженному Хьюзу, — у нас кое-что есть»
Они заявили Хьюзу, что на их взгляд, 2016 год отлично подходил для переработки «Google Переводчика», — код которого сотни инженеров создавали более десятка лет, — под использование нейросети. Старая система работала так же, как и все машинные переводчики за последние тридцать лет: она разделяла предложения на фрагменты, находила слова в основанных на статистике словарных таблицах, затем применяла множество правил постобработки, чтобы подправить окончания и переставляла все в таком порядке, чтобы у предложения был смысл.
Такой подход называется «фразовый статистический машинный перевод», потому что когда система доходит до следующей фразы, она забывает, какой была предыдущая. Именно поэтому иногда результаты, которые выдавал «Переводчик» напоминали мешанину из магнитиков на холодильник. Благодаря нововведениям Brain система могла бы за раз читать и обрабатывать целые предложения. Она бы понимала контекст и что-то напоминающее смысл.
На первый взгляд, ставки были не особенно высоки: «Переводчик» приносит минимальную прибыль и, скорее всего, так будет всегда. Для большинства англоговорящих пользователей даже радикальное улучшение качества работы сервиса покажется ожидаемым и закономерным скачком. Однако есть мнение, что машинный перевод, по качеству не уступающий человеческому, это не только обязательное краткосрочное достижение, но и революционный прорыв в долгосрочной перспективе. Он необходим для осуществления бизнес-стратегии компании на ближайшее будущее.
По оценкам Google, 50% всего интернета написано на английском — языке, на котором говорит около 20% населения мира. Если Google хочет выйти на китайский рынок — где среди поисковых машин доминирует Baidu — или начать работать в Индии, нормальный машинный переводчик — это важнейшая часть инфраструктуры. В 2015 году Baidu сама опубликовала революционную научную работу о машинном переводе с помощью нейросетей.
А в более отдаленном, спекулятивном будущем машинный перевод, пожалуй, мог бы стать первым шагом к созданию общего вычислительного устройства, понимающего человеческий язык. Это стало бы важным — может быть, самым важным — достижением, благодаря которому станет возможно создание того, что выглядит как настоящий искусственный интеллект.
Большинство людей в Кремниевой долине знали о скором рассвете машинного обучения, так что Хьюза засада не удивила. Он был преисполнен скептицизма. Хьюз, — скромный, крепко сложенный мужчина средних лет с растрепанными золотисто-каштановыми волосами и посеребренными сединой висками, — это классический линейный инженер, который идеально смотрелся бы за чертежным столом в компании Boeing семидесятых годов.
Карманы его джинсов обычно пухнут от множества занятных угловатых устройств, будь то рулетки или термопары, и, в отличие от большинства молодых коллег, он не носит одежду с символикой компании, в которой работает. Хьюз знал, что люди в разных отделах Google и других компаний годами пытались создать переводчики, основанные на нейросетях — не в лаборатории, а в производственном масштабе, — при этом особых успехов они не достигли.
Хьюз выслушал инженеров Brain и осторожно сказал, что, на его взгляд, за три года они справятся.
Дин думал иначе: «Мы закончим работу к концу года, если соберемся вместе и подумаем». Люди любили и уважали Дина отчасти из-за того, что он давно и часто демонстрировал свое умение что-нибудь обдумывать. А также совсем не стыдился говорить искренние вещи вроде «если соберемся вместе и подумаем».
Хьюз был уверен в том, что в ближайшее время они не соберутся, но не хотел становиться этому причиной. «Давайте готовиться к 2016 году. Я не стану тем, кто усомнится в способностях Дина к ускорению работы», — объявил он, когда вернулся к своей команде.
Через месяц у них наконец получилось провести эксперимент по сравнению новой системы Шустера с со старым «Переводчиком» Хьюза. Шустер собирался переводить с английского на французский, но Хьюз посоветовал ему поменять языки. «Эта языковая пара так хорошо отработана, что никто не заметит улучшений», — пояснил он.
Шустер не мог не устроить из этого состязание. Метрика для оценки качества машинного перевода называется BLEU, ее смысл заключается в сравнении машинного перевода со средним человеческим переводом из проверенных источников. На тот момент лучшим результатом BLEU для перевода с английского на французский и наоборот было чуть менее 30. Улучшение на один балл считалось весьма примечательным, на два — невероятным.
В переводе между английским и французскими языками новая система справилась на семь баллов лучше старой
Как сказал команде Шустера Хьюз, у их системы таких улучшений не было уже четыре года.
Чтобы убедиться в том, что это не ошибка метрик, они привлекли к проверке людей. После оценки пользовательского восприятия, в ходе которой человек выставляет переведенным предложениям оценки от нуля до шести, система показала улучшение на 0,4 балла — примерно на столько в сумме улучшилось качество перевода старой системы за все время ее существования. В середине марта Хьюз разослал своей команде электронное письмо. В нем говорилось, что все работы по старой системе должны быть немедленно заморожены.
Теория становится продуктом
До тех пор команда, занимающаяся переводом с помощью нейросетей, состояла всего из трех человек — Шустера, У и Чена, но с поддержкой Хьюза к ним начали подтягиваться люди. Каждую среду в 14:00 они под руководством Шустера собирались в угловой комнате корпуса Brain под названием «Кварцевое озеро».
Обычно на собрания приходили более десяти человек, при этом некоторые лица менялись. Когда там присутствовали Хьюз или Коррадо, они были единственными носителями английского языка в комнате. Инженеры говорили на китайском, вьетнамском, польском, русском, арабском, немецком и японском, хотя в основном они пользовались своим собственным гибридным языком и математическими терминами. В Google обычно сложно понять, кто ведет встречу, но в команде Шустера лидера выделить было легко.
Даже тогда им было не до конца понятно, что нужно делать. «Неопределенность — ключевое понятие для всей этой истории. Весь процесс в чем-то был неопределенным», — сказал мне как-то Шустер. «Программы, данные, железо, люди. Все равно, что — тут он раскинул свои длинные изящные руки, немного изогнутые в обратную сторону в локтях — плавать в грязи примерно вот с таким полем зрения». Он поднес ладонь на расстояние примерно в 20 сантиметров от его груди. «Если цель и есть, то она где-то там».
В большинстве переговорных комнат Google есть мониторы для видеочатов, которые в режиме ожидания демонстрируют чрезмерно яркие картинки из Google+ с девственными лесами или северными сияниями или Рейхстагом. Шустер махнул в сторону одного из мониторов, на котором кристальным светом горело ночное изображение монумента Вашингтона.
А со стороны кажется, что все мы тут снабжены биноклями и можем смотреть далеко вперед
Теоретическая работа, которой они занимались до этого, и так была невероятно сложной и долгой, но попытка превратить ее в реальный продукт — то, что академики могут назвать «всего лишь» инженерией — была не легче. Во-первых, им надо было убедиться в том, что они тренируют машину на правильных данных. Учебные данные Google для «чтения» в основном состояли из цельных предложений средней сложности, как у Хемингуэя.
Часть из них была публичной: оригинал основного текста для статистического машинного перевода состоял из миллионов страниц двуязычных стенограмм канадского парламента. У команды Шустера было 97 миллионов уникальных английских «слов». Но как только они убрали эмоционально окрашенные, ошибочные и избыточные элементы, получился словарь из примерно 160 тысяч слов.
Затем нужно сконцентрироваться на том, что на самом деле переводят пользователи, — а зачастую это имеет мало общего с нормальным человеческим языком. Как выяснили в Google, многие обращаются к сервису, чтобы перевести маленькие осколки языка, а не цельные предложения. Если нужно создать сеть, способную справляться с потоком пользовательских запросов, лучше как можно тщательнее ее под это заточить. Нейросеть очень зависит от данных, на которых ее тренируют. Как однажды выразился Хьюз, «Переводческая нейросеть учится всему. Она как маленький ребенок: «Ой, папа говорит это слово когда злится!» — тут он рассмеялся. — Нужно соблюдать осторожность».
Но, что самое важное, им нужно было сделать так, чтобы система работала настолько быстро и надежно, что пользователи этого бы не замечали. В феврале на перевод предложения из десяти слов уходило десять секунд. Такой медленный сервис они выпустить не могли. Команда «Переводчика» начала проводить эксперименты по задержке перевода с участием небольшого количества людей, своего рода проверку того, как долго они готовы ждать.
Выяснилось, что люди были не против, если на перевод уходило в два или даже в пять раз больше. А вот восьмикратное увеличение задержки было для них некомфортным. Команде не нужно было проводить такие тесты для каждого языка. В случае часто используемого языка вроде французского или китайского их система могла работать вообще без задержек. Но они знали, что когда дело доходило до более редких языков, пользователи были готовы немного потерпеть, чтобы получить более качественный результат. Нужно было лишь убедиться в том, что люди не будут из-за этого переходить на сервисы конкурентов.
Шустер признал, что лично он вообще не знал, удастся ли им сделать «Переводчик» достаточно быстрым. Он вспомнил, как во время разговора на микрокухне повернулся к Чену и сказал: «Для увеличения быстродействия нам не хватает какого-то неизвестного элемента, но я не знаю какого».
Однако он понимал, что для обучения им нужно больше компьютеров — GPU, графических процессоров, реконфигурированных для использования в нейросетях. Хьюз встретился с Шустером, чтобы узнать его мнение по вопросу «Нам запросить тысячу GPU?».
На что Шустер спросил: «А почему не две тысячи?»
Через десять дней у них было две тысячи дополнительных процессоров.
К апрелю команда расширилась до 30 человек — некоторые, вроде Ле, работали в Brain, другие пришли из «Переводчика». В мае Хьюз назначил на каждую языковую пару кого-то вроде временных руководителей, при этом оценки качества работы их ветвей сервиса заносились в общую таблицу, с которой они регулярно сверялись.
В любой момент времени как минимум 20 человек вели свои недельные эксперименты и пытались найти решения проблем. Однажды модель без какой-либо видимой причины стала выкидывать из предложений все числа. Временами работа шла в невероятно быстром темпе. «Люди едва не кричали друг на друга», — вспоминает Шустер.
К концу весны кусочки стали собираться воедино. Команда разработала так называемые « словесно-единичную модель», «издержки покрытия», «нормализацию длины». По словам Шустера, каждая часть улучшала общий результат лишь на пару процентов, но вместе они серьезно влияли на качество работы.
Стоило стандартизировать модель, как на смену 150 разным моделям старого «Переводчика», пришла бы единая многоязычная модель, которая со временем бы улучшалась. Но парадокс — инструмент, созданный для того, чтобы еще более обобщить процесс автоматизации с помощью обучающихся машин, требовал столь экстраординарных объемов сфокусированного человеческого труда и таланта, — никуда не делся. Зачастую исследователи принимали решения, основываясь только на собственном чутье. Сколько нейронов должно быть в слое? 1024 или 512? А сколько должно быть слоев? Сколько предложений нужно обрабатывать одновременно? И сколько нужно для этого тренировать систему?
«Мы проводили сотни экспериментов — каждый из них длился до тех пор, пока мы не понимали, что можно заканчивать. Ты всегда спрашиваешь себя: «Когда придет пора остановиться?», «Как понять, что можно заканчивать?». А никак. Механизм машинного обучения всегда неидеален. Нужно тренировать его до тех пор, пока тебе не придется остановиться. Такова печальная природа всей этой системы. Некоторым бывает тяжело смириться с этой незавершенностью. В чем-то машинное обучение напоминает искусство — нужно понимать, где мазнуть кистью, чтобы было красиво. А понимание это приходит только с опытом. Кому-то раньше, кому-то позже».
К маю команда Brain осознала, что единственный способ сделать систему достаточно быстрой, чтобы ее можно было представить в виде продукта — использовать TPU, специальные процессоры, которые придумал Дин. Чен рассказывает: «Мы не знали даже, будет ли работать код. Но были уверены в том, что без TPU вся система точно работать не будет». Он вспоминает, как умолял Дина: «Пожалуйста, зарезервируй парочку для нас». Тот согласился. Однако после доставки TPU не работали. У вместе с техниками потратил две недели на попытки понять, почему. Они искали ошибки не в модели, а в самом чипе — проект по переводу с помощью нейросетей мог стать подтверждением правильности вложений в инфраструктуру.
Однажды летом в помещении «Кварцевого озера», где вот-вот должно было начаться очередное собрание, стоял тихий гомон: люди обсуждали научную работу Baidu, которая появилась на одном из главных научных сайтов этой сферы. Шустер призвал всех к порядку: «Да, они выпустили работу. Кажется, что за нами подглядывали — у них похожая архитектура и похожие результаты». Система Baidu набрала количество баллов BLEU, равное результатам внутренних тестов, которые команда из Google проводила в феврале и марте. Ле не выглядел ошарашенным; судя по всему, он решил, что это знак того, что Google движется в правильном направлении. «Их система очень похожа на нашу», — произнес он с тихим одобрением в голосе.
Команда Google осознавала, что если бы они первыми опубликовали свои результаты, то наверняка продемонстрировали бы превосходство над конкурентами. Но, как сказал Шустер, «Выпущенный продукт важнее публикаций. Они, конечно, могут сказать «О, а в этом мы были первыми», но, в конце концов, какая разница?»
Однако это означало, что они должны первыми выпустить свой сервис, а он должен превосходить сервисы конкурентов. Хьюз фантазировал о том, что они даже не проинформируют пользователей о переработке «Переводчика». Просто сядут и будут ждать, пока по социальным сетям не пройдет слух о том, что система радикально улучшилась.
«Мы не хотим пока заявлять о новой системе», — сказал он мне в 17:36, через два дня после Дня труда и за минуту до того, как они выкатили улучшение китайско-английского перевода для 10% пользователей, никого об этом не уведомив. «Сначала мы лучше убедимся в том, что все работает. В идеале Twitter должен взорваться сообщениями вроде "Видали, как круто теперь работает Google «Переводчик»?"».
Праздник
В неусыпно трудящейся Кремниевой долине есть лишь два надежных способа для определения того, какое сейчас время года: смена фруктов на микрокухнях — от плуотов (гибрид сливы и абрикоса — прим. переводчика) в середине лета к азиатским грушам и хурме в начале осени — и кривая технологического прогресса. В один чрезвычайно жаркий понедельник команда Brain все-таки выпустила свою научную работу. Авторов было до смешного много — 31 человек. На следующий день сотрудники Brain и «Переводчика» собрались на микрокухне в офисе последних, чтобы устроить небольшой праздник. Помещения в здании Brain названы в часть мест на Аляске — возможно, это связано с разнообразным национальным составом команды. Темой здания «Переводчика» стали Гавайи.
На стене гавайской микрокухни висит немного зернистая фотография пляжа, рядом — украшенная гирляндами кухонная стойка с чучелом попугая посередине, а потолочные светильники выполнены в виде бумажных фонариков. Вдоль стен выставлены жидкие гистограммы из бамбуковых палок, словно укрепления брошенной тропической крепости. Двери за ними ведут в помещение с одинаковыми серыми столами. Тем утром новые люди в толстовках пришли отпраздновать десятилетие «Переводчика», и многие члены команды явились на вечеринку в одежде с новой символикой сервиса. Отчасти они праздновали то, что после десяти лет совместного труда они начинали двигаться к уходу на покой. В других организациях это могло бы стать причиной скорби, но инженеры и ученые-компьютерщики из обеих команд выглядели довольными.
Система перевода с помощью нейросетей наконец-то работала. К моменту начала вечеринки «Переводчик» Google уже обработал 18 миллионов запросов. Один инженер из команды «Переводчика» бегал кругами с телефоном в руках и переводил предложения с китайского на английский с помощью сервиса Baidu. Он, улыбаясь, набрасывался на любого, кто готов был слушать: «Их сервис подвисает, если одновременно вводить больше двух иероглифов!» (По словам представителей Baidu, пользователи никогда не сообщали им о такой проблеме).
Когда за последующие недели разошлась молва о том, что Google переводит с китайского на английский с помощью нейросетей, появились спекуляции, мол, эта языковая пара была выбрана из-за того, что только при работе с ней система Google показывала неплохие результаты. Каждый присутствующий на вечеринке знал, что истинный масштаб их прорыва публика осознает только к ноябрю. Но тогда многие из них уже будут работать над другими проектами.
Хьюз прочистил горло и встал перед тики-баром. Он был одет в выгоревшую рубашку-поло зеленого цвета с мятым воротничком, местами украшенную узорами из высохших пятен от пота. В последнюю минуту возникли проблемы, а потом еще одни, например, в научной работе обнаружилась серьезная ошибка в вычислениях, а в системе — странный пунктуационный баг.
Но все было решено, по крайней мере в степени, достаточной для того, чтобы можно было отвлечься на вечеринку. Гости притихли. Хьюз проводил собрания эффективно и четко и терпеть не мог пустую болтовню или разговоры на сторонние темы, но все же он выдержал паузу, очарованный важностью момента. Он признал, что, хотя эта метафора и прозвучала несколько натянуто, их проект по переводу с помощью нейросетей стал реальностью «благодаря совместной работе двух групп людей, говорящих на разных языках».
Их проект, — продолжил Хьюз, — сдвинул прогресс «на ступенчатую функцию вперед» — это непродолжительное улучшение, вертикальный скачок, а не ровная восходящая кривая. Успешным было не только взаимодействие двух команд, но и переход от теории к практике. Хьюз поднял пластиковый бокал с дорогим на вид шампанским.
«За коммуникацию и сотрудничество!», — провозгласил он
Собравшиеся инженеры огляделись и расщедрились на парочку осторожных хлопков и ободрительных выкриков.
Джефф Дин стоял в центре микрокухни вместе с Коррадо и Шустером — руки в карманах, плечи немного согнуты внутрь. Дин понял, что и ему надо бы сказать пару заключительных слов и сделал это свойственной ему манере, произнеся короткую быструю фразу.
По словам Дина, они продемонстрировали, что способны на две важные вещи: «Проводить исследования и показывать результаты, ну не знаю, половине миллиарда человек». Все засмеялись, ведь это было совсем не преувеличение.
Эпилог: Машины без призраков
Возможно, самый известный в истории аргумент против искусственного интеллекта или заявлений, связанных с ним, касался вопросов перевода. В 1980 году философ Джон Сёрл из Университета Беркли предложил мысленный эксперимент под названием «Китайская комната».
В нем узник, говорящий только на английском, сидит в тюремной камере. Невидимый для него надзиратель передает ему через щель бумажку с вопросом на китайском языке. У человека в комнате есть таблицы и правила на английском языке, с помощью которых он может составить правильный ответ. Вскоре он так хорошо обращается с этими таблицами, что его ответы становятся «неотличимы от ответов носителей китайского языка». Можно ли считать, что узник «понимает» китайский? Сёрл по вполне очевидным причинам посчитал, что нет. Как он написал впоследствии, его метафора компьютера подорвала веру людей в заявления о том, что «правильно запрограммированный цифровой компьютер, корректно реагирующий на вводимые в него данные, будет обладать разумом, сравнимым с человеческим».
Но для команды Google Brain, как и для почти всех специалистов по машинному обучению в Кремниевой долине, эта точка зрения неинтересна. Нет, они не игнорируют философский вопрос — просто для них сознание это нечто фундаментально иное. В отличие от Сёрля, они не предполагают, что «сознание» это некий таинственно светящийся ментальный атрибут — то, что философ Гилберт Райл назвал "призраком в машине"».
Вместо этого «сознание» для них это сложный набор навыков, случайно появившихся в результате координированной деятельности множества разнообразных механизмов. Соответственно, наше сознание с его высоким уровнем мыслительной деятельности по сути ничем не отличается от того, что мы, поддавшись минутному соблазну, можем поместить на низкий уровень. С этой точки зрения, логическое мышление выглядит скорее удачной адаптацией, как и способность ловить и кидать мяч. Не нужно создавать сознание, чтобы разработать искусственный интеллект, — достаточно улучшать инструменты, придуманные для решения определенных проблем. Как сказал мне Коррадо в мой первый день в Google, «Дело не в том, что машина "знает" или "понимает", для нас важно, что она "делает" и, что более важно, что она пока делать не может».
Выбор между «знать» и «делать» ведет к серьезным культурным и социальным последствиям. На вечеринке Шустер подошел ко мне, чтобы выразить недовольство тем, как медиа отреагировали на публикацию их работы. «Видели первые материалы?» — спросил он. После чего пересказал один из заголовков утренней прессы, сопровождая каждое слово движением руки, словно составлял фразу из блоков: «Google заявляет, что перевод с помощью ИИ неотличим от человеческого».
Команда очень старательно продумала этот вопрос в последние недели составления работы. Шустер часто повторял, что ее смысл в том, что «Машина переводит лучше, чем раньше, но все еще хуже людей». Он надеялся, что публика поймет: Google хочет помочь людям, а не заменить их.
И все же из-за рассвета машинного интеллекта нам становится сложнее определять свое особое место в этом мире. Если вы, как и Сёрль, верите в человеческое «глубокомыслие», то легко проведете черту, разделяющую людей и машины. Но если вы на стороне противников Сёрля, у вас этого не получится.
Поэтому вполне понятно, почему большинство придерживается первой концепции. В 2015 году на конференции MIT по основам искусственного интеллекта Ноама Хомского спросили о том, что он думает по поводу машинного обучения. В ответ он разнес всю концепцию в пух и прах, назвав ее лишь статистическими предсказаниями, модной версией прогноза погоды. Даже если перевод с помощью нейросетей и достиг бы идеальной точности, в результате он не продемонстрировал бы никакой особой потаенной сути языка.
Такой переводчик никогда не сможет отличить местоимение в дательном падеже от этого же местоимения в винительном. В результате получается хороший инструмент для достижения определенных целей, но человечество ни на йоту не приближается к пониманию того, почему наши мозги работают так, как работают. Машины уже умеют находить раковые опухоли на рентгеновских снимках лучше радиологов, однако машина не может объяснить, что вызвало рак.
Но способен ли на это радиолог?
Машинное обучение незамедлительно и, пожалуй, даже непредсказуемо угрожает в первую очередь медицинской диагностике. Радиологи долго учатся, им много платят, а их навыки являются для нас проявлением профессионального глубокомыслия — высшего уровня работы сознания. Только в прошлом году исследователи продемонстрировали, что нейросети не только находят на снимках опухоли лучше людей, но и успешно ставят диагнозы на основе текстовых данных или гистологических отчетов. Оказалось, что работа радиологов это скорее прогностическое выявление взаимосвязей, а не логический анализ. Они не могут назвать причину появления рака — им известно только то, что он есть.
Как только появляется достаточно надежный механизм для выявления взаимосвязей в одной сфере, его почти сразу же можно изменить для работы в другой. Один инженер из команды «Переводчика» взял нейросеть, которую он создал для оценки предметов искусства, и использовал ее в автономной машине, управляемой на расстоянии. Нейросеть, изначально нацеленную на распознавание кошек, можно научить работать с результатами компьютерной томографии, при этом в ходе обучения через нее пройдет столько материалов, сколько ни один врач не видел за всю свою жизнь.
Нейросеть, созданная для перевода, может изучить миллионы страниц юридических документов за мельчайшую часть от того времени, которое понадобилось бы для этого самому высококвалифицированному юристу. Профессии, потерянные для человека с появлением роботов, больше не будут ассоциироваться с рутинной работой, которая, — стоит заметить, совершенно несправедливо, — считается прерогативой глупых необразованных людей. Ведь под угрозой будут инвентарные менеджеры, экономисты, финансовые консультанты, агенты по недвижимости. Ученые из Brain продемонстрировали лишь один пример того, как за девять месяцев небольшая группа людей из большой компании смогла автоматизировать задачу, которую раньше никто не и не думал соотносить с машинами.
Из всего, что сейчас происходит в Кремниевой долине, наиболее важны не кардинальные изменения устоявшихся систем. Главное это создание институций — и консолидация власти — в таком масштабе и с такой скоростью, какие, возможно, не встречались за всю человеческую историю. У Brain есть стажеры, резиденты, «ниндзя»-тренинги для сотрудников других отделов.
Там повсюду стоят ящики с бесплатными велосипедными шлемами и зелеными зонтиками для тех двух дождливых дней в году. А еще капсулы для сна, массажные стулья, маленькие фруктовые салаты, общие испытательные столы, упаковки каких-нибудь дорогих пирожных, места для сбора детской одежды, двухэтажные скалодромы со специальными инструкторами, группы для чтения, лекции о регламенте и разнообразные сети поддержки. Получатели этих крупных инвестиций по культивации людей — ведь это нечто большее, чем приятные мелочи для пролов, работающих в цифровой шахте, — управляют мощью сложно скоординированных серверов в 13 дата-центрах на четырех континентах. Дата-центрах, которые по энергопотреблению сравнимы с крупными городами.
Но волна автоматизации затронет даже колоссальные институции вроде Google — как только машины смогут учиться на человеческой речи, даже комфортная профессия программиста будет под угрозой. Когда вечеринка в тики-баре подходила к концу, инженер из «Переводчика» с ноутбуком в руках подошел к Хьюзу, чтобы кое-что показать. На экране кружились и пульсировали сферы, раскрашенные в яркие цвета. Они двигались по длинным овальным орбитам и иногда сталкивались, образуя туманности, прежде чем исчезнуть.
Хьюз сразу понял, что это; мне же пришлось приглядеться, чтобы увидеть надписи — имена людей и названия файлов. Это была анимированная история десяти лет изменений кода «Переводчика», весь вклад каждого члена команды светился и двигался на экране. Хьюз ненавязчиво переключился с 2006 года на 2008-й, а потом на 2015-й, останавливаясь время от времени, чтобы вспомнить какое-нибудь событие, давнее достижение или катастрофу, которую теперь можно было ускорить, чтобы она во что-то-нибудь впиталась или распалась сама по себе. Хьюз подметил, что имя Джеффа Дина часто появлялось то тут то там среди мерцающих сфер.
Хьюз подозвал Коррадо и они замерли, словно пригвожденные. Чтобы разогнать меланхолический туман ностальгии, Коррадо поднял глаза и произнес с немного грустным выражением лица: «Ну так когда мы это удалим?»
«Не беспокойся. Вырастет новая база кода. Все всегда вырастает», — ответил Хьюз.
https://vc.ru/p/the-great-ai-awakening