Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации

Новости

25/01/2019

Компьютер научат распознавать шутки, иронию и метафоры

Ученые  ТюмГУ разрабатывают технические алгоритмы, способные определять есть ли в высказывании юмор, ирония и метафора.

Результаты исследования представлены на традиционной молодежной научно-практической конференции «Множественность интерпретаций –7: цифровая перезагрузка», состоявшейся в ТюмГУ.

Человек, который успешно владеет родным языком, обычно легко может определить, связано ли то или иное выражение с реальностью или используется в переносном смысле. При этом человек, скорее всего, обладает универсальным когнитивным механизмом выявления иносказательности, значит, подобный механизм можно воспроизвести и в машине. Именно такую задачу поставила перед собой разработчик программы  «PunFields» доцент Института социально-гуманитарных наук ТюмГУ Елена Михалькова.

«Распознавание юмора и других видов иносказательности нужно для решения прикладных задач. Во-первых, для машинного перевода, который пока почти совсем не может интерпретировать художественную речь, а также для диалоговых систем, типа Алисы или Сири, которые опять же не воспринимают иносказательность; во-вторых, данные исследования раскрывают саму природу изучаемых явлений – то есть что такое юмор в принципе и как он функционирует», - отмечает Елена Михалькова.

Программа «PunFields»  предназначена для английского языка и распознает каламбуры с такой же результативностью как иностранные студенты-лингвисты 1-2 курсов. Результаты работы программы подтверждены экспериментом и в настоящее время специалисты ставят перед собой задачу сделать так, чтобы программа одинаково успешно распознавала юмор и иронию, используя при этом один и тот же алгоритм.

«Программа основана на машинном обучении, которое на большом количестве  примеров юмора, иронии, метафоры учится распознавать смысловую “инконгруэнтность” высказывания: несовпадение в высказывании двух смысловых планов - прямого, того, что воспринимается в первую очередь, и переносного. Переносный смысл можно считать скрытым. Когда его наличие в высказывании становится ясным, мы понимаем, что перед нами не изложение фактов, а иносказание, такое, как, юмор, метафора или ирония», - рассказывать Елена Михалькова.

Изучать тональность высказываний в социальных медиа, обрабатывать контексты огромных объемов постов – лишь одна из прикладных задач, решение которой требуется от современных цифровых лингвистов. В ТюмГУ – вузе – участнике Проекта 5-100, эти задачи внимательно изучают социологи, лингвисты, IT-специалисты.

«Наша задача – исследовать алгоритмы толкования текста, попытаться найти объективную истину в толкованиях», - уточняет Елена Михалькова, кандидат наук, доцент Института социально-гуманитарных наук ТюмГУ. «При этом не стоит забывать, что гуманитарное знание можно верифицировать с помощью компьютерных методов. Сейчас существуют действенные алгоритмы компьютерной обработки текстов для разных целей», - добавляет она.

В этом году молодежная научно-практическая конференция «Множественность интерпретаций –7: цифровая перезагрузка» состоялась в ТюмГУ в седьмой раз и привлекла внимание российских и зарубежных ученых, среди которых филологи, историки, лингвисты, антропологи, социологи, математики, педагоги, специалисты в области IT-технологий. Особое внимание было уделено корпусной лингвистике, культуромике, разработке тезаурусов и информационной этике.

Директор СоцГума ТюмГУ, профессор Игорь Чубаров отмечает: «Новые направления научных исследований в области гуманитаристики достойны отдельного разговора. Отмечу их общую особенность – они строятся по принципам Digital Humanities, связанные, например, с применением методов Big Data к гуманитарным исследованиям. Иными словами, мы объединяемся и двигаемся за пределы своих дисциплинарных границ на основе внедрения цифровых технологий в гуманитаристику, в данном случае в лингвистику».

 


http://www.iksmedia.ru/news/5560189-Kompyuter-nauchat-raspoznavat-shutk.html#ixzz5dbxliHfR