В Университете ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптикиинформационных технологий, механики и оптики) прошел конкурс на проведение научно-исследовательских работ под руководством молодых ученых. Из 47 заявленных проектов грант на реализацию получили десять молодых коллективов. По ключевым критериям (количество публикаций в ВАК и Scopus, участие в конференциях и стажировках) первое место заняла исследовательская команда кафедры управления государственными информационными системами под руководством Людмилы Видясовой, начальника отдела мониторинговых исследований Центра технологий электронного правительства. Руководитель Центра Андрей Чугунов и Людмила Видясова рассказали, что кроется под названием победившего проекта – «Разработка инструментов опинион-майнинга и его апробирование на задачах обследования общественного мнения о деятельности органов власти».
Насколько ново для вас выбранное направление работы – исследование общественного мнения?
Андрей Чугунов: Направление зародилось еще в 2011-2012 годах. Тогда наш коллега, профессор Александр Бухановский, предложил нам как социологам принять участие в проекте, посвященном моделированию поведения людей в социальных сетях. С тех пор начала развиваться наша деятельность по изучению того, как можно использовать социальные сети и интернет-пространство в целом для получения адекватных сведений о мнении и настроениях людей. Эту тематику мы развивали в других проектах, как самостоятельных, так и коллаборационных.
Людмила Видясова: В социологии есть традиционные способы получения мнения граждан – опросы. Однако их проведение требует много времени и сил: сначала опросить респондентов, потом расшифровать данные, свести в общую таблицу. В ситуации, когда органам власти необходимо получить некий срез общественного мнения по тому или иному их действию, проведение опросов не является рациональным решением. Но всем нам известно, что люди нередко высказывают свое мнение в интернете: социальных сетях, блогах, комментариях к новостям и так далее. В этом случае умение анализировать такой пласт информации поможет автоматически вычленять необходимые данные из перечисленных источников. Для подобной сложной работы зарубежные социологи используют инструменты опинион-майнинга (opinion mining), которые помогают автоматически извлекать так называемую «субъективную» информацию. Для этого также необходимы компьютерные лингвисты – специалисты, которые разрабатывают алгоритмы и прикладные программы для обработки языковой информации. Их к такому крупному совместному проекту мы привлекаем впервые.
Андрей Чугунов: Извлечение смыслов из огромного текстового хранилища, коим является интернет, без компьютерной лингвистики невозможно. В Университете ИТМО появилась молодая команда под руководством кандидата филологических наук Алексея Доброва, которая не первый год занимается данной областью науки, имеет собственный бизнес и регулярно реализует самостоятельные проекты. С ними мы начали взаимодействовать еще в прошлом году, проводя небольшие тестовые исследования. У них уже есть свои наработки, и вкупе с нашим опытом и знанием социологии вместе мы надеемся реализовать ту цель, что поставили перед собой.
На деятельность каких органов власти вы обратите внимание?
Людмила Видясова: Мы охватим все федеральные органы власти. Для того чтобы грамотно разработать инструменты опинион-майнинга, нам нужно для начала собрать онтологию предметной области – в нашем случае системы власти. Необходимо понять всю ее классификацию, компетенции, типы действия и взаимодействия друг с другом. Какими лингвистическими оборотами граждане характеризуют работу органов власти – отдельный важный вопрос и трудоемкая задача.
Андрей Чугунов: Действительно, мы взялись за серьезную работу в попытке сделать то, что в России еще никто никогда не делал. Существует два компонента, которые влияют на тщательность настройки всей системы и результат, – уже упомянутая коллегой онтология и сентимент-анализ, или анализ тональности текста, который позволяет извлекать оценки, понимать, негативное или позитивное суждение высказано. По сути, онтология конкретной предметной области – это иллюзия. Ее невозможно создать, поскольку нельзя вычленить термины, которые относятся исключительно к одной теме. Поэтому мы нацелены на создание общей онтологии, состоящей из понятий, которые прописаны максимально широко.
В чем основные трудности работы?
Андрей Чугунов: Мы работаем с одной из наиболее сложных систем, существующих в мире, – языком. Тем более – русским, в котором множество способов выразить отрицательное или положительное суждение, много полисемантической лексики. Вот, например, в тексте встречается фраза: «Такой-то политический деятель прекратил ужасную войну». В предложении заключены два отрицательных суждения, и примитивный инструмент сентимент-анализа определит предложение как отрицательное по тональности, совершив ошибку. Мы же хотим предусмотреть все возможные ситуации двоякой трактовки оценок, поэтому нас ждет еще много ручной подготовительной работы.
В чем заключается ручной труд?
Людмила Видясова: После того, как мы определимся с перечнем источников информации, а мы будем зондировать не только социальные медиа, но и электронные СМИ общественно-политической направленности, система мониторинга соберет все найденные полнотекстовые сообщения. Далее исследовательская команда будет выборочно читать эти тексты и вручную выделять те формулировки, которые можно позиционировать как маркеры положительной или отрицательной оценки. Затем словоформы будут добавлены в своеобразный словарь. В ходе вторичного мониторинга будет проведен поиск дополнительных источников и текстов по обновленному словарному запасу.
Насколько достоверными будут данные, полученные с помощью опинион-майнинга? Учитываете ли вы так называемых интернет-троллей или ботов?
Андрей Чугунов: Естественно, мы будем стремиться к минимальной статистической погрешности. С этой целью инструмент будет проходить постоянное тестирование. Кстати, это вторая причина, по которой мы вручную анализируем тексты. Мы будем периодически «натравливать» инструмент на тексты, разобранные человеком, чтобы понять, насколько хорошо он выполняет свою задачу в автоматическом режиме. При необходимости скорректируем механизм и проведем второй, третий и последующий раунды подобных проверок.
Что касается интернет-троллей, то в реализацию данного НИР такая задача не входит, однако нас интересует это направление, поэтому вполне возможно, что оно станет темой дополнительного исследования. Где следствие заказной политической или коммерческой кампании, а где реальное мнение людей? И сможет ли это определить машина? Это очень интересно.
Какие результаты ожидаются?
Людмила Видясова: На первом этапе будет создан программный модуль, который начнет взаимодействовать с онтологией и визуализирует результаты извлечения знаний из интернета. Далее он будет совершенствоваться. На выходе ожидается инструмент, с помощью которого можно будет достаточно быстро и легко собрать статистику общественного мнения по какому-либо законопроекту, реформе, другим изменениями, которые предложат органы власти. Также мы ожидаем профессионального роста нашей молодой команды, ведь в этом исследовании 80% коллектива – магистранты, аспиранты, молодые кандидаты наук. В этом достоинство проведенного конкурса: в отличие от многих других грантов, рассчитанных на докторов наук и опытных ученых, этот конкурс позволяет раскрыться потенциалу молодых специалистов.
Ульяна Малышева,
Редакция новостного портала Университета ИТМО
10 Июля 2015
http://www.ifmo.ru/ru/viewnews/4966/obedinenie_sociologii_i_kompyuternoy_lingvistiki_pozvolit_issledovat_obschestvennoe_mnenie_v_internete.htm#ixzz3fUG1KLmM