Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей.

С самого начала, с момента, когда интернет стал действительно глобальной сетью, связывающей миллионы пользовательских компьютеров, отличительной чертой его была анонимность пользователей

Возможность скрывать свое имя за ником, оперировать не одним аккаунтом, а целым “парком” виртуальных личностей, размещать и распространять практически любую информацию, стала почвой для развития целой отрасли в журналистике и public relations, громадного набора специфических рекламных и PR-технологий.
Однако спустя четверть века эра анонимности подходит к концу. Технологии анализа больших объемов данных, представленные в декабре 2016 года на Первой открытой конференции ИСП РАН, наносят по этой эпохе удар, который может оказаться смертельным.

Что не учел пророк интернет-эры

В 1974 году, мечтая о том, каким станет мир через полвека, академик Сахаров написал: “В перспективе, быть может, позднее, чем через 50 лет, я предполагаю создание всемирной информационной системы (ВИС), которая сделает доступным для каждого в любую минуту содержание любой книги, когда-либо и где-либо опубликованной, содержание любой статьи, получение любой справки. ВИС должна включать индивидуальные миниатюрные запросные приемники-передатчики, диспетчерские пункты, управляющие потоками информации, каналы связи, включающие тысячи искусственных спутников связи, кабельные и лазерные линии. Даже частичное осуществление ВИС окажет глубокое воздействие на жизнь каждого человека, на его досуг, на его интеллектуальное и художественное развитие. В отличие от телевизора, который является главным источником информации многих современников, ВИС будет предоставлять каждому максимальную свободу в выборе информации и требовать индивидуальной активности”.
Описание ныне существующей глобальной информационной сети удалось ему очень неплохо, что позволяет по праву включать его имя в список “пророков интернет-эры”. Однако вэтом пророчестве не было учтено одно - бесконтрольное распространение информации. Информационные потоки сегодня настолько мощны и велики, что вычленить из них необходимое подчас не представляется возможным. А объем информации, фальсифицированной и откровенно ложной, в этих потоках просто непредсказуем.
Первый информационный вброс был зафиксирован в середине 1980-х, в разгар холодной войны. 1 апреля 1984 года в предшествовавшей интернету сети Usenet было опубликовано обращение генерального секретаря КПСС Константина Черненко, в котором, в частности, шла речь о присоединении СССР к американским информационным сетям. “Причина нашего присоединения к сети - это формирование дискуссионной площадки с американскими и европейскими народами, чтобы продемонстрировать им наши усилия подостижению мирного сосуществования между ними и советским народом, - говорилось в тексте. - Теперь же давайте откроем бутылку водки и отметим наше появление в этой сети. Ваше здоровье!”
Этот вброс вызвал среди американских пользователей сети вполне ощутимую панику и даже спровоцировал скандал в СМИ. Впрочем, его автор недолго оставался анонимом. В том, что это всего лишь придуманный им первоапрельский розыгрыш, пару недель спустя признался Пит Биртема, один из первопроходцев интернета, сотрудник голландского Центра математики и информатики. Однако факт остается фактом: вброшенной информации поверили, восприняли ее всерьез. Шутка ввела в заблуждение всю Америку.
С той поры информационные вбросы стали одним из главных бичей глобальной сети. Анонимность источников, возможность многократной репликации информационных массивов на различных ресурсах предоставляют сегодня фантастические возможности для распространения любых сведений и даже, как показывает совсем недавняя история, длякоординации действий повстанцев и террористов. Отследить путь того или иного вброса, вычислить его источник, выстроить “дерево распространения информации” до последнего времени удавалось далеко не всегда. И в любом случае эта работа была трудоемкой и затратной. Не меньше сложностей возникало и с установлением личности автора того илииного вброса либо фейка.

На каждое действие есть противодействие

Для анализа текстов социальных сетей Институтом системного программирования РАН была разработана “Текстерра” - технология многоязычного интеллектуального анализа текста. В ее основе - программный комплекс, способный накапливать и анализировать информацию, устанавливать взаимосвязь между использованием тех или иных лексических схем.
В качестве основного источника информации “Текстерра” использует ссылочный массив Википедии, выстраивая граф семантической связанности описанных на этом ресурсе объектов.
Кроме того, “Текстерра” позволяет извлекать знания из ресурсов MediaWiki и Linked Data, а также расширять базу знаний концептами, описанными в произвольных текстовых документах, используя оригинальные методы извлечения информации. В результате в распоряжении системы оказывается семантический граф с более чем пятью миллионами узлов, на основании которого и анализируются значения терминов и отношений между ними в текстовых документах.
Проще говоря, программа способна составить анализ текста, опираясь на объем понятий и терминов, почти на порядок превышающий по объему багаж знаний, зафиксированный вБританской энциклопедии, а если его будет не хватать - расширить свою базу данных.
Изначально технология служит основой для решения задач, базирующихся на интеллектуальном анализе текстов, включая создание семантических поисковых систем, разработку вопросно-ответных систем, автоматическое реферирование и аннотирование, создание диалоговых систем и так далее. Но одной из ее функций является анализ текстовых сообщений в социальных сетях и на форумах.
Используя “Текстерру”, можно вычислить лексически сходные тексты, принадлежащие перу одного автора или написанные по некоему базовому лекалу, а потому содержащие сходные семантические конструкции, и таким образом выявить структуру информационного вброса.
Причем сделать это очень быстро: при создании технологии особое внимание уделялось не только качеству, но и производительности, так что в настоящее время “Текстерра” - один из самых быстрых инструментов такого рода. Программный комплекс поддерживает английский, русский и корейский языки, также систему можно быстро адаптировать для работы с другими языками.
Разработку технологии ИСП РАН начал в 2007 году совместно с компанией Hewlett Packard, затем в 2010-2013 годах развитие технологии проводилось в рамках долгосрочного сотрудничества с компанией Samsung, а сегодня “Текстерра” - ключевой компонент платформы анализа мнений пользователей в сети Интернет. Интерфейс “Текстерры” уже сегодня доступен на сайте ИСП РАН.
Другая же перспективная разработка ИСП РАН - система “Талисман” - позволяет отследить и выделить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности - ботов.
Боты сегодня - это уже не просто отдельные фиктивные профили в социальных сетях, а целые конгломераты - ботнеты, связанные между собой “социальными связями”, вписанные в группы и сообщества реальных пользователей сети Интернет. Современные боты подчас производят более чем реальное впечатление живых людей, используя чужие фотографии, специально разработанные диалоговые программы для генерации текстов сообщений.
Из-за их способности к адаптации проблема обнаружения ботов остается постоянно актуальной. Новые методы их поиска продолжают разрабатываться, но обычно разработчики просто не успевают за эволюцией интернет-фейков. Тем не менее сегодня в ИСП РАН разработан новый метод, с помощью которого можно с большой долей вероятности отличить самого “продвинутого” бота от живого пользователя сети. В ее основе лежат анализ социальных сетей, а точнее, анализ профилей и социальных связей их пользователей исовременные методы машинного обучения.
На основе данных профилей социальных сетей выстраивается социальный граф, в котором узлы соответствуют пользователям и сообществам, а ребра - отношениям дружбы иподпискам. Посредством распространения в нем социальных меток определяются такие демографические атрибуты, как возраст пользователя, а также семейное положение, уровень образования и так далее. Если значения тех или иных атрибутов не вписываются в создаваемый программным комплексом алгоритм, можно с серьезной долей уверенности говорить о том, что выпадающий из схемы профиль социальной сети - фейк. Ну а дальше приходит на помощь “Текстерра”, позволяющая вычислить множества фейков, созданных одной рукой либо ведущихся по одному лекалу-методичке.
Эта же технология построения социальных графов позволяет оперировать и неполными или намеренно искаженными данными, указанными в профилях, вычислять демографические атрибуты отдельных профилей и оперировать их массивами. По распространению меток, по графу друзей и подписок метод предсказывает незаполненное иликорректирует неверно заполненное значение атрибута из профиля пользователя.
Эта функция необходима в первую очередь как маркетинговый инструмент. Поскольку информация о пользователях социальных сетей зачастую указывается ими не полностью илинекорректно, использовать ее для маркетинговых, социологических или демографических исследований затруднительно. Если же демографические атрибуты пользователей будут выстроены в соответствующие графы, это позволит как минимум фильтровать целевую аудиторию рекомендуемых товаров и услуг, а как максимум - проводить возможно более точный анализ демографического, социального или географического профиля интернет-сообществ, вычислять целевую аудиторию информационных кампаний в интернете.
Мало того, технология “Талисман”, разработанная в ИСП РАН, позволяет на основании анализа неполных данных, с использованием информации из социальных сетей вычислить даже место проживания пользователя, его принадлежность к определенному социальному слою, приверженность той или иной идеологии и другую полезную информацию.
Сегодня обе эти технологии продолжают дорабатываться и совершенствоваться, обрастать новым функционалом. Уже то, что они позволяют делать сейчас, производит впечатление технологий будущего, сюжетного элемента научно-фантастического фильма. Можно представить себе, во что они вырастут через год-два.
Похоже, эпохе анонимности интернета, поре, когда любая информация могла быть вброшена в сеть безнаказанно и без проверки, приходит конец. Интернет-анонимность, бывшая любимым фетишем сетевых анархистов, доживает последние если не дни, то годы. При этом такой “конец детства” не будет репрессивным, а обитателям сети не грозят какие-токары со стороны властей предержащих, вынуждающие раскрывать их инкогнито. Напротив, интернет-анархию погубит ее собственный главный принцип - неконтролируемый доступ к информации.
Как только технологии, о которых шла речь в этой статье, станут общедоступными, ситуация изменится сама собой.

Сергей Кормилицын

27 February 2017

Российское мобильное приложение “взорвало” интернет
Социальная сеть фейсбук создала искусственный интеллект

• Социальная сеть "ВКонтакте" открывается для поиска "Яндекса" »»»
Компания “Яндекс” заключила соглашение о сотрудничестве с социальной сетью “ВКонтакте” - теперь данные.
• Создана глобальная карта связей между пользователями Facebook »»»
Стажер компании Facebook Пол Батлер (Paul Butler) графически показал отношения между пользователями крупнейшей в мире социальной сети.
• 27 тыс. пользователей Facebook удалили свои странички в знак протеста против предоставления компанией их личной информации рекламодателям »»»
Тысячи пользователей в один день удалили свои странички в социальной сети Facebook, чтобы заставить компанию изменить политику в отношении личных данных пользователей.
• Социальная сеть фейсбук создала искусственный интеллект »»»
Крупнейшая социальная сеть мира решила сражаться с суицидом. Как объявил Марк Цукерберг.
• Закон о регистрации сайтов принят в первом чтении »»»
Госдума в первом чтении приняла закон о регистрации сайтов в Роскомнадзоре.


Copyright © 2009
IT-Новости / Dig-Life