Здравствуйте, уважаемые читатели. Сегодня попробуем проанализировать одно из сообществ известной социальной сети "
ВКонтакте". На предмет чего? — спросите вы. Смотреть будем на связи между участниками группы, анализировать характеристики пользователей и делать выводы.
Выбор пал на достаточно активный паблик одного высшего учебного заведения (адреса не даю во избежании недоразумений). На момент написания статье кол-во участников группы было чуть менее чем 16 тысяч человек.
Почему выбран именно этот паблик?На мой субъективный взгляд, кол-во номинальных участников было минимальным. Также социальные связи показались достаточно интересными. Таким образом, эти факторы сыграли немалую роль в выборе сообщества.
Заинтересовавшихся милости прошу под кат.
1. Как собрать информацию?
Для решения искомой задачи было решено написать простой парсер данных, на входе которого — ссылка на сообщество, на выходе — файлы вершин и ребер (связи между участниками группы) для программы визуализации данных
Gephi, а также вспомогательные файлы с различными характеристиками пользователей для последующего анализа. Стоит отметить, что под «связями» подразумевается, что связанная пара — «друзья» (в рамках соц. сети).

На выходе:
2. Что имеем?
Для начала просмотрим общую статистику. По возрасту:
*по вертикали — кол-во человек с данным возрастом, по горизонтали — непосредственно возраст
Можно заметить, что наибольшее кол-во людей в группе с возрастом 17-25 лет. Закономерно.
График отношения мужчин и женщин (по полу):

Занимательно, что большая часть аудитории — девушки. О чем это свидетельствует — на ваш суд. К сожалению, не все пользователи сети указывают свой пол (и не все верно).
График кол-ва друзей у участников:
*по вертикали — кол-во человек с данным кол-вом друзей, по горизонтали — кол-во друзей
Как видно, в среднем, участник имеет порядка 100-400 друзей.
График кол-ва подписчиков у участников:
*по вертикали — кол-во человек с данным кол-вом подписчиков, по горизонтали — кол-во подписчиков
В среднем участник имеет не более 200 подписчиков. Однако у отдельных индивидуумов искомое кол-во доходило до отметки свыше 50 000.
Также предоставляю вашему внимаю экспериментальный график, который показывает сколько людей имеют ID ниже/выше определенного значения (какого — показано на графике):
*по вертикали — диапазон ID'ов, по горизонтали — кол-во людей, входящих в этот диапазон
Для тех, кто не знает специфику ID пользователя ВКонтакте: чем больше ID, тем поздней зарегистрировался пользователь в социальной сети. Исследуя график, можно отметить, что «свежезарегистрированных» участников в сообществе больше. Причем больше в экспоненциальном отношении. Также забавный факт: есть люди в сообществе с двузначными ID (!).
3. Где же обещанные взаимосвязи между участниками?
И правда, настало время показать связи в сообществе между людьми. Сделаем это с помощью графа.
Вершинами графа будут участники сообщества, ребрами — связи между ними. Трактовку понятия «связи» я описал в начале статьи,
если кто забыл. В силу большого кол-ва людей граф будет едва ли читабельным. Однако, чем больше связей — тем больше размер вершины. Это позволяет выделиться «звездам»:

И да, это не просто точки на белом фоне. Просто связей так много, что они слились в единую «массу».
Для справки: На
15958 вершин (
пользователи) имеется
200896 ребер (
связи между ними). А это в среднем по 12-13 связей на одного человека.
Розовым цветом отмечены ТОП-3 человека, которые имею наибольший вес (напоминаю, что размер вершины прямо пропорционален кол-ву связей). Ниже представлена таблица ТОП-10 людей по весу в порядке убывания:
ID VK |
Имя/Фамилия |
Относительный вес (шкала от 0 до 2215) |
97723 |
Валерий Окунев |
2215 |
206186029 |
Глеб Коломиец |
1152 |
105522823 |
Ингруп Стс |
541 |
246391591 |
Anya Bjork |
203 |
84298132 |
Полина Клёнова |
198 |
9448597 |
Артем Камаев |
192 |
212268423 |
Виктор Козлов |
174 |
56572 |
Данил Фёдоровых |
156 |
11190617 |
Иван Чернявский |
129 |
154122439 |
Константин Бородич |
128 |
*Первые три из них в аккурат являются розовыми вершинами на графе.
Кстати, сам граф загружен в достаточно высоком разрешении (1920*1159).
4. Вывод
Беря во внимания тот факт, что самый «мощный» участник почти с двойным отрывом впереди от предыдущего, можно сделать предположение, что он играет одну из ключевых ролей в сообществе. Быть может, он является администратором? Проверить этого нельзя, т.к. контакты администрации скрыты в данном случае.
Вообще, примерно таким же образом можно попытаться вычислить админов неких «подслушек», и иных сообществ, где иногда охота узнать правителей в лицо. Тот же граф в увеличенном размере чисто для «красоты»:
С вами был Петр, большое спасибо за внимание. До встречи!
комментарии (28)