Интернет-сёрфинг

BIG DATA. Часть 1: Информационные следы в интернете

Этим постом начинаю цикл заметок о интернете и Big Data, где попробую рассказать, как сбор данных в интернете и деанонимизация меняют наш мир. Что-то будет совсем очевидно, а что-то, надеюсь, систематизирует знания или даже расширит кругозор.

Представьте себе бесконечно мощный компьютер, который может за бесконечно малый промежуток времени сделать бесконечное число операций. А теперь представьте, что к нему подключен невероятный сканнер, который может в тот же, бесконечно малый промежуток времени, просканнировать каждую мелочь нашей вселенной, например, положение каждого атома, все векторы сил и т.д. То есть: 1) он просчитывает быстрее, чем течёт наше время; 2) знает абсолютно всё. Что это значит? — А то, что он может продублировать нашу вселенную в своей виртуальности и ускорить там течение времени, а мы можем туда заглянуть и увидеть наше будущее. Звучит фантастически, но возможно. Так, например, собирая данные с метеорологических станций, мы уже научились следить за передвижениями циклонов и предсказывать погоду.

То, о чём я говорю, называется Data Science — наука, которая изучает процессы сбора, обработки и анализа данных. Одним из предметов изучения которой, являются, так называемые «большие данные» — BIG DATA — огромные массивы данных, собирать и обрабатывать которые, стало возможно лишь в 2000-ых годах, благодаря технологическому прогрессу. Чтобы понимать, насколько большие объёмы данных имеются в виду, представьте, что есть таблица, в которую строки добавляются настолько быстро, что 1 человек не успевал бы зачитывать в реальном времени даже каждую десятитысячную запись.
И конечно, главным средством сбора такого кол-ва данных является интернет.

Кто и какие данные собирает о вас в интернете?

Ваши данные нужны почти всем:

  • Веб-сервисы (Google, Yandex и т.п.)
  • Социальные сети
  • Государство (в основном, спецслужбы)
  • Провайдеры (интернет и мобильная связь)
  • Веб-сайты, порталы (Например, форумы и новостные ленты)
  • Интернет-магазины
  • Рекламные трекеры
  • Производители ПО

А вот и то, что они с вас «считывают» во время пользования их ресурсами:

Google,Yandex Социальные сети Правительство Провайдеры Веб-сайты, порталы Интернет-магазины Рекламные трекеры Производители ПО
Идентификационные данные
Дата рождения
Пол
Адрес проживания
Адрес места работы/учёбы
Банковские счета, кредитные карты
Адреса электронной почты и профили в соц.сетях
Номера телефонов
Нарушеня общественного порядка
Данные о переездах
IP-адрес
Данные о соединениях
История посещений веб-сайтов
Журнал действий
Переходы по ссылкам
Источники перехода на сайт
Операционная система
Браузер и его расширения
Логи использования ПО
Геоданные
ID устройств и MAC-адреса
Язык системы и часовой пояс
Установленные и используемые шрифты
Данные дисплея(расширение, цветовая глубина)
Поисковые запросы
Поисковые запросы-источники перехода
Данные заполняемых форм
Информация о контактах, друзях, семье
Контент, загружаемый пользователем
Интересы
Посещаемые места
Профессиональные навыки
Информация о сети и устройствах в ней
Избранное позльзователем
Заметки органайзера
Итого: 35 33 32 35 20 17 21 15 11

У каждого свои интересы. Кто-то лишь проверяет, хорошо ли работают его продукты на устройствах пользователей, а кто-то планомерно пополняет строки в досье своих граждан. Как получается, что спецслужбы знают практически всё о вас без какого-либо согласия, думаю, объяснять не нужно. Но стоит ли истерить по поводу отсутствия анонимности в сети? — Однозначно нет. Для законопослушного гражданина, анонимность — равнозначна неполноценности и, даже, опасности, ведь сейчас практически каждый сервис построен на сборе персональных данных. Это экономно, эффективно и удобно для самого же пользователя. Умные алгоритмы, используя собранные данные, «подгоняют» сервис под нас, подобно тому, как портной кроит костюм, предварительно обмерив заказчика.

Что собрал я, пока вы читали эту статью?

Во-первых, с помощью Yandex Webvisor, зафиксировано каждое движение вашей мышкой на страницах сайта. Примерно в таком виде на каждого посетителя есть ролик от момента открытия любой из страниц домена ini.of.by до закрытия вкладки:


Во-вторых, это общая статистика, которую собрали модули Google Analitics и Yandex Metrika:

  • IP-адрес
  • Операционная система
  • Страна
  • Браузер
  • Возраст, пол(если они указаны в профилях гугл или яндекс)
  • Источник перехода(сайт) или поисковый запрос, через который вы попали на ini.of.by
  • Скорость загрузки страниц

В-третьих, с помощью «Единого пикселя ВКонтакте», вашему авторизированному в vk профилю присваивается незримая метка «Посещал ini.of.by». Но это не означает, что я знаю, кто конкретно посещал сайт. Все айди собираются в абстрактную аудиторию, идентифицировать которою, запрещает сам VK. Поэтому, я смогу лишь показывать вам таргетированую рекламу.

И это только базовый набор «датчиков» уважающего себя сайта.

Что же касается Google

— Не все, почему-то, понимают, как и зачем он работает. Однажды на занятиях, в политехнике, подробно разбирали структуру его организации и один студент сказал следующее: «Продуктами гугл являются его приложения и поисковая система, а клиентами гугл являются пользователи его сервисов». Для меня это прозвучало станно, т.к. клиент это, обычно, заказчик, покупатель или приобретатель услуг. т.е. платит и приносит прибыль. И как же я могу быть клиентом, если регистрирую несколько аккаунтов на гугл-диске, чтобы иметь халявные 15 ГБ за каждый? Есть простой ответ:

«А мы и не клиенты, мы — товар»

Да, звучит неприятно, зато очень точно описывает ситуацию. Ведь не секрет, что Google — самая большая рекламная площадка в мире и основной доход компании приносят именно покупатели наших с вами данных.

Продолжение следует…

Добавить комментарий

Ваш e-mail не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.