Дискриминация котов: веб-трекинг через невидимые картинки
Вы когда-нибудь задумывались над тем, по какому принципу вам показывают таргетированную рекламу? Почему, даже не лайкая ничего во время сёрфинга вы, возвращаясь на Facebook, видите рекламу, связанную с посещёнными вами сайтами? И кто заинтересован в том, чтобы отслеживать пользователей? В рамках моего учебного проекта, мне предстояло выяснить, какие компании стоят за трекингом посещений сайтов, и что они используют, чтобы делать это, не привлекая особого внимания.
Почему дискриминация
Что понимать под дискриминацией пользователей в интернете? Это когда цены на товары в онлайн магазинах меняются в зависимости от того, какие устройства используются для просмотра каталога. А нарушение приватности начинается тогда, когда сайты показывают вам рекламу средств от бессонницы, потому что вы засиживаетесь допоздна, так как это указывает на то, что данные о времени вашего пребывания в интернете передаются сторонним компаниям.
Что такое веб маяки
Веб маяк (в английском варианте «web beacon», или «1×1 pixel image») — это крошечная или прозрачная картинка, которая встраивается в страницу и используется для отслеживания действий пользователей.
Такие невидимые маяки могут использоваться не только для веб аналитики, но и для сбора агрегированной информации с целью продажи её сторонним сайтам, для построения социальных графов. Ещё одним из способов применения веб маяка это проверка, что электронное письмо прочитано. Отправитель узнает об этом, как только по определенной ссылке картинку запросили, а адресат может и не заметить, что она была в теле письма.
Сбор данных и статистика
В качестве начальных данных у меня было несколько JSON файлов со ссылками на картинки (как статически, так и динамически подгружаемых) с топ 800 доменов (по версии ALEXA). Оставалось разработать скрипт, который парсит эти файлы, проходит по ссылкам, закачивает картинки и сохраняет информацию о них в базе данных SQLite.
Эти JSON файлы содержали все ссылки на картинки, как 1st party (картинки находятся на том же сайте, где размещена ссылка на них) так и 3rd party (картинки хранятся на сторонних сайтах). И если в первом случае, маяки могут использоваться вполне в безобидных целях (для веб аналитики в пределах сайта), то во втором случае задействовано несколько сторон, и это уже межсайтовый трекинг. Так как интересовал именно последний случай, я использовала библиотеку tld, чтобы извлекать домен верхнего уровня.
Скрипт работает так, как если бы все cookies очищались перед каждым запросом, поэтому в первоначальных запросах к серверам поле Cookies пустое. Если в ответе от сервера есть заполненное поле set-cookie, это значение заносится в базу данных.
Есть два способа вычисления маяка: проверка размера и проверка поля в HTTP заголовке content size. Но не все ответы на запросы содержат поля content length и content type, так как они опциональные и даже могут содержать неправильные данные. Также встречаются маяки, которые при размере 1×1, возвращаются в пакете с content length > 100, так как картинка PNG формата. Поэтому при построении графиков я не учитывала значение content length.
Что делать, если в ответе нет картинки? Бывает, что сервер возвращает статус 204. Это означает, что контента нет, но, тем не менее, прохождение по ссылке зафиксировано. Поэтому если статус 204 и content type в HTTP заголовке содержит «image/», скрипт предполагает, что это веб маяк и помещает в базу значения width = 0 и height = 0. Таких маяков встретилось 37 294 (1.53%).
Всего было проверено 8 586 314 ссылок на картинки, в базе содержатся данные о 5 873 372 3rd party картинках, из них 2 431 277 маяка (41% от количества сторонних картинок это веб маяки!).
И еще немного статистики
В таблице image_domains хранится информация о провайдерах картинок (то есть это не те 800 топ сайтов со ссылками на картинки, а сервера, непосредственно хранящие эти картинки).
Количество доменов: 800
Количество доменов, где встретился хотя бы один маяк: 760
Количество страниц: 124 214
Количество страниц, где встретился хотя бы один маяк: 111 442
Количество провайдеров картинок: 4 348
Количество провайдеров картинок-маяков: 1 325
И то, что есть 40 доменов, на которых не встретился ни один маяк, не говорит о том, что они их не используют. Возможно, они используют маяки нестандартного размера (1×2, 3×1), которые тоже встречались при выборочной проверке ссылок.
Топ игроки на рынке веб трекинга
Итак, в базе 2 431 277 маяков. Интересно узнать, маяки каких из 1 325 провайдеров чаще всего встречались на страницах топ 800 доменов.
Большое Братство: кто следит за нами в Интернете
Интернет-ресурсы вторгаются в частную жизнь пользователей. Мы расскажем об основных методах слежки в Cети
Стоит пользователю поискать в Сети ноутбук или, предположим, скороварку — и рекламные блоки разных сайтов еще долго будут заваливать его предложениями интернет-магазинов. Те, кто не разбирается в подобных вещах, нередко воспринимают это как стечение обстоятельств или даже знак судьбы — в общем, магию в том или ином смысле. Но все гораздо рациональнее: так работает контекстная реклама — есть множество законных методов отслеживания активности людей в Интернете. Сегодня мы расскажем о наиболее распространенных.
Кто за нами следит?
Короткий, но достаточно полный вариант ответа на этот вопрос: все, кто может.
Кто следит за нами в вебе? Все, кто может #web #tracking
За пользователями шпионят практически все популярные ресурсы, но чаще всего это делают рекламные сети: Google Adwords (DoubleClick), Oracle Bluekai, Atlas Solutions (подразделение Facebook), AppNexus и другие. Далее идут разнообразные счетчики и прочие инструменты веб-аналитики.
Социальные сети не отстают от рекламных. Как и популярные видеохостинги (например, YouTube), сервис AddThis, плагин обсуждений Disqus и так далее. При этом не думайте, что те же соцсети могут следить за вами только в своей ленте. Это совсем, совсем не так: сегодня практически на каждом сайте есть кнопки или виджеты наиболее популярных сервисов, через которые и происходит учет всех ваших перемещений по необъятным просторам Интернета.
Слежка за человеком стоит всего пять баксов в час. А оптом и того дешевле: http://t.co/IoNO8BTGmo
Способы слежки
Методов великое множество. Базовые возможности получения данных о пользователе встроены в саму конструкцию веба: ваш браузер добровольно выдает сведения о вашем IP-адресе, версиях используемого программного обеспечения, разрешении дисплея и так далее. В сочетании этот ряд параметров уже представляет собой неплохую основу для дальнейших действий.
Сохраненные при посещении сайта небольшие файлы cookies содержат информацию для аутентификации, ваши предпочтения, часто посещаемые рубрики и так далее. Куки позволяют отслеживать пользователя по уникальному идентификатору и собирать о нем разные данные — это один из самых популярных вариантов.
Как уже было упомянуто выше, весьма мощный и удобный инструмент представляют собой кнопки социальных сетей. Дополнительное преимущество соцсетей в деле слежки состоит в том, что, они помимо всего прочего знают вас по имени и обладают довольно большим объемом дополнительной информации: они знают, что вам нравится в целом, а с помощью кнопок получают данные о том, что вам интересно в данный момент.
Существуют и более экзотические варианты, но эксплуатируются они реже. Например, в плагине Adobe Flash есть система хранения информации на стороне пользователя в виде так называемых локальных объектов, которые можно отслеживать. Компьютер можно идентифицировать даже по содержимому кэша браузера. В общем, различных способов масса.
Что мы теряем из-за слежки?
Мы мало знаем о том, какие данные и в каком объеме собирают компании: сами они об этом никогда не расскажут, а пользовательские соглашения пишутся максимально расплывчато. Остается только догадываться.
При этом следует иметь в виду, что слежка в Сети — вещь не настолько безобидная, как может показаться. Даже если вам по большому счету нечего скрывать от корпораций, на повестке дня всегда будет оставаться очень интересный вопрос: в чьи руки может попасть информация, которую собирают, пусть из сравнительно благих побуждений, интернет-компании?
Нельзя сказать, что эта информация хранится абсолютно надежно, — новости об утечках многих тысяч и миллионов учетных записей того или иного сервиса появляются настолько регулярно, что уже совершенно не воспринимаются как сенсация. Поэтому стоит по возможности ограничивать корпорации в их неуемном желании знать про вас все.
Методы защиты
Единственный действительно эффективный метод — выключить компьютер и спрятать его в сейф, не забыв отправить туда же смартфон, планшет и даже телевизор, если он у вас из особо умных. Прочие способы не дают стопроцентной гарантии, но мы попробуем рассказать о достаточно надежных и простых в реализации вариантах.
Для начала стоит поменять некоторые настройки браузера. Можно включить запрет отслеживания рекламными сетями — тогда браузер будет сообщать интернет-ресурсам о вашем нежелании делиться информацией, передавая им специальный заголовок «Не отслеживать» (Do Not Track).
Этот метод рассчитан на честность следящего, и его эффективность крайне невысока — многие сайты игнорируют DNT. Кроме того, стоит запретить автоматическую установку дополнений, включить блокирование подозрительных сайтов и всплывающих окон, а также обязательную проверку сертификатов SSL.
Еще один важный параметр — блокирование cookies, полученных от сторонних ресурсов (third party cookies), то есть не от просматриваемого вами сайта, а от рекламной сети, разместившей на нем баннер, например. Правда, следует иметь в виду, что с помощью некоторых ухищрений та же рекламная сеть может передать first party cookie, которые никогда не запрещают (в противном случае придется на каждом шагу проходить аутентификацию).
Come to the dark side, we have cookies! © NSA. Оказывается, АНБ использовало куки для отслеживания юзеров: http://t.co/RAoqeCcR4K
В современных браузерах есть функция приватного просмотра в отдельном окне — при закрытии такого окна вся информация о сеансе работы удаляется, что также затрудняет слежку. В этом режиме можно без потери удобства работать со всеми сайтами, на которых не требуется аутентификация.
Неплохой результат дает активация плагинов (Adobe Flash и так далее) только по запросу. Также не вредно будет периодически чистить кэш браузера — при нынешних скоростях в нем в любом случае не так много смысла.
Сказ о том, как наш коллега чистил систему от тонны рекламного мусора и не сошел с ума: http://t.co/9KnOHw64zd pic.twitter.com/Sp40WWN7G8
И конечно же, в обязательном порядке следует отказаться от разнообразных панелей, помощников поиска и прочих надстроек, которые сайты предлагают установить в браузер, — фактически это легальные шпионские программы, которые пользователь скачивает добровольно.
Что Такое Трекинг Cookies и С Чем Их Едят
Хотите знать, чем увлекаются ваши клиенты, что им по-настоящему интересно? Тогда дайте им печенье.
Нет, в этой статье не будет рецептов печенья и вообще никакой кулинарии. И тем более вы не будете читать 100 разных способов, как накормить печеньем клиента, чтобы он рассказал о своих интересах.
В этой статье вы узнаете, что это за таинственные «печеньки правды» маркетинга и как ими пользоваться во благо увеличения продаж.
Готовы узнать ещё один маркетинговый прием? Тогда читайте дальше.
Что такое Cookies?
Согласитесь, вам удобно, как пользователю, заходить на часто посещаемую страницу, например профиль в Facebook или Вконтакте, и не вводить каждый раз пароль? Ответ очевиден.
Это здорово экономит время.
А теперь посмотрим со стороны владельцев сайта. Согласитесь, удобно, когда вы можете различить уникального нового пользователя от того, кто уже посещал ваши страницы?
И без этого тоже никуда. Не зная этой мелочи, нельзя определить элементарно эффективность маркетинговых действий.
Так вот, все это делает для нас сookies (с английского те самые печеньки). Вернее сам по себе сookie ничего такого делать не умеет, однако он содержит информацию, благодаря которой все полезности, описанные выше, мы можем наблюдать.
Сookie — это небольшой текстовый файл, который формируется сервером при первом посещении страницы или через заполнение формы с данными (имя, пароль или любыми другими) и передается браузеру пользователя. То есть, этот небольшой текстовый файл (зачастую килобайты) хранится браузером и при повторном посещении пользователем страницы, отсылает эти данные на сервер. Сервер считывает информацию и понимает, что нужно делать.
Как можно использовать Cookies в маркетинговых целях?
Трекинг (как я писал уже где-то здесь ) — это технология отслеживания активности пользователей в интернете (посещений сайтов). С помощью анализа полученной информации, в дальнейшем персонализируется реклама по целевой аудитории.
Как работают Трекинг Cookies?
Cookies могут отслеживать перемещения посетителя только по сайту, домен которого находится в его коде. То есть, говоря простым языком, сookie может проследить перемещение только по тому сайту, который и отправил сookie. Это означает, что человек должен заранее побывать на сайте.
Как вышли из положения предприимчивые маркетологи в команде с такими же программистами?
В трекинге используются сторонние сookies.
Это значит, что текстовые файлы попадают на компьютер пользователя даже если он не посещал сайт.
Для этого создаются рекламные объявления с сookie, в коде которого запрограммирован нужный домен. То есть, человек кликает по объявлению на сайте с доменом «Х» и получает сookie, в коде которого домен «Y».
Таким образом сookie сайта «Y» соберет всю информацию о перемещениях и предпочтениях данного пользователя на сайте «Х».
Чем больше у сайта «Y» объявлений на различных сайтах, платформах разных тематик, тем больше информации о потенциальной аудитории соберут сookies и перешлют на сервер для анализа.
4 основные проблемы сбора информации с помощью трекинг сookies:
1 По поводу сookie в ходу много различных заблуждений — о вредоносности, утечки конфиденциальной информации и т.д., поэтому определенная часть аудитории старается периодически чистить от них компьютер;
2. Многие браузеры сегодня оснащены функцией отключения сookies;
3. Большая часть интернет аудитории посещает сеть через планшеты и мобильные телефоны. При выключении, перезагрузке этих устройств или завершение работы браузера в фоновом режиме автоматически очищаются все сookies;
4. Сookie не в состоянии отследить перемещения пользователя между мобильными приложениями.
Ставьте лайк, если вы узнали что-то новое для себя и напишите в комментариях ответ на вопрос: удаляете ли вы сookie? Если да, то почему? (Кто ответит, тому огромное спасибо от всей команды GeniusMarketing))
Что такое трекер для трафика, зачем он нужен и как его настроить (на примере платформы BYYD)
Зачем нужен трекинг
Трекинг позволяет грамотно распределить бюджет и не тратить его на неэффективные источники и рекламные кампании. Этот вопрос особенно важен, если кампания объемная — используются разные гео-таргетинги, операторы сотовой связи, модели устройств и другие параметры настройки. В таких условиях важно анализировать результаты и принимать решения, что изменить и донастроить прямо сейчас.
В этом и помогает трекинг.
Что отслеживают трекеры
Самые разные показатели:
Данные отображаются в одном интерфейсе, поэтому легко, например, скрыть нежелательный контент, определить геоточку, в которой пользователи наилучшим образом реагируют на рекламу, или вообще отключить рекламные площадки, которые работают в минус.
Принцип работы трекеров
Если обобщить, то трекинговые сервисы как бы пропускают трафик через себя, и в процессе собирают данные о показах, кликах и других действиях, преобразуя их в понятный вид.
Схема работы трекера
Трафик пропускается через трекер и, когда происходит событие (реклама отображается в приложении или пользователь кликает по ней), в трекер возвращается эта информация в виде post back-команды. Таким образом происходит фиксация количества различных показателей.
Кроме того, многие трекеры позволяют собирать и сегментировать данные аудитории, 1st * и 3rd ** party, а также проводить анализ аудитории и эффективности рекламных кампаний.
* 1st party данные с сайта рекламодателя — визиты, отдельные страницы, конверсии.
** 3st party данные — сегменты аудитории по полу, возрасту и т.д.
Виды трекеров
BYYD и трекеры
Мы в BYYD постоянно работаем с трекерами, так как стремимся к тому, чтобы рекламные кампании были максимально прозрачными для заказчиков.
Более того, при необходимости, мы предоставляем трекер Gemius бонусом под наши размещения.
Для оптимизации трекерных кампаний, мы используем динамический параметр
Важно настроить передачу данного параметра из трекерной ссылки в исходную.
Пример настройки для Doubleclick
Задача: передать динамический параметр
Шаг 1. Настройка итоговой ссылки внутри Campaign Manager
На уровне Placement открываем Tag defaults и делаем следующую настройку:
Шаг 2. Настройка передачи динамического параметра в итоговый URL
Переходим в настройки на уровне Ad, открываем Landing Page URL suffix и делаем следующие настройки:
Важно. Не указывайте параметр utm_term=
Пример набора, который вы должны отправить в BYYD:
Ссылка с utm-меткой:
Impression Tag (пиксель на показ):
Click Tag (кликовая ссылка):
Скопируйте Click Tag в адресную строку браузера, перейдите по ней. Должен сработать переход на указанный вами сайт. Если вы все сделали правильно, то в адресной строке вы должны увидеть ссылку с utm_term=
В дальнейшем при подготовке отчета по ключевому слову в Analytics или Метрике вы увидите ID приложения и статистику по нему.
Инструкцию подготовили коллеги из агентства Starlink.
Что такое трекеры в Интернете?
Интересует вот что. Реклы же как-то узнают что например один и тот же человек идет на сайт с разных устройств, или что он уже заходил. Расскажите кто в курсе подробнее что такое трекеры? Как они работают, какие данные передают и кому и зачем?
Анонимности в сети нет никакой, каждый ресурс что-то отслеживает, собирает, хранит и обрабатывает данные. Делают это с помощью трекеров: это общее название для целого класса технологий, которые собирают и хранят данные о пользователях в сети.
Технологий отслеживания очень много. Самая примитивная из них (и известная очень и очень многим) — файлы Cookie, или куки. Это такие файлы, которые сохраняются на компьютере пользователя, когда он заходит на какой-то сайт. И если человек еще раз посетит сайт, этот файл отдадут обратно ему, и система поймет, что пользователь уже заходил на страницу. И, например, предложит ему оплатить уже собранную в прошлый раз корзину, или поздравит с возвращением.
Есть и куки, которые отслеживают в целом вашу работу в браузере, запоминают, на какие сайты вы заходите, а потом передают эти данные третьим лицам: рекламным сетям. И уже эти сети используют сведения, чтобы показывать вам подходящую рекламу.
Кстати, вы можете видеть, кто и когда собирает информацию о вас. Есть сервисы, которые отслеживают не только работу трекеров, но и то, куда они передают данные. А вы можете отключить передачу данных. Например, я устанавливал расширение Ghostery (оно доступно почти во всех браузерах. Показывает слежку идеально, в базе куча трекеров, в общем, рекомендую.
Сейчас понял, что бесполезно пытаться отследить все, есть куча скрытых технологий, которые все равно следят за нами. Так что удалил и не парюсь теперь над тем, кто собирает мои данные.










