Как Яндекс определяет пол пользователей

Как Яндекс определяет пол пользователей
Как Яндекс определяет пол пользователей

Вы никогда не задумывались о том, как Яндекс определяет пол пользователей? Яндекс.Метрика позволяет просматривать пол посетителей сайта.

 Яндекс.Метрика позволяет просматривать пол посетителей сайта
Яндекс.Метрика позволяет просматривать пол посетителей сайта

Раскрывает завесу над этой тайной справка самого Яндекса:

«Яндекс определяет пол пользователей автоматически — с помощью технологии машинного обучения Матрикснет. Объяснить, как она работает, можно на примере.

Если показать человеку несколько белых предметов, он поймёт, что значит «белый», и сможет находить белые предметы среди множества вещей разных цветов. Ему не помешает, что среди предметов, по которым он учился, некоторые были круглыми и мягкими, некоторые — квадратными и твёрдыми, некоторые — жидкими, а некоторые — сыпучими. Человек поймёт, что в данном случае эти характеристики неважны, а обратит внимание только на цвет.
Примерно так же учится и компьютер, только он может обрабатывать гораздо больше разных факторов за гораздо меньшее время. То есть он может проклассифицировать много объектов с учётом многих параметров. Например, Матрикснет используется в ранжировании результатов поиска1.

Чтобы научить Матрикснет понятиям «мужчина» и «женщина», ему надо «показать» достаточное количество тех и других. Но для этого сначала надо отобрать пользователей с известным полом — а это непростая задача. В качестве основы брались данные из профессиональной социальной сети МойКруг — в профессиональной жизни люди чаще указывают о себе правильную информацию. Дальше данные обезличивались и автоматически сверялись с информацией из других источников. Отбирались только те пользователи, пол которых совпадал во всех источниках — в итоге около 500 тысяч мужчин и около 500 тысяч женщин. Именно по поисковым сессиям этих пользователей и учился Матрикснет — и выявил около трёхсот важных закономерностей (при этом он учёл «белое», «твёрдое» — отбросил). Из этих закономерностей Матрикснет построил сложную математическую формулу. По ней и определяется пол пользователя.

В описанном процессе есть одна дополнительная сложность. Представим себе, что человек учится различать фиолетовый, сиреневый, лиловый и пурпурный цвета. Сколько он ни будет стараться, про некоторые оттенки так и не сможет с уверенностью сказать, какой же это цвет. Он скажет только что-нибудь вроде «это скорее сиреневый, а это — похоже, лиловый». Примерно в такой же ситуации оказывается и компьютер, когда пытается определить пол пользователя по его поведению: ведь все люди очень разные, далеко не каждый укладывается в закономерности, выявленные машиной. Поэтому в каждом случае Матрикснет сообщает, насколько он уверен в своём решении. Примерно так: «Я уверен на 92%, что это женщина»».
Подробнее: http://company.yandex.ru/researches/reports/ya_on_men_women_11.xml

1 комментарий

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*