Вы никогда не задумывались о том, как Яндекс определяет пол пользователей? Яндекс.Метрика позволяет просматривать пол посетителей сайта.
Раскрывает завесу над этой тайной справка самого Яндекса:
«Яндекс определяет пол пользователей автоматически — с помощью технологии машинного обучения Матрикснет. Объяснить, как она работает, можно на примере.
Если показать человеку несколько белых предметов, он поймёт, что значит «белый», и сможет находить белые предметы среди множества вещей разных цветов. Ему не помешает, что среди предметов, по которым он учился, некоторые были круглыми и мягкими, некоторые — квадратными и твёрдыми, некоторые — жидкими, а некоторые — сыпучими. Человек поймёт, что в данном случае эти характеристики неважны, а обратит внимание только на цвет.
Примерно так же учится и компьютер, только он может обрабатывать гораздо больше разных факторов за гораздо меньшее время. То есть он может проклассифицировать много объектов с учётом многих параметров. Например, Матрикснет используется в ранжировании результатов поиска1.
Чтобы научить Матрикснет понятиям «мужчина» и «женщина», ему надо «показать» достаточное количество тех и других. Но для этого сначала надо отобрать пользователей с известным полом — а это непростая задача. В качестве основы брались данные из профессиональной социальной сети МойКруг — в профессиональной жизни люди чаще указывают о себе правильную информацию. Дальше данные обезличивались и автоматически сверялись с информацией из других источников. Отбирались только те пользователи, пол которых совпадал во всех источниках — в итоге около 500 тысяч мужчин и около 500 тысяч женщин. Именно по поисковым сессиям этих пользователей и учился Матрикснет — и выявил около трёхсот важных закономерностей (при этом он учёл «белое», «твёрдое» — отбросил). Из этих закономерностей Матрикснет построил сложную математическую формулу. По ней и определяется пол пользователя.
В описанном процессе есть одна дополнительная сложность. Представим себе, что человек учится различать фиолетовый, сиреневый, лиловый и пурпурный цвета. Сколько он ни будет стараться, про некоторые оттенки так и не сможет с уверенностью сказать, какой же это цвет. Он скажет только что-нибудь вроде «это скорее сиреневый, а это — похоже, лиловый». Примерно в такой же ситуации оказывается и компьютер, когда пытается определить пол пользователя по его поведению: ведь все люди очень разные, далеко не каждый укладывается в закономерности, выявленные машиной. Поэтому в каждом случае Матрикснет сообщает, насколько он уверен в своём решении. Примерно так: «Я уверен на 92%, что это женщина»».
Подробнее: http://company.yandex.ru/researches/reports/ya_on_men_women_11.xml
Я первый