
Особенности поискового поведения в Интернете
Ежедневно, более 43млн человек пользуются поиском «Яндекса» из них 48%- мужчины, 52% - женщины. К такому выводу пришли аналитики компании comScore согласно исследования – об особенностях поискового поведения мужчин и женщин, проведенного в марте 2011.
Весной 2011 года «Яндекс» с помощью технологии Матрикснет -научился автоматически определять пол пользователей поиска. Матрикснет учитывает около трехсот закономерностей в поисковом поведении пользователей и при этом каждый раз оценивает вероятность того, насколько правильно определен пол того или иного пользователя.
Для этого исследования использовались данные о поисковом поведении пользователей, пол которых был определен с точностью не менее 70% – около 15 млн мужчин и около 15 млн женщин. Пол остальных пользователей был определен с меньшей вероятностью, поэтому данные об их поведении не учитывались. Таким образом, в исследовании речь идет о типичных поисковых запросах и сессиях мужчин и женщин, а поведение каждого конкретного человека может отличаться от этих средних данных.
1. Поисковая активность мужчин и женщин
По данным поиска «Яндекса», общая поисковая активность мужчин и женщин практически не различается – она совпадает с активностью всех пользователей Яндекса в среднем. Единственное заметное отличие – в количестве времени, которое пользователи тратят на поиск. Мужчины и женщины, пол которых был определен с точностью не менее 70%, ищут быстрее, чем пользователи «Яндекса» в среднем. Возможно, это связано с тем, что они задают к поиску больше типичных запросов – наиболее характерных для мужчин или для женщин.
2. Формулировки поисковых запросов
Основные различия между поисковым поведением мужчин и женщин – в самих поисковых запросах. В этом разделе поисковые запросы сравниваются по нескольким параметрам, начиная от тех, где разница между мужчинами и женщинами минимальна, и заканчивая теми, где она заметнее всего.
2.1. Длина запросов и опечатки
Мужские запросы немного короче женских – в среднем 3,2 слова против 3,5. При этом мужчины делают опечатки чуть чаще, чем женщины – в 12% и 11% запросов соответственно. И то, и другое отчасти связано с тем, что женщины чаще копируют в поисковую строку длинные цитаты – запрос получается длинным, а ошибиться в нем невозможно.
Цитаты в поисковых запросах
[ушей нет, а слышит, рта нет, а кричит, ума нет, а все языки знает]
[Американский исследователь семьи Соня Роудс выделяет в развитии семьи семь основных стадий]
[В дождь как из Ветхого завета мы с удивительным детиной плечом толкали из кювета забуксовавшую машину]
2.2. Запросы в форме вопросов
Женщины чаще общаются с поисковой системой на естественном языке. Например, они задают больше запросов в форме вопросов – то есть с использованием вопросительных слов. Так сформулированы 3,3% мужских запросов и 4,2% женских. Среди запросов со словами «что» и «как» и у мужчин, и у женщин наиболее популярны [что такое любовь] и [как правильно целоваться]. Запросы [что посмотреть из фильмов 2010] и [как заработать в интернете] чаще задают мужчины, а [что приготовить на ужин быстро и вкусно] и [как похудеть] – женщины.
2.3. Запросы с названиями цветов
По данным поиска «Яндекса», названия цветов чаще встречаются в женских запросах, чем в мужских (в 0,5% и 0,3% запросов соответственно). Самые популярные цвета у представителей обоих полов – красный, белый и черный. Самый «женский» цвет – то есть такой, про который женщины спрашивают чаще, чем мужчины, – коричневый, а самый «мужской» – синий.
2.4. Запросы с названиями городов
Женщины чаще мужчин добавляют в запросы названия городов (в 3,7% и в 2,9% запросов соответственно). Задавая такие запросы, и те и другие часто ищут различные организации и объекты инфраструктуры, компании, хотят купить что-либо, найти работу, сориентироваться на местности или узнать прогноз погоды.
По данным поиска «Яндекса», и мужчинам, и женщинам одинаково нужны банки, рестораны и учебные заведения. У мужчин сильнее интерес к вокзалам, такси и автосервисам, а у женщин – к фитнес-центрам, больницам и государственным организациям (жилищно-коммунальные предприятия, налоговые инспекции и т.п.).
Среди запросов, не связанных с организациями, особенно «мужскими» оказались запросы про газеты объявлений и спорт, а особенно «женскими» – про недвижимость.
2.5. Запросы с числами
Числа встречаются в мужских запросах в 1,7 раза чаще, чем в женских (в 15% и 9% запросов соответственно). В мужских запросах это в первую очередь артикулы различных товаров, в женских – даты и разнообразные номера.
По запросам с числами заметно, что женщины ищут очень много всего, связанного с детьми, – числа в женских запросах часто обозначают номера детских садов, школ и классов в школе, а также возраст детей.
2.6. Запросы с латиницей
Латиница присутствует почти в трети мужских запросов и всего в 13% женских. Такая большая разница связана с тем, что мужчины часто ищут названия брендов и софта. Среди женских запросов на латинице около 40% составляют адреса сайтов, по ошибке введенные в поисковую строку, и запросы, набранные в неправильной раскладке клавиатуры.
По данным поиска «Яндекса», «мужские» бренды в первую очередь связаны с техникой и гаджетами (наиболее популярны Nokia, iPhone, Hyundai, Sony Ericsson и iPad), «женские» – с косметикой, одеждой и турфирмами (Avon, Coral Travel, Oriflame, Victoria’s Secret и Pegas Touristic).
3. Содержание поисковых запросов
3.1. Поисковые интересы
Мужчины и женщины задают запросы на самые разные темы – и нет такой, которая интересовала бы только мужчин или только женщин. Тем не менее, соотношение запросов разной тематики у пользователей разных полов неодинаковое. По данным поиска Яндекса, самые «мужские» темы – то есть такие, которыми мужчины интересуются сильнее, чем женщины, – это ИТ и компьютерные игры, а самые «женские» – отношения между людьми, дети и поиск работы (рис. 5).
В рамках одной и той же темы мужчины и женщины часто ищут разные вещи. Например, среди всех предметов мужчин больше всего интересует электроника, а женщин – одежда и аксессуары (рис. 6). Досуг у мужчин состоит в основном из спорта и приготовления еды, а у женщин – из приготовления еды и походов в театры, музеи и рестораны.
Мужчин и женщин в равной степени интересуют автомобили, запчасти и всевозможные автомобильные аксессуары (хотя среди организаций мужчины ищут автосервисы и автосалоны гораздо чаще, чем женщины).
Разницу между мужскими и женскими интересами можно проследить также по запросам с определенными словами. Со словом «рецепт» и мужчины, и женщины часто ищут кулинарные рецепты, но у мужчин, кроме того, популярны «рецепты» для компьютерных игр. Со словом «абонемент» и мужчины, и женщины ищут абонементы в фитнес-центры, но у мужчин популярны также абонементы на спортивные соревнования, а у женщин – в бассейны, солярии и spa-салоны. Еще несколько подобных примеров – на рис. 7.
3.2. Поисковые цели
У большинства запросов можно определить не только тематику, но и цель, с которой их задают. Традиционно все запросы группируют в три большие категории – информационные, навигационные и транзакционные.
Особенно разнообразны информационные запросы. Часть из них связана с потребностью решить конкретную практическую задачу – например, [салат с авокадо], [как отключить автозапуск в flowplayer], часть касается нормативов, документации и т.п. – например, [ГОСТ на асбест листовой], [санитарно-гигиенические требования]. Но большинство из них – разнообразные теоретические вопросы, от заданий из кроссвордов до научных проблем – например, [царевич военный вождь троянцев], [полкласса как пишется], [суть идеи синергетики]. Среди этих групп самая «мужская» – документация, а самая «женская» – теоретические вопросы.
Навигационные запросы в основном связаны с поиском сайтов, компаний и организаций – чаще всего их ищут по названию, реже спрашивают про схемы проезда и конкретные адреса. Мужчины чаще вбивают в поисковую строку названия сайтов, а женщины – названия компаний и организаций.
Транзакционные запросы – такие, задавая которые, пользователь хочет совершить конкретное действие – купить слона, забронировать гостиницу и т.д. Часто такие запросы содержат характерные уточняющие слова. Например, женщины чаще мужчин хотят «смотреть онлайн» или «скачать» что-либо. Мужчины чаще интересуются покупками, причем ищут не только сами предметы, но также отзывы и тематические форумы о них.
Сходства и различия мужчин и женщин ярко проявляются в узких категориях запросов, где указано конкретное намерение. Например, и мужчины, и женщины хотят [купить] автомобиль и квартиру, но мужчины кроме того – ноутбук, iPad и PlayStation Portable, а женщины – дюфастон, котенка и билеты на поезд. Другие примеры подобных за просов – на рис. 9.
4. Сходства и различия поискового поведения мужчин и женщин
Портрет типичного мужчины (по данным поиска «Яндекса»)
Каждый день, когда мужчины ищут Яндексом, они задают в среднем 6,1 запроса. На 54% вопросов они находят ответ сразу, а на остальные – в среднем за 5 минут 25 секунд. Средняя длина мужских запросов – 3,2 слова. 12% мужских запросов содержат опечатки, около трети – латиницу. В 2,9% запросов мужчины вставляют названия городов, в 15% используют числа, в 0,3% указывают цвета, а 3,3% формулируют как вопросы. Чаще всего мужчины ищут в интернете различные предметы, мультимедийные объекты и информацию, связанную со своими хобби. Они гораздо сильнее женщин интересуются компьютерами и гаджетами. Мужчины чаще ищут материалы, чтобы самостоятельно решить ту или иную проблему – например, спрашивают про документацию и отзывы о товарах и организациях.
Портрет типичной женщины (по данным поиска «Яндекса»)
Каждый день, когда женщины ищут «Яндексом», они задают в среднем 6 запросов. На 55% вопросов они находят ответ сразу, а на остальные – в среднем за 5 минут 50 секунд. Средняя длина женских запросов – 3,5 слова. 11% женских запросов содержат опечатки, 13% – латиницу. В 3,7% запросов женщины вставляют названия городов, в 9% используют числа, в 0,5% указывают цвета, а 4,2% формулируют как вопросы. Чаще всего женщины ищут в интернете мультимедийные объекты, различные предметы и компании. Они гораздо сильнее мужчин интересуются отношениями между людьми, детьми, поиском работы и здоровьем. Женщины склонны искать готовые ответы на вопросы – они чаще задают запросы, которые требуют однозначного ответа, а документацией и отзывами интересуются реже.
Основные цифры и факты
По данным поиска «Яндекса», общая поисковая активность мужчин и женщин практически не различается – она совпадает с активностью всех пользователей «Яндекса» в среднем. Мужчины тратят на поиск немного меньше времени, чем женщины.
Основные различия между поисковым поведением мужчин и женщин – в самих поисковых запросах.
Мужские запросы к Яндексу немного короче женских – в среднем 3,2 и 3,5 слова соответственно. Ошибки в запросах немного чаще делают мужчины – в 12% запросов, а женщины – в 11%.
Названия цветов чаще встречаются в женских запросах, чем в мужских (в 0,5% и 0,3% запросов соответственно). Самые популярные цвета у представителей обоих полов – красный, белый и черный. Самый «женский» цвет – коричневый, а самый «мужской» – синий.
Женщины чаще, чем мужчины, добавляют в запросы названия городов (в 3,7% и 2,9% запросов соответственно). По данным поиска Яндекса, и мужчинам, и женщинам одинаково нужны банки, рестораны и учебные заведения. У мужчин сильнее интерес к вокзалам, такси и автосервисам, а у женщин – к фитнес-центрам, больницам и государственным организациям.
Мужчины чаще женщин используют в запросах числа (в 15% и 9% запросов соответственно). У мужчин это в первую очередь артикулы различных товаров, а у женщин – даты и разнообразные номера. Числа в женских запросах часто обозначают вещи, связанные с детьми,– номера детских садов, школ и классов в школе, а также возраст детей.
Латиница присутствует почти в трети мужских запросов и всего в 13% женских. Мужчины на латинице ищут бренды и софт. Среди женских запросов на латинице около 40% составляют адреса сайтов, по ошибке введенные в поисковую строку, и запросы, набранные в неправильной раскладке клавиатуры.
Мужчины чаще, чем женщины, спрашивают Яндекс об ИТ и компьютерных играх, а женщины чаще, чем мужчины,– об отношениях между людьми, детях и поиске работы. Среди предметов мужчин больше всего интересует электроника, а женщин – одежда и аксессуары.
Мужчины чаще ищут материалы, чтобы самостоятельно решить ту или иную проблему – например, спрашивают про документацию и отзывы о товарах и организациях. Женщины склонны искать в интернете готовые ответы на вопросы – они чаще задают запросы, которые требуют однозначного ответа, а документацией и отзывами интересуются реже.
Приложение. Автоматическое определение пола пользователей
Яндекс определяет пол пользователей автоматически – с помощью технологии машинного обучения Матрикснет. Объяснить, как она работает, можно на примере.
Если показать человеку несколько белых предметов, он поймет, что значит «белый», и сможет находить белые предметы среди множества вещей разных цветов. Ему не помешает, что среди предметов, по которым он учился, некоторые были круглыми и мягкими, некоторые – квадратными и твердыми, некоторые – жидкими, а некоторые – сыпучими. Человек поймет, что в данном случае эти характеристики неважны, а обратит внимание только на цвет.
Примерно так же учится и компьютер, только он может обрабатывать гораздо больше разных факторов за гораздо меньшее время. То есть он может проклассифицировать много объектов с учетом многих параметров. Например, Матрикснет используется в ранжировании результатов поиска1.
Чтобы научить Матрикснет понятиям «мужчина» и «женщина», ему надо «показать» достаточное количество тех и других. Но для этого сначала надо отобрать пользователей с известным полом – а это непростая задача. В качестве основы брались данные из профессиональной социальной сети МойКруг – в профессиональной жизни люди чаще указывают о себе правильную информацию. Дальше данные обезличивались и автоматически сверялись с информацией из других источников. Отбирались только те пользователи, пол которых совпадал во всех источниках – в итоге около 500 тысяч мужчин и около 500 тысяч женщин. Именно по поисковым сессиям этих пользователей и учился Матрикснет – и выявил около трехсот важных закономерностей (при этом он учел «белое», «твердое» – отбросил). Из этих закономерностей Матрикснет построил сложную математическую формулу. По ней и определяется пол пользователя.
В описанном процессе есть одна дополнительная сложность. Представим себе, что человек учится различать фиолетовый, сиреневый, лиловый и пурпурный цвета. Сколько он ни будет стараться, про некоторые оттенки так и не сможет с уверенностью сказать, какой же это цвет. Он скажет только что-нибудь вроде «это скорее сиреневый, а это – похоже, лиловый». Примерно в такой же ситуации оказывается и компьютер, когда пытается определить пол пользователя по его поведению: ведь все люди очень разные, далеко не каждый укладывается в закономерности, выявленные машиной. Поэтому в каждом случае Матрикснет сообщает, насколько он уверен в своем решении. Примерно так: «Я уверен на 92%, что это женщина».