Хорошего просмотра! Как Big Data помогает выбрать релевантный фильм – и не только
Андрей Поваров,
директор Международного
центра программ и проектов
в бизнес-образовании РАНХиГС
Среди областей применения больших данных уже более десяти лет особое место
занимают рекомендательные системы (recommender systems), которые делают
разумные предложения – иногда неожиданные, но по большей части довольно
точные – относительно фильмов, музыки или товаров, которые могут понравиться
пользователю.
Андрей Поваров, директор Международного центра программ и проектов в бизнес-образовании РАНХиГС |
Среди областей применения больших данных уже более десяти лет особое место занимают рекомендательные системы (recommender systems), которые делают разумные предложения – иногда неожиданные, но по большей части довольно точные – относительно фильмов, музыки или товаров, которые могут понравиться пользователю.
По оценкам McKinsey, благодаря реко мендательным системам Amazon уве личивает продажи на 35%, а Netflix – на 75%1. Поговорим об этом подробнее.
Каким образом большие данные помогают находить фильмы, о которых мы никогда не слышали, но которые, скорее всего, нам понравятся?
Уже некоторое время назад исследователи обнаружили, что если группа людей, независимо друг от друга, приобретает определенный товар, то, собираясь спустя некоторое время купить что-то, никак не связанное с первой покупкой, они тем не менее опять приобретают тот же следующий товар.
Такие наблюдения, в сочетании с растущей необходимостью оказания помощи пользователям, которые пытаются сориентироваться в магазинах с ассортиментом, включающим десятки тысяч наименований товаров, способствовали началу активной разработки систем, прогнозирующих поведение покупателей и дающих им соответствующие советы. Сегодня мы называем такие системы рекомендательными.
Именно здесь и вступают в игру большие данные: они помогают найти шаблоны поведения и связи, которые не всегда можно объяснить по отдельности. И по мере роста размера и многомерности массивов данных компании могут находить интересные взаимосвязи и давать все более точные рекомендации.
Возвращаясь к фильмам, можно отметить, что в распространении рекомендательных систем в киноиндустрии в значительной степени заинтересованы кинотеатры, интернет-провайдеры, телеканалы и кинопрокатные сервисы. В центре внимания этих систем находятся не группы пользователей (сегменты рынка), а отдельные пользователи.
Как работают рекомендательные системы?
Одним из основных методов является коллаборативная фильтрация (collaborative filtering) – автоматические прогнозы (фильтрация) того, что может заинтересовать пользователя, делаются на основании предпочтений многих пользователей (в коллаборации, с учетом взаимного влияния). Предполагается, что если у субъекта А такое же мнение о какой-либо вещи, что и у субъекта B, то с большой долей вероятности его мнение совпадет с мнением В и о другом товаре – по крайней мере с большей вероятностью, чем у случайно выбранного человека.
Как правило, системы коллаборативной фильтрации оперируют очень большими массивами данных. Как и в остальных случаях анализа больших данных, прогнозы рекомендательных систем предназначены для конкретного пользователя, в то время как источником данных выступает множество (анонимных) пользователей.
Процесс состоит из двух этапов: сначала они ищут пользователей, оценочные шаблоны которых совпадают с шаблонами целевого пользователя, затем используют рейтинги, выставленные пользователями со схожими взглядами, для расчета прогноза для целевого пользователя.
Рекомендательные системы используют еще один общепринятый метод: фильтрацию с учетом информационного наполнения, в основе которой лежат алгоритмы, рекомендующие товары, похожие на те, которые пользователю понравились в прошлом. Однако у этого метода есть один недостаток: алгоритм не может рекомендовать пользователю новые (неизвестные) продуктовые направления, которые также могут ему понравиться. В связи с этим очень часто применяются гибридные системы фильтрации.
Практическое значение
Одним из основных методов является коллаборативная фильтрация – автоматические прогнозы того, что может заинтересовать пользователя, делаются на основании предпочтений многих пользователей |
Netflix, развлекательная компания, предлагающая потоковый сервис просмотра телепрограмм и кинофильмов, ежегодно тратит более 120 млн долл. только на то, чтобы поддерживать и развивать свои рекомендательные системы, в работе с которыми задействовано более 300 сотрудников. В 2007–2009 гг. даже проводился открытый конкурс, известный как «Премия Netflix», целью которого был поиск лучшего алгоритма совместной фильтрации для прогнозирования пользовательских рейтингов фильмов исключительно на основании предыдущих рейтингов, составленных анонимными пользователями.
Все это делалось для того, чтобы усовершенствовать собственный алгоритм Netflix – Cinematch. Победителю, предложившему новый алгоритм, эффективность которого минимум на 10% выше старого, предназначался Гран-при в размере 1 млн долл. Для начала Netflix предоставила участникам тренировочный массив данных, содержащий 100 480 507 рейтингов, выставленных 480 189 пользователями 17 770 фильмам. Каждый рейтинг включал в себя четыре элемента: пользователь, фильм, оценка по шкале от 1 до 5 и дата ее выставления.
Кроме того, Netflix предоставила квалификационный массив данных, содержащий более 2 817 131 рейтинга. При этом выставленные оценки были известны только судьям. Каждый представленный алгоритм применялся к одному и тому же квалификационному массиву с целью прогнозирования оценок. Результаты затем сравнивались с известными фактическими значениями, и рассчитывалась среднеквадратическая погрешность. Командам, представлявшим свои алгоритмы, сообщались результаты только половины этого массива (1 408 342 рейтинга). Это делалось в целях недопущения манипуляции данными, например, получения локального минимума на тестовом массиве в ущерб глобальному оптимуму (метод, известный как «поиск экстремума», hill-climbing).
В итоге команда BellKor’s Pragmatic Chaos (состоящая из нескольких групп участников, т. к. ни одна команда по отдельности не добилась успеха) представила алгоритм-победитель всего за 24 минуты до завершения конкурса, продлившегося почти три года. Результаты новой системы были на 10,06% точнее при среднеквадратичной погрешности 0,8558 (это означает, что по сравнению с алгоритмом, используемым компанией Netflix, ошибка в прогнозе была незначительной).
Победителю, предложившему новый алгоритм, эффективность которого минимум на 10% выше старого, предназначался Гран-при в размере 1 млн долл. |
Реализация
Победителю, предложившему новый алгоритм, эффективность которого минимум на 10% выше старого, предназначался Гран-при в размере 1 млн долл. |
Опыт Netflix помогает понять, что вычислительная мощность алгоритмов значительно увеличивает степень эффективности работы, создавая реальную коммерческую ценность.
Сегодня рекомендательные системы представляют собой очень практичный и хорошо зарекомендовавший себя способ взаимодействия с большими объемами данных. Пользователи могут найти все, что только пожелают – даже если они не знают точно, чего желают, а в некоторых случаях даже не зная о существовании продуктов, которые могут им понравиться.
По мере дальнейшего развития рекомендательных систем новые алгоритмы будут давать еще более точные и персонифицированные рекомендации. Кроме того, уже становятся доступны данные более высокого качества и новые технологии, такие как глубинное обучение на основе нейронных сетей.
1 mckinsey.com/industries/retail/ our-insights/how-retailers-cankeep-up-with-consumers