«Матчинг» – искусственный интеллект в действии

GoodsForecast
Российская компания GoodsForecast, разработчик решений для планирования и оптимизации цепочек поставок, резидент «Сколково», разработала новую технологию «матчинга» чековых данных. Система, основанная на искусственном интеллекте, позволяет решать проблему сопоставления и распознавания различных товарных позиций (SKU) в торговых точках. Благодаря уникальному алгоритму точность сопоставления наименований товарных позиций в ритейле повышается до 90–95%, а с поддержкой операторов – до 99%.
О компании и новом сценарии применения технологии искусственного интеллекта в ритейле журналу «Retail & Loyalty» рассказывает Андрей Лисица, генеральный директор компании GoodsForecast.
Андрей Лисица
генеральный директор компании GoodsForecast
Визитная карточка

Компания GoodsForecast входит в группу компаний «Форексис» и специализируется на разработке и внедрении программных решений в области управления и оптимизации цепочек поставок в сфере производства, дистрибуции и розничной торговли. Группа компаний была основана в 2000 году на базе Вычислительного центра Российской академии наук в научной школе академика Юрия Ивановича Журавлева, который начал заниматься областью математики, которая сейчас называется machine learning и data mining, еще в 60-х гг. ХХ века. Главной целью создания компании стало прикладное применение разработанных математических моделей и алгоритмов для бизнеса.
Основатели компании являются выпускниками Московского физико-технического института (ФизТех), а топ-менеджмент – это выпускники Московского Государственного Университета им. М. В. Ломоносова. Долгое время компания росла за счет студентов этих двух вузов, а сегодня обеспечивает высококвалифицированной работой более 200 человек.

GoodsForecast является участником консорциума, созданного Центром хранения и анализа больших данных при МГУ, и поддерживает тесную связь с академической и прикладной наукой. Например, сразу несколько сотрудников компании входят в экспертные рабочие группы по стандартизации
(ГОСТ и ISO) в области искусственного интеллекта. Благодаря использованию инновационных подходов к развитию бизнеса в 2013 году компания стала резидентом «Сколково».

Помимо решения задач прогнозирования спроса, GoodsForecast также представляет программные решения для планирования продаж и операций, планирования производства, управления товарными запасами, а также аналитику упущенных продаж и прогнозирование промоакций.

Компания является многократным победителем различных конкурсов по точности прогнозирования.


От взаимодействия с ОФД до алгоритма сопоставления наименований товаров

Изменения в Федеральном законе №54 «О применении контрольно-кассовой техники» обязали всех игроков розничной индустрии с 1 февраля 2017 года осуществить поэтапный переход на онлайн-фискализацию. Ритейлеры начали отправлять электронные версии бумажных чеков операторам фискальных данных (ОФД). Наличие таких агрегированных данных об устройстве спроса на российском потребительском рынке открыло новые возможности, в первую очередь, для аналитических компаний, таких как GoodsForecast.

На сегодняшний день нашими партнерами являются четыре крупнейших ОФД, обслуживающих около 70% онлайн-касс.

Поскольку рынок ОФД очень молод, единые правила игры еще не сформированы, что влечет за собой определенные трудности на начальном этапе сотрудничества с каждым новым партнером. Однако в будущем мы рассчитываем, что опыт/экспертиза работы с крупными ОФД в определенных направлениях будет заложен в основу стандартов для подключения других ОФД.

GoodsForecast выступает в качестве эффективного «мостика» между ОФД, ритейлерами и производителями. С одной стороны, мы налаживаем тесные связи с ОФД, с другой – благодаря своим компетенциям гораздо лучше ОФД понимаем, чего именно хотят клиенты из индустрии.

Сегодня мы работаем в основном с индивидуальными проектами больших компаний, но в планах – расширить клиентский портфель за счет налаживания сотрудничества с предприятиями малого и среднего бизнеса, которые по объективным причинам не имеют финансовых возможностей для инвестиций в собственные инновационные проекты. В этой связи партнерство с ОФД нам также интересно, в том числе и как инструмент для создания и продвижения массового продукта.
Какие возможности открывают данные ОФД?
Ценообразование
осуществлять мониторинг цен на рынке (какие цены на аналогичные товары на небольшом удалении от магазина?) и использовать эту информацию в своей ценовой политике;
Ассортиментное планирование
проводить анализ ассортиментной матрицы, выявлять пользующиеся спросом недостающие позиции и открывать их;
Открытие новых точек
определять, какие товары в той или иной локации пользуются наибольшим спросом, оценивать платежеспособность населения каждой локации и сформировавшиеся там покупательские предпочтения, а значит помогать прогнозировать спрос и объемы продаж в конкретной торговой точке;
Мониторинг рынка
производителям – в режиме почти реального времени осуществлять мониторинг цен и объемов продаж своих товаров и товаров конкурентов, снижать временные и материальные затраты на получение соответствующей информации от дистрибьютеров и торговых сетей, быстрее реагировать в контексте текущей ситуации (особенно важно в условиях карантина), повышать эффективность промо;
Скоринг
с помощью опции в банковских мобильных приложениях, которая позволяет клиенту видеть свои покупки, банк не только получает доступ к информации о сумме транзакции и торговой точке, в которой она совершена, но видит все его покупки, что позволяет ему более тонко понимать клиента, предлагать персонализированные скидки, кредиты и т.п.
Закупки
делать прозрачными закупки для госструктур и больших компаний, точно определять справедливую минимальную цену в контракте, которая зачастую сильно варьируется в зависимости от региона присутствия.
По некоторым из приведенных выше примеров у нас уже есть примеры реально работающих проектов. Основная сложность их реализации заключается в распознавании конкретных товаров в данных ОФД. .
Основные проблемы сопоставления и распознавания товаров и пути их решения

На сегодняшний день в России не существует единой базы наименований товаров. Если в крупных торговых сетях товарные позиции более-менее стандартизованы (например, первое слово в наименовании означает категорию, второе – бренд и т.д.), то в сетях уровня ниже и в отдельных магазинах написание наименований зачастую производится в хаотичном для общего восприятия порядке. Например, детальный анализ 10–15% рынка выявил несколько десятков тысяч вариантов написания пачки сигарет PARLIAMENT AQUA BLUE (алфавит, сокращения, ошибки, пр.). Из-за большой вариативности написания вручную создавать справочник наименований и в дальнейшем работать с ним не представляется возможным. Без математики и алгоритмов здесь не обойтись!

Показательным примером является проблема двойных названий. Например, если человек понимает, какой артикул кроется за наименованием «водка «Огурцы», то система видит два ключевых слова и не может определить что это – алкоголь или овощ? Кроме того, названия товарных позиций часто сокращают. Так, например, для своего удобства ритейлер может обозначить красную пачку сигарет, пользующуюся наибольшим спросом, как «LM» (без обозначения цвета), при этом синяя будет значиться, как «LM синий». Зачастую аналогичная путаница встречается и с вкусовыми характеристиками. Например, «Молочный шоколад», «Чудо-шоколад» или «Молочко с запахом шоколада». Все эти товары относятся к абсолютно разным категориям – кондитерское изделие, напиток и парфюмерия соответственно. И таких примеров может быть множество. Не стоит забывать об англицизмах, ошибках, сокращениях и т.п. Со всей этой запутанной массой вариантов достаточно сложно работать.

Для соотнесения различных вариантов написания наименований к конкретным товарам используются различные алгоритмы. Так, некоторые решения при помощи метрики высчитывают «расстояние» между строками (например, пиво «Балтика 3» в жестяной банке 0,50 л.) и таким образом определяют, что это за товар.

Мы же предлагаем совершенно иной подход, делая акцент не на метрические данные, а вычленение сути, которая заложена человеком в строку с названием товара – на основании всевозможных строк с названиями товаров, которые мы получаем из интернет и от ОФД, алгоритм определяет часто встречаемые слова (бренды, категории, важные свойства и т.п.) и самостоятельно предлагает правила, идентифицирующие среди набора строк конкретные товары и категории.

Мы разработали эффективный визуальный инструмент, позволяющий операторам верифицировать правила, предлагаемые машиной, а также вносить свои собственные, тем самым постепенно обучая и улучшая промышленный алгоритм.

Как правило, на первичную настройку оператору требуется несколько недель, после чего система работает в автоматическом режиме. Чтобы обработать спорные случаи (и убедиться в том, что точность «матчинга» не падает, а остается на согласованном с клиентом уровне) оператору необходимо дополнительно несколько часов в месяц на их устранение. Введение в систему каждой новой категории занимает определенное время в зависимости от ее размера.

Широта применения матчинга

Технология «матчинга» востребована не только в контексте данных ОФД. Она позволяет решать ряд других актуальных для компаний задач, в частности:
Анализ и соотнесение товарных позиций
Если ритейлер наладил мониторинг цен конкурентов, умеет автоматически распознавать строку с названием товара с этого ценника, то становится важным понять, как тот или иной товар соотносится с номенклатурой самого ритейлера, и есть ли у него такой товар? Если есть – то какой, если нет – то какие аналогичные товары есть в его ассортименте, как покупатель воспримет назначенную цену товара?
Мониторинг промоакций
В момент запуска промоакций ритейлеру важно знать, не проводится ли по этому товару или товару-заменителю аналогичная акция у его конкурентов. Конечно, такую информацию можно найти в интернете, но только «матчинг» позволяет быстро, эффективно и с хорошей точностью сопоставить товар в собственном промо с промо конкурента.
Сведение данных
В случае, если компания поглотила конкурента или объединилась с партнерам, или же исторически сложилось так, что важные данные велись в двух разных системах зачастую возникает техническая проблема по их объединению. Технология матчинга позволяет создать единый справочник из двух или нескольких баз данных.
Резюме
Аналитика ОФД стала реальностью совсем недавно, и рынок данных пока еще не сформирован. Но поскольку мы живем в эпоху, когда все меняется очень быстро, в итоге выиграет тот, кто первым научится извлекать пользу из этих данных. Только сейчас ритейлеры и производители начинают постепенно осознавать эффективность и ценность этого решения, и пока нельзя однозначно сказать, как быстро они смогут освоить все его возможности.

Как сказал еще в 2006 году британский математик Клайв Хамби, «Большие данные – это новая нефть». И тот, кто быстрее сможет разработать «месторождение» ОФД, тот и получит необходимое конкурентное преимущество.
8 (800) 350-45-46
INFO@GOODSFORECAST.RU