13:32, 11 ноября 2019, 13:32
Количество просмотров 2668

Как не потеряться в многообразии SKU в чеках, делать аналитику и прогнозировать?

Представители оператора фискальных данных «Такском» и компании «GoodsForecast» рассказали о решении задачи сопоставления текстовых наименований товаров в контрольно-кассовых чеках в своем выступлении на II Всероссийском форуме с международным участием «Цифровизация – 2019», проводимом МГУ имени М.В. Ломоносова.
Как не потеряться в многообразии SKU в чеках, делать аналитику и прогнозировать?
 - рис.1
Представители оператора фискальных данных «Такском» и компании «GoodsForecast» рассказали о решении задачи сопоставления текстовых наименований товаров в контрольно-кассовых чеках в своем выступлении на II Всероссийском форуме с международным участием «Цифровизация – 2019», проводимом МГУ имени М.В. Ломоносова. 

От имени ОФД «Такском» выступил Артем Меликджанян, руководитель департамента развития бизнеса, от «GoodsForecast» – Даниил Каневский, директор по аналитике. Доклад состоялся в рамках блока «Развитие сквозных технологий» панели «Большие данные». 
Big data analytics: зачем нужна и кому?

Сейчас операторы фискальных данных, в том числе «Такском», предлагают клиентам новый инструмент для развития бизнеса – Big data analytics. Данные ОФД можно использовать для оценки эффективности рекламы, анализа потребительской корзины, сравнения своих продаж со средними показателями на рынке, оценки эффективность работы кассиров. И это далеко не полный спектр возможностей, открывающихся перед бизнесом. 

Товар один, наименований – сотни

Чтобы предоставлять качественную аналитику, нужно решить основную проблему при работе с чеками – вариативность текстовых наименований одного и того же товара в различных торговых точках. 

Представим, вы купили абсолютно одинаковые бутылки «Кока-Колы» в нескольких магазинах: «Ашане», «Магните» и «Пятерочке». Товары идентичны, однако их наименования в полученных вами чеках – разные. Более того, по одному и тому же товару могут быть сотни вариантов наименований в чеках.  Возникает вопрос: как быстро и точно группировать их, если это один и тот же товар?

На помощь придет база знаний

«При внесении наименования товара люди опираются на одни и те же его ключевые свойства, – сообщил Даниил Каневский. – Эта гипотеза и легла в основу разработанного нами подхода». Так, в «GoodsForecast» формируют базу знаний, позволяющую определить уникальную специфику наименований различных товаров.
Как это выглядит на практике? К примеру, перед ОФД поставлена задача проанализировать продажи творожного десерта «Чудо». SKU, то есть уникальное наименование товара, звучит как «Чудо творожок воздушный с вареньем вишня-черешня 4%, 100 гр». Это своеобразный эталон, по которому ОФД ищет товар в кассовых чеках. Но фактически в фискальных документах отражено куда больше вариантов: «Десерт молоч с твор кр Чудо 4% 100 г вишня», «Творожок Чудо с джемом вишня черешня 4,0% 100 г ОАО Вимм Билль Данн»...

Каждое слово из SKU становится вершиной графа базы знаний. В рассматриваемом случае это «Чудо», «творожок», «воздушный», «4%» и так далее. 
 - рис.2 
Алгоритм учитывает частоту совместного расположения отдельных слов в базе знаний чеков, обнаруженные торговые марки и количественные показатели (вес, жирность продукта и т.п.). Благодаря этому при сопоставлении можно делать выводы, что это один и тот же товар, хотя и прописан в чеках по-разному.
Информация в базе знаний регулярно пополняется, формируя словари брендов, единиц измерения, русского языка, синонимов-алиасов (gold = золото = голд). Это увеличивает процент точности сопоставления. 

Долгосрочное решение: единый классификатор товаров

Если решение задачи сопоставления наименований товаров в узком смысле предусматривает предоставление качественной аналитики в ответ на заказ клиента, то в широком смысле ее решение позволит создать единый динамический справочник и классификатор товаров. 
У разных заказчиков и исполнителей разный подход к классификации. Наличие универсального каталога, опираясь на термины которого заказчик ставит задачи, решает многие проблемы. Поскольку в новом подходе графы базы знаний выстраиваются автоматически, то классификатор можно сделать динамичным. Это долгосрочное решение проблемы сопоставления.

«Через ОФД "Такском" проходит более 150 млн чеков еженедельно, а на обслуживании у нас находится более 500 000 кассовых аппаратов. Наше покрытие  позволяет анализировать колоссальный объем информации для заказчика. Разработанные алгоритмы сопоставления наименований товаров существенно повышают качество этой информации, благодаря чему заказчик может решать задачи анализа товарного ассортимента, уровня цен, географии продаж, анализировать динамику изменений и делать прогнозы», – заключил в конце выступления Артем Меликджанян.
Рубрика:
{}
Теги:

ТАКЖЕ ПО ТЕМЕ