Основные проблемы сопоставления
и распознавания товаров и пути их решения
На сегодняшний день в России
не существует единой базы наименований товаров. Если в крупных
торговых сетях товарные позиции более-менее стандартизованы
(например, первое слово в наименовании означает категорию,
второе – бренд и т.д.), то в сетях уровня ниже и в отдельных
магазинах написание наименований зачастую производится в
хаотичном для общего восприятия порядке. Например, детальный
анализ 10–15% рынка выявил несколько десятков тысяч вариантов
написания пачки сигарет PARLIAMENT AQUA BLUE (алфавит, сокращения,
ошибки, пр.). Из-за большой вариативности написания вручную
создавать справочник наименований и в дальнейшем работать
с ним не представляется возможным. Без математики и алгоритмов
здесь не обойтись!
Показательным примером является проблема двойных названий.
Например, если человек понимает, какой артикул кроется за
наименованием «водка «Огурцы», то система видит два ключевых
слова и не может определить что это – алкоголь или овощ?
Кроме того, названия товарных позиций часто сокращают. Так,
например, для своего удобства ритейлер может обозначить
красную пачку сигарет, пользующуюся наибольшим спросом,
как «LM» (без обозначения цвета), при этом синяя будет значиться,
как «LM синий». Зачастую аналогичная путаница встречается
и с вкусовыми характеристиками. Например, «Молочный шоколад»,
«Чудо-шоколад» или «Молочко с запахом шоколада». Все эти
товары относятся к абсолютно разным категориям – кондитерское
изделие, напиток и парфюмерия соответственно. И таких примеров
может быть множество. Не стоит забывать об англицизмах,
ошибках, сокращениях и т.п. Со всей этой запутанной массой
вариантов достаточно сложно работать.
Для соотнесения различных вариантов написания наименований
к конкретным товарам используются различные алгоритмы. Так,
некоторые решения при помощи метрики высчитывают «расстояние»
между строками (например, пиво «Балтика 3» в жестяной банке
0,50 л.) и таким образом определяют, что это за товар.
Мы же предлагаем совершенно иной подход, делая акцент не
на метрические данные, а вычленение сути, которая заложена
человеком в строку с названием товара – на основании всевозможных
строк с названиями товаров, которые мы получаем из интернет
и от ОФД, алгоритм определяет часто встречаемые слова (бренды,
категории, важные свойства и т.п.) и самостоятельно предлагает
правила, идентифицирующие среди набора строк конкретные
товары и категории.
Мы разработали эффективный визуальный инструмент, позволяющий
операторам верифицировать правила, предлагаемые машиной,
а также вносить свои собственные, тем самым постепенно обучая
и улучшая промышленный алгоритм.
Как правило, на первичную настройку оператору требуется
несколько недель, после чего система работает в автоматическом
режиме. Чтобы обработать спорные случаи (и убедиться в том,
что точность «матчинга» не падает, а остается на согласованном
с клиентом уровне) оператору необходимо дополнительно несколько
часов в месяц на их устранение. Введение в систему каждой
новой категории занимает определенное время в зависимости
от ее размера.