R&L: С какими сложностями вам пришлось столкнуться при запуске и тестировании проекта?
М. Замыцкий: Основная проблема, связанная с парсингом, – качество сопоставления наименований товаров, которое оказалось как раз тем дьяволом, который кроется в деталях. Мы должны быть абсолютно уверены в том, что одна и та же модель у нас и у всех наших конкурентов представлена одинаково. Однако все не так просто. Например, мы решили проверить цены на премиум-модель ноутбука и обнаружили, что у нас она стоит 80 тыс., у конкурентов – 100–110 тыс. руб. Начинаем разбираться, откуда же взялась разница в 20–30 тыс., и выясняем, что отличие – только в типе матрицы, а диагональ, процессоры, память – одинаковые. Увы, такие «мелочи», как параметры 2-го и 3-го порядка, стопроцентно можно отследить только вручную.
R&L: Каким же образом в итоге была решена проблема разночтений в написании моделей?
М. Замыцкий: Поскольку парсинг заложен в основу автоматического ценообразования, используемого в нашей сети, некачественные результаты могут серьезно повредить бизнесу. Поэтому мы ведем постоянную работу по выявлению разночтений – при этом понимаем, что добиться абсолютной корректности автоматического сопоставления цен невозможно.
Отмечу, что на сегодняшний день на рынке действуют 3–4 компании, предлагающие системы, способные осуществлять парсинг промышленного масштаба по большому количеству игроков. И у всех этих платформ слабое звено одно – качество сопоставления товаров. Каждый ритейлер, который использует эти решения, пытается справиться с проблемой по-своему: кто-то надеется сверить все таблицы только при помощи «зрительных способностей» сотрудников, кто-то разрабатывает более сложный алгоритм, обеспечивающий автоматическую сверку по большему количеству параметров.
При настройке парсинговой системы мы потратили не менее полугода на отладку механизма контроля качества привязок, чтобы быть уверенными в корректности получаемых нами результатов. На стороне партнера была протестирована система мониторинга, которая способна ставить под вопрос правильность результатов парсинга, тем самым обращая внимание сотрудников на сомнительные моменты. Также мы отслеживаем все случаи резкого снижения или повышения цен конкурентов на предмет корректности сопоставлений и в случае выявления ошибок сообщаем об этом партнеру. Модельные ряды обновляются очень быстро, и без рутины нам пока никак не обойтись.