На данный момент система высшего образования свела математику до одноразового применения — сломать мозг студентов младших курсов непрофильных специальностей и благополучно выветриться к следующей сессии. Некоторые, правда, потом еще помнят, что такие науки как математика и статистика — это реальная сила, но мало кто это понимает и, тем более, применяет в своей деятельности.
В Datawiz.io, собрав несколько мат-гиков, мы решили попытаться изменить сложившуюся ситуацию. Интересно же использовать свои знания на чем-то реальном, измеримом, и даже, возможно, приносящем пользу обществу. Остановились мы на ретейл-индустрии. Ретейл предлагает множество данных для обработки, просто водопад цифр: продажи, чеки, ценообразование, покупатели, программы лояльности,… Есть с чем порезвиться.
Простая визуализация ретейл-данных — это тоже достаточно скучно. Традиционная аналитика может показать данные вчерашнего дня и выглядит круто в отчетах, но она никогда не покажет завтрашний день.
Модели машинного обучения действуют иначе. Они дают Вам возможности контроля и взаимодействия. Вы можете играть с моделями, изменять параметры и смотреть, как это влияет на результат, изучать возможные последствия различных комбинаций факторов. Чем не общение с оракулом?
Начнем с простого.
Возможно ли определить, продажи каких товаров могут влиять на общую выручку магазина?
Имеем исходные данные по двум магазинам, назовем их Гастроном и Универсам:
1. объем продаж товаров определенной категории;
2. количество упоминаний в чеках товаров определенной категории.
Составляем таблицы:
ряды — недели;
колонки — категории;
ячейки -количество проданных товаров или упоминаний в чеках.
Итого — 4 таблицы, по 2 на каждый магазин.
Сначала разберемся с корреляцией продаж. как влияют продажи товаров на общий оборот магазина и на продажи других категорий. Тут возможны 3 варианта развития событий.
Мы знаем, что практически любой магазин продает большое количество молока. Примем гипотезу, что продажи молока и оборот магазина прямо коррелируются. Мы обозначим данные о продажах молока синим, а данные об обороте — красным.
Сравним левый и правый графики, они практически одинаковы, что видно на рисунке.
На нижней диаграмме мы отобразили по горизонтали "Молоко и молочную продукцию", а по вертикали "Оборот", и тут так же мы можем наблюдать линейную зависимость. А значит, наша гипотеза была верна.
Покупатели приходят в магазин за молоком, но так же покупают и другие товары, а значит, для магазина выгодно привлекать покупателей даже за счет снижения цены на молочные продукты.
Но теперь нас интересует вопрос, как найти все товары подверженные корреляции, и как продажи товаров коррелируют с оборотом магазина? Используем корреляционную матрицу.
Корреляция продаж товаров по Гастроному
*При построении матрицы корреляция близкая к нулю обозначается кругом и серым цветом (используя выбранную нами цветовую гамму), а магнитуда колебаний от нуля определяется эллипсом и его цветом: синий в случае позитивной корреляции, красный в случае негативной.
На основе матрицы можем выделить топ товаров, продажи которых коррелированы с оборотом магазина
Хлеб и хлебобулочные изделия 0.977
Непродовольственные товары 0.950
Молоко и молочная продукция 0.934
Колбасные изделия 0.930
Снеки 0.870
Табачные изделия 0.835
Кондитерские изделия 0.802
Диабетическое питание 0.794
Бакалея 0.782
По нашему опыту хлеб, пакеты (непродовольственные товары), молоко и колбасные изделия имеют высокий коэффициент корреляции практически в любом магазине мира. Каждый, кто приходит в магазин, как правило, покупает один или несколько из этих товаров. А вот снеки, табачные и кондитерские изделия отличаются в этом конкретном случае, значит, у Гастронома есть покупатели, которые приходят в магазин именно за этими группами товаров.
Теперь применим анализ по частоте упоминаний товаров в чеках — ориентированный на покупателя, а не товар, подход.
Корреляция частоты упоминаний товаров в чеках по Гастроному
Выделяем из этой матрицы топ частоты упоминаний товаров в чеках:
Хлеб и хлебобулочные изделия 0.986
Колбасные изделия 0.961
Непродовольственные товары 0.956
Молоко и молочная продукция 0.944
Кондитерские изделия 0.867
Снеки 0.864
Табачные изделия 0.858
Мясо 0.829
Диабетическое питание 0.812
Как видим, топ-категорий и даже цифры по категориям остались практически те же.
Применим тот же подход ко второму магазину.
Корреляция продаж товаров по Универсаму
Топ частоты упоминаний товаров в чеках по Универсаму:
Непродовольственные товары 0.975
Хлеб и хлебобулочные изделия 0.968
Молоко и молочная продукция 0.948
Колбасные изделия 0.927
Диабетическое питание 0.905
Кондитерские изделия 0.899
Табачные изделия 0.858
Безалкогольные напитки 0.819
Алкоголь 0.785
Как видим, в Универсаме в топ вошли 2 новые категории — Безалкогольные напитки и Алкоголь вместо Бакалеи и Снеков у Гастронома.
Возможно это зависит от местоположения магазинов и конкурентной среды.
Корреляционные матрицы дают нам широкие возможности для анализа.
На чем хотели бы заострить внимание, при анализе данных матриц стоит учитывать не только корреляцию (позитивную или негативную). Не коррелируемые товары так же стоит анализировать. Например, растительное масло не коррелирует как ни с одной другой категорией товаров, так и с общим оборотом магазина. Анализ чеков аналогично показывает, что есть покупатели, которые приходят в магазин исключительно за растительным маслом. А значит, маркетолог может разместить его в торговом зале где угодно, и покупатель все равно отыщет нужный ему товар.
Еще один аспект: некоторые товары имеют обратную корреляцию, как, например, рыба и снеки. Это легко объяснить тем, что люди, как правило, в зависимости от своих предпочтений берут либо пиво+снеки, либо пиво+рыбу. Очень редко кто-то покупает и рыбу и снеки одновременно. Схожая ситуацию с мороженой и свежей рыбой, мороженным и тортами.
Детальный анализ связей между товарами дает большое количество таких фактов, которые могут быть полезны.
Корреляционный анализ показывает текущую ситуацию, товары значительно влияющие на оборот магазина. Но какие из них являются наиболее значимыми? Это проще рассмотреть с помощью построения линейных моделей, что будет темой нашей следующей статьи.