Сегодня основным трендом в ритейле является омниканальность — интеграция различных каналов продаж (офлайн-магазины, интернет-магазины, мобильные приложения, телефонные звонки и т. д.). Это означает, что отдельные точки контакта работают как единая система, а покупатель получает возможность выбрать именно тот способ покупки, который удобен лично ему.

При всех плюсах омниканальности ее не так просто реализовать: как правило, она требует полной перестройки и оптимизации IT-системы. 20 лет назад доля онлайн-торговли в России была ничтожной по сравнению с офлайн-покупками, а сегодня она составляет уже 3-5% и ежегодно растет на 30%. В 2017 г. ее объем превысил 1 трлн. рублей (по предварительным оценкам Ассоциации компаний интернет-торговли). При этом, согласно данным Data Insight, 16% онлайн-продаж приходятся на мобильные приложения, ставшие предпочтительным каналом продаж для молодежи. Исторические системы, на которых раньше работали онлайн-ритейлеры, не справляются с обработкой постоянно растущего потока данных.

Растущий объем данных при низком уровне производительности IT-инфраструктуры приводит к нестабильной и медленной работе. Но в эру избытка информации и дефицита времени низкая скорость работы уже стала непростительным грехом. Как показывают исследования, задержка загрузки веб-страниц всего на 100 миллисекунд снижает конверсию на 7%. При задержке в три секунды больше половины пользователей просто уходят искать нужный товар на других сайтах. Если покупатель заказал товар, а потом обнаружилось, что его на самом деле нет в продаже — будьте уверены, с таким клиентом можно попрощаться.

Имея дело с большими данными, ритейлер должен понимать, от каких факторов зависит скорость их обработки. Во-первых, это архитектура хранения, и во-вторых, используемые аналитические инструменты. На данный момент рынок ПО предлагает множество решений для хранения и обработки big data с различным уровнем производительности. Их мы подробно рассмотрим ниже.

Системы на основе дисковых хранилищ

Дисковые аналитические системы — такие как Apache Hadoop и его коммерческие версии — были первыми в истории ПО платформами для работы с big data. Ранее Hadoop считался стандартом для хранения и обработки больших объемов данных: он надежен, его легко масштабировать, для него разработаны дополнительные инструменты (Spark, Hive, Pig, Oozie и т. д.), которые облегчают работу с данными. Сегодня дисковые системы все еще широко распространены.

Главным минусом подобных систем является сложность локального развертывания. Они требуют большого количества физических серверов, и только самым крупным компаниям под силу приобрести, разместить и обслуживать их. В то же время этот момент можно обойти с помощью подписки на облачную платформу на базе Hadoop. В таком случае ваша компания получит доступ к необходимому функционалу платформы, а облачный провайдер возьмет на себя техподдержку и обслуживание. Кроме того, PaaS-платформу достаточно легко масштабировать в случае роста нагрузки.

При этом необходимо заметить, что дисковые аналитические системы (как локальные, так и облачные) обладают «врожденным» неустранимым недостатком. Их узким местом является подсистема ввода-вывода, которая загружает данные из хранилища в оперативную память для обработки. Даже если оптимизировать дисковую систему, внедрив наиболее эффективные алгоритмы, время отклика остается слишком большим. Отчасти эту проблему решает кэширование часто запрашиваемых данных, но здесь есть свои нюансы: нужна синхронизация между кэшем и основным хранилищем, кэш может переполниться или содержать устаревшие данные. Это значит, что такая система не может одновременно обеспечивать актуальность информации и высокую скорость обработки.

In-memory computing

In-memory computing — это технология, основанная на распределенном хранении больших данных в оперативной памяти (RAM). Такое хранение данных обеспечивает возможность сверхбыстрой обработки, потому что устраняется основная причина задержки: медленная загрузка данных с дискового хранилища или твердотельного накопителя в RAM. Интересно, что развернуть такую систему можно на нескольких обычных компьютерах или серверах. Они объединяются в кластер, способный в реальном времени обрабатывать и анализировать петабайты данных. По сравнению с традиционными системами in-memory решения позволяют увеличить производительность IT-инфраструктуры до 1000 раз.

Помимо высокой производительности, in-memory платформы отличаются возможностью неограниченного масштабирования. Это значит, что при росте бизнеса и увеличении нагрузки достаточно добавить в кластер дополнительные узлы (процессоры), а не перестраивать всю систему. Например, в «Сбербанке» кластер из обычных компьютеров совершает 1 млрд. операций в секунду.

Никита Иванов, основатель и технический директор компании GridGain.

На сегодняшний день in-memory решения разрабатывают Oracle, Microsoft, SAP и другие гиганты этой отрасли. Среди лидеров ритейла, внедривших эту технологию, можно назвать «М-Видео» и Walmart.

Несмотря на высокую эффективность, in-memory системы не лишены недостатков. Один из них — достаточно высокие цены на оперативную память. Хотя ее стоимость в последние годы стабильно снижается, многие компании предпочитают использовать облачные in-memory платформы (такие как SAP HANA) вместо того, чтобы выстраивать локальную систему. PaaS-сервисы позволяют использовать все преимущества in-memory вычислений, избежав сложностей с созданием, настройкой и обслуживанием локальной системы.

Второй, более существенный недостаток in-memory систем — это высокая вероятность потери данных при отключении электроэнергии или перезагрузке. Все данные, хранящиеся только в RAM, могут просто исчезнуть. Чтобы снизить этот риск, необходимо добавить к in-memory системе резервное копирование на диске. Таким образом, мы плавно подошли к следующей разновидности систем для работы с big data — гибридным решениям.

Гибридные решения

Гибридные решения предлагают скорость in-memory вычислений, объединенную с надежностью дисковых систем. Гибридные системы не только предотвращают потерю данных, но и снимают проблему возможной нехватки RAM. Если оперативной памяти недостаточно, данные записываются на диск и могут использоваться в вычислениях.

К гибридным системам относятся SAP HANA (используется Walmart и Staples), Druid (внедрен Alibaba и eBay) и GridGain на базе Apache Ignite (его используют Apple, Sony, NewEgg, Сбербанк).

Необходимо иметь в виду, что гибридные системы отличаются по своей производительности от in-memory решений со сторонними дисковыми базами данных. Сторонняя СУБД остается «бутылочным горлышком», которое будет замедлять работу всей системы и снижать ее возможности масштабирования. Гибридная система, напротив, работает максимально быстро, используя дисковое хранилище только для хранения первичных данных и резервного копирования.

Минус у гибридных решений только один — относительно высокая стоимость RAM, т. е. необходимы заметные инвестиции для развертывания крупного высокопроизводительного кластера. К счастью, облачные сервисы доступны и здесь: к примеру, AWS и Google предлагают поддержку Apache Ignite в облаке.

Никита Иванов, основатель и технический директор компании GridGain

Подписывайтесь на наш канал в Telegram, чтобы первым быть в курсе главных новостей ритейла.

Отправить ответ

Уведомлять о
avatar