Платформа хранения и обработки больших данных 7TECH BigData

Cloud Native платформа хранения и обработки больших данных предназначена для работы с большими массивами структурированного и неструктурированного контента. Позволяет быстро и экономично создавать сервисы и приложения, основанные на больших данных и машинном обучении. Платформа способна разворачиваться в облачной инфраструктуре с использованием контейнеров Kubernetes, что позволяет уменьшить сложность больших приложений и дает возможность командам разработчиков быть более эффективными.

Преимущества:

ДЕШЕВИЗНА ОБСЛУЖИВАНИЯ
За счет экономии количества ядер и затрачиваемых ресурсов (по времени фактического использования)

ВЫСОКАЯ ПРОИЗВОДИТЕЛЬНОСТЬ
Обусловлена возможностью горизонтального масштабирования в облачной инфраструктуре

БЕЗОПАСНОСТЬ ДАННЫХ
Обеспечивается сквозным разграничением прав доступа к данным

ОТКАЗОУСТОЙЧИВОСТЬ
За счёт возможности зеркалирования облачного кластера по множеству поставщиков облачных вычислений

СКОРОСТЬ СОЗДАНИЯ ПРИЛОЖЕНИЙ
За счет контейнеризации и CI/CD-методологий

ГИБКОСТЬ В НАСТРОЙКЕ
Обусловлена возможность быстро перемещать приложения между облачными провайдерами


Архитектура:
bigdata
Состав платформы:

  • Озеро данных - обеспечивает горизонтально-масштабируемое хранение больших объемов данных 
  • API данных - обеспечивает простоту интеграции других подсистем с хранилищем
  • Структурированное аналитическое хранилище - SQL хранилище, использующее  MPP-обработку данных, которая сильно ускоряет сложные аналитические запросы к данным
  • Специализированное хранилище данных -  обеспечивает хранение данных о состояниях приложений и процессов системы
  • Управление потоками данных - предоставляет функции управления потоками данных и помогает осуществлять мониторинг состояния системы
  • Управление доступом к данным - осуществляет интеграцию с подсистемой управления метаданными
  • Управление метаданными - обеспечивает возможность управления метаданными внутри платформы 
  • Подсистема трансформации и загрузки данных - обеспечивает возможность трансформации данных в пакетном и потоковом режимах и загрузку данных в озеро и структурированное хранилище
  • Управление качеством данных - предоставляет различные алгоритмы и процессы управления качеством данных 
За счет своей гибкости, платформа может работать как на виртуальном ЦОДе, так и  на собственном аппаратном обеспечении внутри кластера виртуальных машин. Такой подход позволяет экономить средства на аппаратной части и аренде оборудования. Сервисы, реализуемые в платформе, могут работать в общедоступном или private облаке. Позволяет запускать ETL-процессы Apache Spark, что обеспечивает извлечение и подготовку данных для бизнес-использования.

Стек:

  • Среда исполнения - Kubernetes
  • Хранение и обработка данных - PostgreSQL, MongoDB, redis, neo4j, Spark, elastic, hadoop
  • Геоинформационная система - OpenStreetMap, OSM Mapnik, PostGIS
  • Языки программирования - Ruby, JS, Python
  • WEB-серверы - Nginx, Tornado
  • Представление статистических данных - Pentaho, Superset
  • Автоматизация бизнес-процессов - Camunda
  • Управление очередями сообщений - RabbitMQ, Kafka


Вернуться в решения

Group 36 Group 36 Group 16 ic_8 ic_9