Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica

Страница создана Ольга Максимова
 
ПРОДОЛЖИТЬ ЧТЕНИЕ
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
Построение единого
    федерального
    операционного хранилища
    данных YOTA на
    платформе HP Vertica

Владимир Баранов, YOTA Networks, 0404.2013
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                                                         2

О компании
Компания YOTA, основанная в 2007 году, стала первым российским оператором,
предложившим мобильный широкополосный доступ в интернет на основе технологии
передачи данных WiMAX, тестовый запуск которой состоялся в 2008 году. Спустя три года
компания вновь опередила конкурентов, запустив тестовую сеть четвертого поколения в
Казани. Эта сеть стала второй в мире сетью LTE. Осенью 2012 года на коммерческом
кластере из 20 БС в Москве YOTA впервые в мире продемонстрировала технологию LTE-A,
при использовании которой скорость в DL на абонентском устройстве достигла 300 Мбит/с
в реальных условиях.
В 2012 году Yota, один из крупнейших в мире операторов беспроводного интернета 4G,
включена в список самых ярких российских брендов последних лет согласно русской
версии журнала Forbes.
В июле 2012 года компания «Скартел», владеющая брендом YOTA, вошла в состав вновь
созданного холдинга Garsdale, который объединил 100% акций «Скартела» и более 50%
акций компании «МегаФон».

Баранов Владимир / Программные Миры НР / YOTA Networks
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                                                    3

О компании
В настоящее время LTE-сети Yota развернуты в нескольких десятках российских
городов. В планах на ближайшие 2 года охватить покрытием LTE 180 городов.

Баранов Владимир / Программные Миры НР / YOTA Networks
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                                                          4

Цель проекта
Создание системы по сбору, обработке, хранению и анализу всех возможных данных,
которые генерирует сеть LTE YOTA с учетом дальнейшего непрогнозируемого роста
источников, объемов и типов данных с неизменно жесткими требованиями по
скорости их загрузки, обработки и анализа. В основе такой системы – аналитическая
СУБД, спроектированная под Big Data.

Баранов Владимир / Программные Миры НР / YOTA Networks
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                                                    5

Почему Big Data ?
Проблемы традиционных СУБД при условии использования больших данных:

• Скорость и объемы загрузки данных
• Объемы и время хранения данных
• Хранение и анализ произвольных данных
• Скорость и объемы анализа
• Постоянный поиск компромисса между требованиями бизнеса и возможностью их
реализации

Для принятия эффективных решений требуется обрабатывать все больше и больше
данных и зачастую в режиме, максимально приближенном к реальному времени,
объемы данных растут в геометрической прогрессии и традиционные СУБД уже не
в состоянии соответствовать возрастающим нагрузкам. На смену им приходят
СУБД, изначально спроектированные для Big Data.

Баранов Владимир / Программные Миры НР / YOTA Networks
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                                                           6

Предпосылки. Объем данных.
800 000 петабайт было сохранено в 2009 году во всем мире. По прогнозам к 2020 году
объем данных составит уже 35 зеттабайт. Сегодня за 2 дня в мире сохраняется такой
же объем данных, как за весь 2003 год.

1 килобайт (KB) = 1024 байт
1 мегабайт (MB) = 1024 килобайта
1 гигабайт (GB) = 1024 мегабайта
1 терабайт (TB) = 1024 гигабайта
1 петабайт (PB) = 1024 терабайта
1 экзабайт (EB) = 1024 петабайта
1 зеттабайт (ZB ) = 1024 экзабайта
1 йоттабайт (YB) = 1024 зеттабайта

Баранов Владимир / Программные Миры НР / YOTA Networks
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                               7

Предпосылки. Многообразие данных.
Структурированные и
неструктурированные данные.

• Информация с датчиков
• Информация из логов
• xDR и т.п.
• Статистика
• Потоковый контент, аудио и видео
• Информация из социальных
сетей, эл.почты, SMS
• Неструктурированные документы
– формы, заявления, отчеты,
отсканированные изображения

Баранов Владимир / Программные Миры НР / YOTA Networks
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                               8

Предпосылки. Скорость обработки и анализа.

                  Batch

                Periodic

             Near online

               Real time

Баранов Владимир / Программные Миры НР / YOTA Networks
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                               9

Что такое Big Data?
Массивы данных, размер и тип
которых не позволяют
эффективно обрабатывать и
анализировать их с помощью
традиционных технологий и
инструментов.

Баранов Владимир / Программные Миры НР / YOTA Networks
Построение единого федерального операционного хранилища данных YOTA на платформе HP Vertica
04.04.2013                                                                          10

СУБД - основа Big Data
Какой должна быть СУБД?

1. Архитектура массивно-параллельных
 вычислений MPP (Massive Parallel
 Processing)

2. Отсутствие разделяемых компонентов
 (Shared nothing)
                                                         Short list претендентов:
3. Колонко-ориентированная
 архитектура (Column oriented)                           1.   HP Vertica
                                                         2.   EMC Greenplum
4. Компрессия данных                                     3.   IBM Netezza
                                                         4.   SAP Sybase IQ

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                        11

Наши требования к претендентам

Основные наши требования к ХД:

1. Управляемая масштабируемость
2. Отказоустойчивость 24/7/365
3. Многопоточная загрузка данных в реальном времени
4. Нулевое администрирование
5. Автоматическое управление производительностью при выполнении ad-hoc запросов
6. Организация зон разработки и тестирования

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                                                                       12

Выбор СУБД
Управляемая масштабируемость                             Конечный объем хранилища данных не является определяемой величиной и
                                                         будет прогрессивно расти по мере запуска регионов в сеть. Важным является
                                                         возможность постепенного наращивания производительности и увеличения
                                                         объема хранимых данных путем добавления новых серверов к существующим
                                                         без дополнительных вложений на докупку ПО и работ на перестройку
                                                         хранилища данных.

Данное требование заставило нас смотреть исключительно в сторону MPP систем,
оставив SMP сервера за рамками рассматриваемых нами вариантов. HP Vertica позволяет
постепенно наращивать как вычислительную мощность так и объем общего дискового
хранилища.

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                                                                    13

Выбор СУБД
Отказоустойчивость 24/7/365                              Хранилище данных должно иметь максимальную защиту от критических
                                                         падений и минимальное время на остановку для проведения техобслуживания
                                                         или апгрейта ПО и аппаратных средств. Это необходимо для соблюдения
                                                         требования постоянной доступности к актуальным данным. Потребителями
                                                         хранилища данных будут являться как пользователи, так и прочие системы,
                                                         которые имеют собственные требования к доступности данных.

Подавляющее большинство регламентных работ на СУБД HP Vertica проводятся без
остановки сервиса. Остановка одного или нескольких серверов из кластера приводит
лишь к некоторой потере производительности.

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                                                                     14

Выбор СУБД
Многопоточная загрузка данных в реальном                 Источником данных хранилища служит информация, генерируемая другими
времени                                                  системами и оборудованием по множеству регионов. Для выполнения условия
                                                         поддержки актуальности данных необходимо организовать процесс
                                                         постоянного сбора информации и обеспечения ее постоянной загрузки в
                                                         хранилище. С учетом большого объема поступающих данных, процесс загрузки
                                                         данных должен поддерживать параллелизм, загрузка данных очередями не
                                                         возможна.

HP Vertica содержит механизм WOS, позволяющий загружать данные сессиям в
специальную выделенную область памяти с подтверждением транзакции без ожидания
окончания работ по распределению и переносу данных на диск. Помимо скорости вставки
данных, улучшается и качество хранения данных в базе - по мере заполнения новыми
данными от сессий, WOS их собирает, сегментирует, сортирует и записывает в базу
данных, снижая их дефрагментацию, которая неизбежно бы была при большом
количестве вставок данных множеством сессий.
Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                                                                        15

Выбор СУБД
Нулевое администрирование                                Быстрое развитие новых проектов компании означает появление во времени
                                                         новых требований к ХД. Это приводит к тому, что привлечение сторонних
                                                         ресурсов для расширения функциональности хранилища имеет малую
                                                         эффективность за счет того, что передача задач внешнему исполнителю влечет
                                                         за собой большие временные издержки (ТЗ, согласования, проект,
                                                         тестирование, приемка работ и т.д. Таким образом, ХД должно максимально
                                                         просто и эффективно работать в режиме «Автомат» с возможностью
                                                         сопровождения, расширения функциональности и оптимизации задач
                                                         собственными силами специалистов.

У HP Vertica администрирование сервера заключается в том, чтобы правильно
организовать пулы соединений для пользователей, позволяющих контролировать
потребление ресурсов сессиями.

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                                                                        16

Выбор СУБД
Автоматическое управление                                Хранилище данных является поставщиком данных для систем и BI. Не
производительностью при выполнении ad-hoc                возможно заранее определить круг запросов к данным, которые будут
запросов                                                 затребованы различными системами и под каждый из них провести
                                                         оптимизацию работы системы. Таким образом, ХД должно позволять на этапах
                                                         проектирования модели данных определить наиболее востребованные части
                                                         данных, их способ хранения и сортировки, взяв всю работу по оптимизации ad-
                                                         hoc запросов на себя в режиме «Автомат» без требований ручного тюнинга
                                                         поступающих на обработку запросов.

У НР Vertica оптимизация работы с данными заключается в правильном проектировании
хранения данных, это достигается с помощью управления сегментаций и указания
сортировки данных. С помощью проекций можно описать дублирующие структуры данных
в виде нужных полей таблиц, со своей сегментацией, сортировкой и, при необходимости
группировкой полей, в виде хранения в одном блоке. Это позволяет значительно ускорить
выполнение запросов.
Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                                                                      17

Выбор СУБД
Организация зон разработки и тестирования                Требования отказоустойчивости и высоких нагрузок по загрузке и доступу к
                                                         данным не позволяют развернуть на промышленном сервере зоны для
                                                         проведения разработки новой функциональности и их тестирования. Требуется
                                                         возможность развертывания таких зон на отдельно стоящем аппаратном
                                                         обеспечении для организации этих работ

НР Vertica позволяет без дополнительных затрат развернуть тестовую и девелоперскую
зоны в рамках единой лицензии.

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                 18

Monash Research

   Vertica has a very attractive product offering. It’s perhaps the most
   scalable analytic DBMS outside of Teradata, running on the hardware
   of your reasonable choice. It’s also the one I recommend most often
   to clients in the 1-50 terabyte range.

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                               19

Наш выбор - HP Vertica

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                               20

HP Vertica cluster

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                                  21

YOTA case study
Единое федеральное DWH YOTA.

Источники данных (основные):                             Потребители данных:

1. Практически вся сетевая статистика и алармы           1. Практически все подразделения
2. Абонентская база (лицевые счета, тарифы и             2. Более 10 ИС
 т.д.)
3. CDR
4. EDR PCRF
5. Статистика DPI
6. Yota Access статистика
7. NAT трансляции
8. Configuration Management
9. Inventory

Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                                                                               22

YOTA case study
                                                         Первое внедрение HP Vertica на территории
             PoC                                         Центральной и Восточной Европы.
       на виртуальной
         платформе                                       Без привлечения интеграторов/консультантов.

                                                         Strengths
                                                         Price/performance value. Vertica customers we interviewed
                                                         identified performance, compression and ease of deployment
    Production system                                    as key advantages; ease of setup and automated database
                                                         design were mentioned frequently (one respondent's
                                                         organization, located in a country without technical
                                                         support personnel at the time of deployment, set up its
                                                         system entirely unaided).
             3 месяца
                                                         Magic Quadrant for Data Warehouse Database Management Systems
                                                         2013
Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                               23

YOTA case study

Объем данных: > 11 ТБ
Прирост: > 40 ГБ в день
Источники данных: более 30
Форматы данных: csv, xml, asn.1, hex, json,
dblink
Периодичность загрузки: near real time
Интеграция с другими ИС: более 10
Кол-во одновременных сессий: до 100
Кол-во запросов в минуту: до 2000
Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                24

Приобретенная выгода

1. Скорость анализа данных и построения отчетов выросла
   до 100 раз
2. Загрузка данных в режиме, близком к реальному
   времени
3. Можем позволить собирать и хранить больше данных
4. Стоимость владения сократилась
5. Отсутствуют риски упереться в потолок по
   производительности
6. Снижена вероятность простоя ХД
Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                     25

Залог успеха
1. Правильно спроектировать модель данных (структура
   таблиц)

2. Правильно организовать хранение данных (сегментирование,
   партиционирование, сортировка)

3. Правильно распределить нагрузки между ролями
   пользователей (ресурсные пулы)

4. Правильно организовать процессы загрузки и обновления
   данных (избегать update и delete больших объемов записей)

5. Своевременно производить оптимизацию (обновление
   статистики, дефрагментация таблиц, разработка
   дополнительных проекций для запросов)
Баранов Владимир / Программные Миры НР / YOTA Networks
04.04.2013                                                               26

Спасибо за внимание!

                                                         ?
                                                   Владимир Баранов
                                                 vbaranov@yotateam.com
                                                      Yota Networks

Баранов Владимир / Программные Миры НР / YOTA Networks
Вы также можете почитать