Краткий бизнес-план проекта "Большие Данные" (Big Data)

Страница создана Dimoz Dimoz
 
ПРОДОЛЖИТЬ ЧТЕНИЕ
Краткий бизнес-план проекта "Большие Данные" (Big Data)
                                     01.2018

Описание и цель проекта

"Большие Данные" – это сверхбольшие массивы неструктурированных и
полуструктурированных данных, полученные из разнообразных источников, таких как
телеком, ритэйл, финансовый сектор, энергетика, жкх, транспортные компании,
госкомпании, нефтегаз, данные из соц.сетей и мессенджеров и т.д.

Для анализа таких данных и получения значимой выгоды для бизнеса (поставщика данных)
плохо подходят типовые математические и статистические методики. Здесь необходимо
применение индивидуальных алгоритмических методов и математических моделей, таких
как выявление закономерностей путем сравнения срезов данных, применения алгоритмов,
основанных на машинном обучении и т.д.

Предполагается обеспечить заказчику (поставщику больших данных) следующие услуги:

1) Сбор данных
Разработка четкой модели сбора только необходимых и ценных для бизнеса (клиента)
данных. Важно не загружать систему мало значимыми данными и "информационным
мусором", чтобы не получить на выходе бесполезные результаты.

2) Хранение данных
Обеспечение хранения сырых (необработанных) и промежуточных (агрегированных)
данных. Так же обязательное требование – это обеспечение сохранности и безопасности
данных (защита от утери, порчи, искажения и кражи).

3) Обработка и анализ данных
Извлечение ценной для бизнеса информации на основе полученных данных. Использование
математического анализа, применение индивидуальных алгоритмов и адаптированных
классических моделей.

4) Предоставление результирующих отчетов
Визуализация результатов в удобочитаемой форме. Наглядное сегментирование,
классификация и предоставление выводов и рекомендаций.

Что происходит на рынке Больших Данных

Российский рынок анализа больших данных по состоянию на 2017 год достиг уровня в 50
млрд. рублей (примерно 1/50 от общемирового значения) при сохраняющемся среднегодовом
приросте в 40% в год (мировой рынок растет на 10% в год).

Количество больших данных растет очень быстрыми темпами (90% данных были
сгенерированы за последние 2 года). Постоянно увеличивается кол-во пользователей и
технических устройств, генерирующих разнообразную, подходящую для анализа
информацию. Это и все большее расширение интернета (т.н. "Интернет Вещей") и
увеличение кол-ва устанавливаемых разнообразных датчиков и чипов за счет постоянного
удешевления их стоимости.

Рынок расширяется быстрыми темпами и требует увеличения мощностей (скорость и
возможность) по извлечению ценности из больших данных.

Ключевые игроки (поставщики решений и инфраструктуры)

Поставщики инфраструктуры, которые решают задачи хранения и предобработки данных:
SAP, Oracle, IBM, Microsoft, Teradata, Pivotal (EMC), SAS, HP Vertica, Cloudera, Google,
Amazon Web Services.

Датамайнеры (разработчики алгоритмов, которые помогают клиентам извлекать ценность из
больших данных): Yandex Data Factory, Алгомост, IBS, Прогноз, AT Consulting, Data-Centric
Alliance, CleverData, EasyData, Glowbyte Consulting, Double Data, DataMining Labs, MLClass,
BaseGroup Labs, Global Innovation Labs, Айкумен ИБС, SkyDNS, HFLabs.

Системные интеграторы, которые разворачивают системы анализа больших данных на
стороне клиента: Форс, Крок.

На рынке присутствует достаточное кол-во сильных игроков. Но зарубежные решения
существенно выросли в стоимости за счет падения курса рубля. Для российского же рынка
характерна нехватка квалифицированных специалистов, что затрудняет возможности
компаний по увеличению охвата растущего рынка.

Потенциальные клиенты

Сфера применения больших данных это:
- Поведение клиентов и таргетинг
- Финансовое планирование и анализ
- Продажи и выполнение заказа
- Операционное обслуживание
- Риск-менеджмент
- Оценка жизненного цикла продукта
- Логистика
- Планирование запасов
- Управление человеческими ресурсами

Розничная торговля
В базах данных розничных магазинов может быть накоплено множество информации о
клиентах, системе управления запасами, поставками товарной продукции. Данная
информация может быть полезна во всех сферах деятельности магазинов. Так, с помощью
накопленной информации можно управлять поставками товара, его хранением и продажей.
На основании накопленной информации можно прогнозировать спрос и поставки товара.
Также система обработки и анализа данных может решить и другие проблемы ритейлера,
например, оптимизировать затраты или подготовить отчетность

Финансовые услуги
Большие Данные дают возможность проанализировать кредитоспособность заемщика, также
они полезны для кредитного скоринга и андеррайтинга. Внедрение технологий Больших
Данных позволит сократить время рассмотрения кредитных заявок. С помощью Больших
Данных можно проанализировать операции конкретного клиента и предложить подходящие
именно ему банковские услуги. Помимо использования Big Data в маркетинговых целях,
технологии применяются для предотвращения мошеннических финансовых операций.
Телеком
Операторы сотовой связи наравне с финансовыми организациями имеют одни из самых
объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной
информации. Главной целью анализа данных является удержание существующих клиентов и
привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их
трафики, определяют социальную принадлежность абонента.

Горнодобывающая и нефтяная промышленности
Большие Данные используются как при добыче полезных ископаемых, так и при их
переработке и сбыте. Предприятия могут на основании поступившей информации делать
выводы об эффективности разработки месторождения, отслеживать график капитального
ремонта и состояния оборудования, прогнозировать спрос на продукцию и цены.

Прочие отрасли:
- Инжиниринг и конструкторские бюро
- Государственные предприятия, ЖКХ
- IT
- Логистика и транспорт
- Бизнес-сервис/Консалтинг
- Образование и здравоохранение

Возможности и сильные стороны

   -   Повышенный интерес со стороны пользователей к возможностям Больших Данных,
       как к способу увеличения конкурентоспособности компании.

   -   Перенос серверов, обрабатывающих персональную информацию на территорию
       России, согласно принятому закону о хранении и обработке персональных данных.

   -   Осуществление отраслевого плана по импортозамещению программного обеспечения.
       Данный план включает в себя государственную поддержку отечественных
       производителей ПО, а также предоставление преференций отечественной
       ИТ-продукции при осуществлении закупок за государственный счет.

   -   В новой экономической ситуации, когда курс доллара вырос практически в 2 раза,
       будет наблюдаться тренд по все большему использованию услуг российских
       провайдеров облачных услуг, нежели зарубежных.

   -   В госсекторе технологии больших данных используются относительно слабо.

   -   Повышенный интерес на обработку медиа-материалов, относящимися ранее к
       неструктурированной информации.

   -   Сильная сторона будущей компании – это гибкость и эффективность использования
       имеющихся ресурсов. Отсутствие бюрократии, избыточных издержек на "раздутый"
       штат сотрудников и быстрое реагирование на запросы клиента.

   -   Сфера применения технологии больших данных практически безгранична. Для
       каждой отрасли извлечение ценной информации из накопленных данных позволяет
       повышать качество и рентабельность бизнеса.
Риски и слабые стороны

   -   Сложности внедрения новых технологий в устоявшиеся информационные системы
       компаний.

   -   Недостаточность накопленных информационных ресурсов до уровня Big Data в
       компаниях.

   -   Необходимость обеспечение защиты данных и их конфиденциальности.

   -   Ограниченное число поставщиков больших данных.

   -   Низкое качество данных (неполноценность, непостоянность).

   -   Высокая стоимость технологий Больших Данных, что приводит к ограниченному
       кругу предприятий, имеющих возможность внедрить данные технологии.

   -   Нехватка квалифицированных кадров.

   -   Потенциальные изменения в законодательном урегулировании (152-й закон).

Техническое описание и архитектура

Горизонтальное масштабирование:
Рабочая система должна легко масштабироваться под необходимые нагрузки.

Отказоустойчивость и безопасность:
Должна быть обеспечена бесперебойность сервиса и защита от потери данных. Также
система должна быть устойчива ко внешним и внутренним атакам во избежании кражи
конфиденциальных данных клиента и компании.

Локальность данных:
Ввиду специфики взаимодействия с большим объемом информации обработка данных
должна происходить локально, чтобы избежать ненужных расходов (overhead) на перекачку
данных от сервера к серверу.

Для первичной архитектуры будет достаточно одного основного физического сервера
(виртуализация будет осуществляться с помощью ProxmoxVE). Бесперебойность сервиса
будет на должном уровне (отказ сервера из-за программного обеспечения намного вероятнее,
чем из-за физических компонентов).

Примерный объем данных, которыми располагают потенциальные поставщики: 1) меньше
100 терабайт данных: 45% компаний 2) 100 – 500 ТБ: 30% 3) больше 500 ТБ: 13%. Исходя из
этого для первой версии проекта будет достаточно суммарного объема хранилища в 10 Тб.

Ниже приведены примерные схемы архитектурных компонент:
Сроки реализации (дорожная карта)

М1 (milestone 1) – 1 месяц
Подбор необходимых компонент и програмных библиотек
Изучение возможностей, взаимосвязей и совместимостей
Разработка детальной архитектуры системы

М2 – 8 месяцев
Сборка и настройка серверов
Построение кластерной части проекта
Разработка и интеграция алгоритмов для анализа данных
Реализация системы по сбору входных данных
Реализация системы по отображению результатов
Настройка резервного копирования и восстановления
Тестирование системы и исправление ошибок
Нагрузочное тестирование и проверка отказоустойчивости

М3 – 1 месяц
Запуск рабочей бета-версии и тестирование на "живых" данных
Исправление ошибок и доработки

Итого: 9 месяцев для запуска рабочей бета-версии +1 месяц на финальный релиз

Финансовая часть

1) Прибыль

Российские компании готовы потратить на проекты связанные с аналитикой больших
данных в среднем 10 000 000 рублей (для западных компаний эта сумма больше и составляет
в среднем 750 000 $).

Прибыль формируется из расчета, что клиент получает прирост выручки/прибыли примерно
на 15% (данные из открытых источников по результатам внедрение систем обработки
больших данных). Учитывая, что потенциальные клиенты это средний и крупный бизнес, то
это очень существенная величина.

Ориентировочная стартовая стоимость обслуживания клиентов от 2 000 000 руб за проект.
Более точные расчеты зависят от специфики клиентского бизнеса и степени сложности
реализации.

2) Окупаемость

Зависит от качества и количества привлеченных клиентов. Для возврата первичных
инвестиций потребуются проекты с суммарной стоимостью в 5 000 000 рублей. После
выхода на расчетную мощность суммарная годовая выручка по проектам должна составлять
не менее 10 000 000 руб, чтобы находиться на уровне точки безубыточности.

2) Разовые расходы

Сервер основной:
16/20-cores CPU, 128/196 Gb RAM – 1500$ (Б.у. на Amazon.com. Вероятность отказа
основных компонентов сервера (мат.плата, цпу, озу) очень низкая. Аналогичная б.у.
конфигурация в России стоит от 3500$)
HDD 10 Tb х 2 – 700$ (Компоновка RAID 1. Диски необходимы только новые, т.к. выход из
строя диска – основная причина простоя сервера. Кроме того достоверно определить степень
износа и вероятность отказа б.у. диска достаточно проблематично даже с помощью smart.)
SSD 128 Gb – 50$ (Диск будет использоваться для логов и журналов системы, а также для
временных файлов).
Ethernet LAN 100/1000Mbps PCI-E – 50$
Power Supply 1000W – 100$ (Блок питания должен быть новый)

Сервер бэкапа:
Обязательно отдельный физический сервер (на случай уничтожения основного сервера
данные не должны быть утеряны).
4/8-cores CPU, 16/32 Gb RAM – 250$
HDD 2 Tb х 3 – 180$ (Будет использоваться распредленное файловое хранилище Ceph)
Ethernet LAN 100/1000Mbps PCI-E – 50$
Power Supply 500W – 50$

Коммутатор Switch – 100$
Серверный шкаф на 10/15U – 200$
Блок бесперебойного питания (ИБП) 1500W – 250$

Доставка из США – 500$ (за 45 кг груза (2 сервера). Остальное можно купить в России.)

Итого: 3980$ (231 000 руб)

Не учтены расходы связанные с обустройством офиса. Дальнейшие расходы на
оборудование будут зависеть от расширения компании.

3) Ежемесячные расходы

* Первичные расходы (этап реализации рабочей версии проекта):

На этапе подготовки первой рабочей версии проекта команду разработчиков можно
упразднить до “универсального” системного архитектора, выполняющего функции
проектирования и разработки системы, а также роль ведущего разработчика и системного
администратора.

Аналитик больших данных потребуется, начиная с 7-го месяца работы.

Остальные сотрудники будут набираться по мере необходимости и роста компании.

Интернет – 3000 руб/мес (100 Mbps для офиса. Так же есть вариант от МГТС на 500 Mbps
для квартиры за 1500 руб/мес.) Электричество – 2000 руб/мес (при среднесуточной загрузке
системы в 70%).

* Расходы после выхода компании на расчетную мощность:

Команда разработчиков и технической службы:
- Системный архитектор (Team Architect) – 250 000 / 350 000 руб/мес
- Системный администратор (Linux Senior DevOps) – 80 000 / 120 000 руб/мес
- Web-разработчик back-end / front-end (Senior Developer) – 140 000 / 200 000 руб/мес
- Аналитик больших данных (Data Scientist) – 80 000 / 150 000 руб/мес
- Менеджер проекта (Senior Technical Project Manager) – 100 000 / 180 000 руб/мес
Итого: 650 000 / 1 000 000 руб/мес

Команда отдела продаж и ведения клиентов:
- Руководитель отдела продаж – 100 000 / 150 000 руб/мес
- Менеджер по продажам – 30 000 / 80 000 руб/мес
- Аккаунт-менеджер – 30 000 / 80 000 руб/мес
Итого: 160 000 / 310 000 руб/мес

В расходах не учтены затраты на содержание офиса.

Итого на реализацию рабочей версии (срок 10 месяцев согласно дорожной карте)
потребуется 4 580 000 руб без учета офисных расходов. Дальнейшие расходы будут
рассчитываться по мере найма новых сотрудников и покупки нового оборудования.

============

Автор: Дмитрий Беляев (Software Engineer at OpticsPlanet, Chicago, USA). Более 10 лет
работы в сфере IT. Опыт построения высоконагруженных RTB-систем, создание с нуля
биржи обмена валют и криптовалют, опыт построения с нуля распределенной
вычислительной системы (вычислительный кластер).
Вы также можете почитать