Основные направления развития проекта МИВК и темы 1118 - Кореньков Владимир Васильевич - Лаборатория Информационных ...
←
→
Транскрипция содержимого страницы
Если ваш браузер не отображает страницу правильно, пожалуйста, читайте содержимое страницы ниже
Основные направления развития проекта МИВК и темы 1118 Кореньков Владимир Васильевич Директор ЛИТ ОИЯИ НТС ЛИТ ОИЯИ, 8 апреля 2019 года
Аннотация проекта развития МИВК на 2020-2023 годы Реализация проекта Многофункционального информационно–вычислительного комплекса (МИВК) ЛИТ ОИЯИ в 2017-2019 годах заложила фундамент для его дальнейшего развития и эволюции с учетом новых требований к вычислительной инфраструктуре для научных исследований в ОИЯИ на базе современных информационных технологий согласно 7–летнему плану развития ОИЯИ на 2017–2023 гг. Быстрое развитие информационных технологий и новые требования пользователей стимулируют развитие всех компонент и платформ МИВК. Многофункциональность, высокая надежность и доступность в режиме 24х7, масштабируемость и высокая производительность, надежная система хранения данных, информационная безопасность и развитая программная среда для различных групп пользователей являются основными требованиями, которым должен удовлетворять МИВК как современный научный вычислительный комплекс. Для выполнения этих требований необходимо обеспечить высокоскоростную телекоммуникационную и сетевую инфраструктуру, а также надежную инженерную инфраструктуру. Продление проекта МИВК направлено на модернизацию и развитие основных аппаратно-программных компонент вычислительного комплекса, создание современной программной платформы, направленной на развитие методов и алгоритмов машинного/глубокого обучения (ML/DL) для решения широкого спектра задач и приложений с элементами искусственного интеллекта. Компьютерная инфраструктура ОИЯИ включает в себя широкий спектр вычислительных компонент и IT-технологий для решения актуальных задач ОИЯИ – от теоретических исследований до обработки, хранения и анализа экспериментальных данных. Это ИТ-экосистема для проекта NICA (BM@N, MPD, SPD), Tier–1 эксперимента CMS в ОИЯИ, Tier–2/ЦИВК, обеспечивающий поддержку экспериментов на LHC (ATLAS, ALICE, CMS), FAIR (CBM, PANDA) и других масштабных экспериментов, а также поддержку пользователей Лабораторий ОИЯИ и стран-участниц (MPD/NICA, BESIII, ЛРБ, ЛЯР, ЛЯП, ЛТФ, ЛНФ); интегрированная облачная среда стран–участниц ОИЯИ для поддержки пользователей и экспериментов ОИЯИ (NICA, ALICE, BESIII, NOvA, Daya Bay, JUNO и т. д.); платформа HybriLIT с суперкомпьютером ГОВОРУН, как основной ресурс для высокопроизводительных гибридных вычислений. Финансирование, запрашиваемое на реализацию проекта соответствует контрольным цифрам 7-летнего плана ОИЯИ по направлению «Информационные технологии» и равно на 2020-2023 годы. Финансирование значительного расширение систем хранения данных для нейтринной программы и проекта НИКА предусматривается за счет бюджета конкретных экспериментов.
Основные этапы развития МИВК в 2020-2023 годах: 1. Развитие и совершенствование телекоммуникационной и сетевой инфраструктуры ОИЯИ. 2. Поэтапную модернизацию инженерной инфраструктуры МИВК ОИЯИ. 3. Модернизацию и развитие ИТ-инфраструктура проекта NICA, 4. Наращивание производительности и ёмкости систем хранения центра обработки данных уровня Tier1 для эксперимента CMS. 5. Модернизацию и развитие ресурсов , входящих в интегральную компоненту Tier-2/ЦИВК, обеспечивающую как поддержку экспериментов, использующих грид-среду и сотрудничающих с физическими группами в ОИЯИ, так и поддержку пользователей Лабораторий ОИЯИ и стран-участниц, не использующих грид-среду (MPD/NICA, BESIII, ЛРБ, ЛЯР, ЛЯП, ЛТФ, ЛНФ). 6. Наращивание облачной компоненты с целью расширения спектра услуг, предоставляемых пользователям, и создания интегрированной облачной среды для экспериментов с участием ОИЯИ (NICA, ALICE, BESIII, NOvA, Daya Bay, JUNO и т. д.) и стран-участниц ОИЯИ с использованием технологии контейнеризации. 7. Расширение гетерогенной платформы HybriLIT, включающей суперкомпьютер «ГОВОРУН». 8. Существенное увеличение ресурсов отдельных компонент МИВК для удовлетворения требований нейтринных экспериментов. 9. Разработку унифицированной системы управления вычислительными ресурсами, нацеленной на обработку больших данных. 10. Разработку унифицированной системы управления данными, общей для всех компонент МИВК (озеро данных ОИЯИ).
The Worldwide LHC Computing Grid Tier-0 (CERN): nearly 180 sites, data recording, 45 countries reconstruction and distribution 1 000 000 cores Dubna, JINR Tier-1: 1 EB of storage permanent storage, re-processing, analysis > 3 million jobs/day Tier-2: Simulation, 10-100 Gb links end-user analysis WLCG: An International collaboration to distribute and analyse LHC data Integrates computer centres worldwide that provide computing and storage resource into a single infrastructure accessible by all LHC physicists 4
Data: Outlook for HL-LHC 450,0 400,0 350,0 300,0 250,0 PB CMS ATLAS 200,0 ALICE LHCb 150,0 We are here 100,0 50,0 0,0 Run 1 Run 2 Run 3 Run 4 • Very rough estimate of a new RAW data per year of running using a simple extrapolation of current data volume scaled by the output rates. • To be added: derived data (ESD, AOD), simulation, user data…
NICA Complex: New era in the hot dense matter science Collider basic parameters: √SNN = 4-11 GeV; beams: from p to Au; L~1027 cm-2 c-1 (Au), ~1032 cm-2 c-1 (p) KRION-6T+HILac (3MeV/u) Data transfer rate 4.7 GB/s PS and 19 billions of events per year LU-20 (5MeV/u) = 30 PB 8.4 PB data to store per year after processing and analysis Booster (600 MeV/u) NUCLOTRON 0.6-4.5 GeV/u MultiPurpose Cryogenic Complex Detector - MPD 6
Supports a set of common IT services Supports a number of computing infrastructures Provides trainings Helps physicists organize their computing Deploys and supports additional IT services on demand. Helps with computer hardware procurement
Physics Generators Data Analysis and Interpretation Data Organisation, Data and Management Detector Software and Access Security Simulation Preservation Software Development, Data-Flow Facilities and Deployment, Processing Distributed Validation and Framework Software Trigger Verification Computing and Event Conditions Data Machine Reconstruction Visualisation Learning CMS estimation CMS estimation
GOAL: •to provide a computing infrastructure to the experiments and the community to store and analyze data, •to achieve storage consolidation where geographically distributed storage centers (potentially deploying different storage technologies) are operated and accessed as a single entity. EOS - a CERN open-source storage software solution to manage multi PB storage. XRootD - core of the implementation framework providing a feature-rich remote access protocol. Improvement of already existing production quality Data Management services. Scalable technologies for federating storage resources and managing data in highly distributed computing environments.
Annual data In 2020 production follows > 40 ZB data to exponential law. will be High Energy Physics created Biology Nanotechnology CERN Large Hadron Collider Science > 20 Pb/Year, > 200 Pb stored Astrophysics Climate Square Kilometer Array radio telescope (SKA) > 20 Pb/Day (estimation) An International radiotelescope for the 21st century ...et cetera Large Synoptic Survey Telescope (LSST) > 10 Pb/Year (estimation)
Tier1: Cloud: HPC Govorun СICC/Tier2: 9200 cores 1572 CPU Peak ~0.5 Pflops 4128 cores 8.5 PB disk 8.142 TB RAM 11 PB tape 1.1 PВ disk HybriLIT: 2.7 PB disk ~142 Tflops DATALAKE Network infrastructure:LAN: 10 Gbps WAN: 100 Gbps +2x10 Gbps
Развитие сетевой инфраструктуры WAN 100 Gb/sec 3 x 100 Gb/sec LAN 2 x 10 Gb/sec 2 x 100 Gb/sec MultiSite 2 x 10 Gb/sec 4 x 100 Gb/sec
Развитие инженерной инфраструктуры МИВК Наращивание электрических мощностей 0.5 мВА 1,6 мВА Увеличение охлаждающей мощности СК ГОВОРУН 100 кВА 300 кВА Обеспечение гарантированного электропитания 0.4 мВА 1.2 мВА Работы по модернизации устаревшего оборудования питания собственных нужд здания
Компьютинг для мегапроекта НИКА Создаваемый компьютинг для мега - проекта НИКА должен обеспечить прием данных с детекторов, передачу данных на GOVORUN обработку и хранение. Для реализации этих задач к компьютингу предъявляются определенные требования, включающие в себя требования к сетевой инфраструктуре, Events reconstruction вычислительным архитектурам, системам хранения, а также QCD phase diagram к соответствующему программному обеспечению как системного, так и ПО для обработки и анализа данных. Разрабатываемые модели компьютинга должны учитывать тенденции развития как сетевых решений, вычислительных архитектур и развитие IT – решений, позволяющих объединять суперкомпьютерные (гетерогенные), грид - и Physics analysis Simulations облачные- технологии и создавать на этой основе распределенные, программно-конфигурируемые HPC- Средством для моделирования компьютинга может стать платформы. Использование таких решений для обработки и суперкомпьютер «ГОВОРУН», содержащий самые анализа данных требует создание программных сред, современные на сегодняшний день вычислительные обеспечивающих необходимую абстракцию кода, ресурсы и ресурсы хранения данных, включающие позволяющую реализовать необходимую функциональность сверхбыструю систему хранения данных, для широкого спектра вычислительных средств. обеспечивающую высокую скорость приема данных до сотни гигабайт в секунду, с возможностью линейного расширения производительности и ёмкости системы до 1000 раз.
Развитие ресурсов Tier1 CMS и Tier2 Увеличение вычислительных ресурсов Tier1 CMS до 350 kHS06 Увеличение вычислительных ресурсов Tier2 до 170 kHS06 Увеличение системы хранения Tier1 CMS на дисках до 16 ПБ Увеличение системы хранения Tier1 CMS на лентах до 42 ПБ Увеличение системы хранения МИВК на EOS до 60 ПБ
Система хранения данных МИВК Tier1 CMS Tier2 Долговременное хранение на Tier1 SE Tier1 Tape EOS МИВК WLCG лентах dCache dCache+Enstore dCaсhe ATLAS Нейтринная EOS ALICE NICA СМS программа
Ресурсы системы хранения МИВК (диски ПБ) 2019 2020 2021 2022 2023 Т2-МИВК 5000 5500 6000 6500 7000 Baikal 400 600 800 1000 Nova 388 488 588 688 JUNO 200 400 600 800 EOS ALICE 980 1200 1400 1800 2200 EOS МИВК 4000 10000 30000 50000 60000
Ресурсы Tier1 и Tier2 по годам В отношении аппаратного обеспечения, планируется линейное увеличение характеристик Tier1, Тир2/ЦИВК, в соответствии с цифрами, заложенными в семилетний план ЛИТ. Выполнение контрольных цифр семилетнего плана позволит обеспечить для всех коллабораций LHC на Tier1 и Tier2 в ОИЯИ необходимый уровень ресурсов. Год 2019 2020 2021 2022 2023 компонента Tier1 CPU kHS06 160 200 240 300 350 Tier1 диск, TБ 8000 8800 10880 13100 16100 Tier1 MSS, TБ 20000 25000 30000 35000 42000 Tier2 CPU, kHS06 96 110 130 150 170 Tier2 диск, TБ 5000 5500 6000 6500 7000 EOS ALICE, TB 980 1200 1400 1800 2000 EOS МИВК, TB 4000 10000 30000 50000 60000 MSS/МИВК - 10000 20000 30000 40000
Experiments software distribution across JINR distributed computing environment Cloud B Cloud A /cvmfs/ └── nica.jinr.ru CVMFS ├── centos7 cache │ ├── bmnroot CVMFS CernVM │ ├── fairroot cache FileSystem │ └── fairsoft (CVMFS) └── sl6 Stratum-1 ├── bmnroot ├── fairroot ├── fairsoft └── mpdroot Cloud X Cloud C CVMFS CVMFS cache cache
JINR neutrino computing platform LIT and DLNP directorate agreed to establish joint working group on writing a proposal about a dedicated project for developing computing facilities at JINR for neutrino experiments the Institute participates in. LIT contribution: engineering infrastructure DLNP contribution: computing and storage (electricity, UPSes, cooling, network, racks, resources (CPUs/GPUs& disks) manpower)
JINR cloud resources Lab or experiment Parameter 2018 2019 2020 2021 2022 LIT Total number of CPU cores, items 964 1636 2308 2980 3652 Total amount of RAM, TB 5.02 8.61 10.65 12.7 14.75 Total amount of storage, PB 0.77 1.27 1.77 2.27 2.77 Baikal-GVD Total number of CPU cores, items 84 384 684 984 1284 Total amount of RAM, TB 0.75 3.75 6.75 9.75 12.75 Total amount of storage, PB 0 0.2 0.4 0.6 0.8 JUNO Total number of CPU cores, items 96 1096 2096 3096 4096 Total amount of RAM, TB 0.5 16.5 32.5 48.5 64.5 Total amount of storage, PB 0.13 0.63 1.13 1.63 2.13 NOvA Total number of CPU cores, items 420 540 660 780 900 Total amount of RAM, TB 1.86 2.50 3.14 3.78 4.42 Total amount of storage, PB 0.19 0.32 0.44 0.57 0.70 Total Total number of CPU cores, items 1564 3656 5748 7840 9932 Total amount of RAM, TB 8.14 31.37 53.06 74.74 96.43 Total amount of storage, PB 1.09 2.42 3.74 5.07 6.4
Общая структура платформы HybriLIT Пул VM – User Interfaces Системы хранения данных VM-UI VM-UI VM-UI VM-UI (ssh) (ssh) (HLIT-VDI) (HLIT-VDI) Вычислительное поле Пул VM– для управляющих СУПЕРКОМПЬЮТЕР и информационных Учебно-тестовый «ГОВОРУН» сервисов полигон HybriLIT website GitLab Единая программно-аппаратная среда
Планируемое увеличение производительности суперкомпьютера ГОВОРУН по компонентам за счет бюджета Гетерогенная платформа HybriLIT. 2020 2021 2022 Суперкомпьютер ГОВОРУН. Производительность CPU - компоненты 260 320 380 (Tflops, для операций с двойной точностью ) Производительность GPU - компоненты 330 360 390 (Tflops, для операций с двойной точностью) Суммарная производительность суперкомпьютера 590 680 770 (Tflops, для операций с двойной точностью) Прирост производительности суперкомпьютера сверх плана будет определяться потребностями пользователей, в том числе потребностями мегапроекта НИКА и нейтринной программы, а осуществляться за счет привлечения финансирования из бюджетов экспериментов, совместных грантов и других источников.
Внедрение нейросетевого подхода, методов и алгоритмов ML/DL Параллельные реализации Решение задач ML/DL Технологии параллельного Алгоритмы и программирова методы ния IT-среды для пользователей, Диаграмма Венна о внедрении нейросетевого подхода, методов и алгоритмов ML/DL для решения прикладных задач.
Экосистема для задач ML/DL Вычислительная компонента Компонента для разработки Servers with VM with JupyterHub NVIDIA Volta & Intel Xeon Gold https://jhub.jinr.ru Dell Volta specs: GPU: 4x Nvidia Volta V100-SXM2 *NVLink* 32Gb HBM2 CPU: 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz 20 Cores/40 Threads VM: RAM: 512 GB DDR4 2666MHz CPU: 24 Cores SSD: 2*240 GB RAM: 32 GB
Экосистема для ML/DL, задач анализа данных (основные библиотеки и инструменты) scikit-learn - библиотека машинного обучения для языка программирования Python. matplotlib – это основная библиотека для построения графиков, диаграмм в Python. SciPy – это набор функций для научных pandas – библиотека Python для NumPy – это один из основных вычислений в Python. обработки и анализа данных. Она пакетов для научных Предлагает продвинутые построена на основе структуры данных, вычислений в Python. Он процедуры линейной называемой DataFrame и содержит функциональные алгебры, смоделированной по принципу возможности для работы с математическую датафреймов среды статистического многомерными массивами, оптимизацию функций, программирования R. математическими функциями обработку сигналов, (операции линейной алгебры, специальные ТensorFlow —библиотека для преобразование Фурье, математические функции и машинного обучения от Google для генератор псевдослучайных статистические функции. решения задач построения и тренировки чисел). нейронных сетей
Унифицированная система управления ресурсами МИВК Основными назначениями унифицированной системы управления ресурсами являются: - предоставление возможности обработки больших объемов данных; - обеспечение возможности организации массивных вычислительных задач; - оптимизация эффективности использования вычислительных ресурсов и ресурсов хранения; - эффективный мониторинг загрузки ресурсов; - консолидация учета использования ресурсов; - обеспечение единого интерфейса доступа к ресурсам.
Развитие системы мониторинга и ее расширение до информационно– аналитической системы диагностики и определения нештатных ситуаций. План реализации содержит следующие шаги: -проектирование и разработка информационно– аналитической системы мониторинга. - добавление сервисов и введение в эксплуатацию в систему мониторинга инженерной инфраструктуры: дизель генераторы, градирни, элементы системы охлаждения. - продолжение работы по включению в систему мониторинга новых вычислительных ресурсов и элементов системы хранения МИВК
Система хранения данных (озеро ОИЯИ) Система хранения данных должна обеспечить eulake prototype выполнение следующих требований: предоставить достаточный ресурс для хранения и оперативного доступа к информации в процессе обработки; предоставить постоянно расширяемый ресурс для долговременного хранения информации. Объём и скорость его наращивания должна быть сбалансирована с потоками информации, предназначенной для долговременного хранения; обеспечить возможность использования системы управления данными, автоматизирующую процессы взаимодействия с системами хранения; автоматизировать поддержку системы хранения с целью оптимизации и минимизации затрат.
31/98
Кадровый потенциал Коллектив исполнителе проекта МИВК состоит из 62 сотрудников высокой квалификации, которая доказана как бесперебойным функционированием всего комплекса так и эффективным введением в оптимальные сроки нового оборудования на примере суперкомпьютера ГОВОРУН. Среди исполнителей проекта: 4 доктора наук; 12 кандидатов физико-математических наук. Запланированы 4 защиты диссертаций молодых сотрудников в ближайший год. Средний возраст участников проекта 46 лет, а инженеров и программистов – 40 лет.
Финансовое обеспечение работ kUSD 2017 2018 2019 2020 2021 2022 2023 Контрольная 4 775,2 5 082,9 5 305,4 5 465,0 5 854,1 6 274,2 6 728,0 цифра 7-летки Исполнение 6654,0 7046,03 8705,5 бюджета +38% +39% + 64% Планируемые 6831 7318 7843 8410 по МИВК +25% к 7-летке
SWOT анализ по проекту «МИВК» Strengths (сильные стороны): • Исполнители справляются с выполнением текущих задач, с модернизацией и обновлением вычислительных компонент и систем хранения данных. • Многолетний опыт успешной работы в рамках проекта WLCG по обработке данных с экспериментов на LHC • Компоненты МИВК функционируют на уровне лучших мировых стандартов в режиме 24х7 • Современный гиперконвергентный суперкомпьютер построенный на жидкостном охлаждении и современных вычислительных архитектурах • Сетевая инфраструктура обновлена • Налаженный механизм мониторинга функционирования все компонент МИВК • Сотрудничество с пользователями МИВК Weaknesses (слабые стороны): • Слабый контроль за действиями пользователей: • Отсутствие централизованной службы поддержки пользователей. • Система закупок • Низкий темп работ по модернизации элементов инженерной и сетевой инфраструктуры. • Непредсказуемость цен на оборудование ведущих производителей вычислительного и сопутствующего оборудования в регионе. Opportunities (благоприятные возможности): • Понимание руководством ОИЯИ необходимости инвестирования и поддержки развитой ИТ-инфраструктуры • Ресурс студентов Университета «Дубна» и других институтов как потенциальный источник кадров для обслуживания компонентов МИВК Threats (угрозы): • Быстрые темпы морального устаревания компьютерного и сетевого оборудования • Вирусные и хакерские атаки снаружи и изнутри по причине не внимательности пользователей. • Изношенность и моральное устаревание инженерного оборудования, модернизация которого затягивается из-за излишней бюрократизации процедуры принятия решения проверяющими инстанциями.
Планы развития корпоративной информационной системы В рамках развития корпоративной информационной системы (КИС) ОИЯИ в 2020-2023 годах планируется: • Развитие системы электронного документооборота СЭД "Дубна", системы управления проектом APT EVM для NICA, систем ADB2, ИСС, "База документов", HR LHEP по запросам конечных пользователей, а также в соответствии с рекомендациями координационной группы по развитию в ОИЯИ баз данных, электронного документооборота и информационной безопасности, с разрабатываемой концепцией облачной SaaS платформы единой административно-хозяйственной информационной системы,. • Разработка кадровой информационно-аналитической системы учета участия сотрудников ЛИТ в проектах и темах. • Текущее сопровождение систем СЭД "Дубна", APT EVM для NICA, ADB2, ИСС, "База документов", PIN, HR LHEP. Также в рамках развития КИС ОИЯИ будут продолжены работы по развитию информационной системы Сервер документов ОИЯИ/JINR Document Server (JDS) на основе платформы Invenio JOIN2 (Just anOther INvenio INstance). Основные работы по развитию инфраструктуры JDS на 2020-2023 гг.: • Унификация форматов метаданных • Регулярное обновление программной платформы • Разработка технической документации проекта • Развитие функциональности программной платформы JOIN2: участие в back-end и front-end разработке • Поддержка коллекций Authorities • Участие в рабочих совещаниях проекта JOIN2, научных конференциях по тематике открытых репозиториев и электронных библиотек
Образовательная программа на платформе HybriLIT Учебные курсы, мастер классы и лекции Ведущие производители Группа HybriLIT современных вычислительных ведущие ученые из ОИЯИ и стран- архитектур и программного участниц ОИЯИ обеспечения Инструменты Технологии для отладки и Фреймворки и параллельного профилирования инструменты для параллельных приложений программирования задач ML/DL Работа с пакетами прикладных программ Регулярные учебные курсы Курсы в рамках конференций и школ
Международная школа по информационным технологиям«Аналитика Больших данных» Цель Международной школы по информационным технологиям «Аналитика больших данных»– подготовка высококвалифицированных ИТ-специалистов в области Data Science, умеющих формулировать и решать научно-практические задачи с использованием аналитики Больших данных. Программа подготовки будет ориентирована на приобретение глубоких знаний в области математической статистики, машинного обучения, программирования, методов и технологий обработки и анализа данных, понимания бизнес-запросов и задач своей отрасли. Среди основных направлений подготовки отдельное внимание будет уделено развитию модели компьютинга, программной платформы системы сбора, хранения, обработки и анализа данных экспериментов на установках класса мегасайенс (NICA, PIC, LHC, FAIR, SKA и др.).
Международная IT- Школа «Аналитика больших данных»
Международная IT- Школа «Аналитика больших данных» Программно-информационная среда Инструмент для организации мероприятий, Ресурсы гетерогенной вычислительной GitLab - это единое приложение для всего жизненного архивирования и совместной работы платформы HybriLIT (ЛИТ ОИЯИ) цикла разработки программного обеспечения.
The International Conference “Mathematical Modeling and Computational Physics” (MMCP’2019): Stará Lesná, High Tatra Mountains, Slovakia, July 1-5, 2019 Студенческая конференция Международной ИТ-школы, Дубна, 6-13 июля, 2019 27th Symposium on Nuclear Electronics and Computing (NEC’2019): Montenegro, Budva, Becici, September 30 – October 4, 2019
Проблемы, решения, перспективы • Концентрация усилий на главных направлениях развития ЛИТ(темы и проекты, МИВК, НИКА, Нейтринная физика, гибридные вычисления, большие данные …) • Инженерная и сетевая инфраструктура • Бюджетные показатели, закупочная деятельность • Проекты со странами-участницами, РНФ, РФФИ (НИКА) • Информационная безопасность, правила работы в сети; • Экспертиза и поддержка ПО, лицензионная политика; • Диссертационный Совет • Структура ЛИТ, кадры, молодежная политика; • Образовательная деятельность (центр перспективных вычислительных систем, международная школа по ИТ) • Конференции, школы
Вы также можете почитать