Информационная система CRIC объединит вычислительные центры для обработки данных SPD NICA
Информационная система CRIC объединит вычислительные центры для обработки данных SPD NICA
Эксперимент NICA, созданный на базе Объединённого института ядерных исследований (ОИЯИ) в городе Дубна, как и все мегасайенс-проекты, производит огромное количество данных, которые нужно оперативно обрабатывать. Ожидается, что в процессе работы эксперимента SPD (Spin Physics Detector) будет производиться более десяти петабайт данных в год.
Эксперименты такого масштаба формируют крупные коллаборации из научных коллективов. В коллаборации SPD на текущий момент участвуют представители более 30 исследовательских центров из более чем десяти стран. Важным участником коллаборации является Институт ядерной физики им. Г.И. Будкера СО РАН (ИЯФ СО РАН). Вклад ИЯФ в эксперимент SPD заключается не только в участии в физической программе и создании важных элементов детектора, но и в развитии IT-инфраструктуры эксперимента. Разрабатываемая специалистами ИЯФ СО РАН информационная система CRIC (Computing Resource Information Catalog) является одним из ключевых компонентов для построения распределённой системы обработки экспериментальных данных SPD.
Учёные, задействованные в таких масштабных физических проектах, как Большой адронный коллайдер (БАК) или проект NICA, сталкиваются с проблемой обработки и анализа большого количества данных, а также организации доступа к этим данным участников проекта. Чтобы хранить и анализировать собранную статистику эксперимента ATLAS, ЦЕРН использует специализированную географически распределённую систему вычислений на основе всемирной компьютерной грид-сети БАК. Для обеспечения работоспособности, настройки и эффективного управления подобной распределённой вычислительной средой в ЦЕРН использовалась информационная система AGIS, разработанная командой Института ядерной физики им. Г. И. Будкера СО РАН.
«В 2010-2011 годах шел период разработки и частичного внедрения системы AGIS (ATLAS Grid Information System). Перед нами стояла задача по созданию информационной системы для компьютерной инфраструктуры распределённой вычислительной сети эксперимента ATLAS, которую мы решили и сразу начали поэтапно внедрять систему в производство в ЦЕРН. Пошаговое внедрение очень удобно, потому что позволяет эксперименту плавно адаптироваться к новым решениям, постепенно подключая программные сервисы и новых пользователей, — говорит научный сотрудник ИЯФ СО РАН и координатор проекта CRIC Алексей Анисёнков, — В 2011-2012 годах система уже полностью вошла в эксплуатацию. С её помощью решались реальные задачи, производилась настройка и организация среды распределённых вычислений, уже тогда была возможность устанавливать, какие ресурсы работают, какие временно отключены, то есть эффективно настраивать большую грид-инфраструктуру из сотен вычислительных кластеров, чтобы в итоге обеспечить работоспособность всей системы обработки данных эксперимента».
Система AGIS успешно справилась с поставленными задачами для эксперимента ATLAS, поэтому ЦЕРН и ИЯФ СО РАН приняли решение создать её расширенную версию для других экспериментов. В 2016 году началась разработка новой системы CRIC, а постепенный переход экспериментов БАК на её использование начался уже в 2020 году. На сегодняшний день распределённая среда обработки данных экспериментов БАК включает более 170 крупных компьютерных центров в разных точках мира. Система CRIC позволила обеспечить настройку и согласованную работу распределённой инфраструктуры, чтобы хранить и обрабатывать 700 петабайт данных с одного только эксперимента ATLAS. Петабайт (1024 терабайта) — это очень большой объём данных, для хранения лишь одного петабайта потребовалось бы более 200 тысяч дисков DVD, а для хранения 700 петабайт понадобится более 150 миллионов дисков.
Опыт работы ЦЕРН показывает, что система CRIC подходит для обслуживания мегасайенс-проектов самого разного назначения. Поэтому в 2019-2020 годах началось изучение возможности применить систему CRIC для систем обработки физических данных, полученных на коллайдере NICA, который создается в городе Дубна на базе Объединённого института ядерных исследований. Уже в 2022 году систему стали внедрять на NICA для эксперимента SPD, который тогда находился на этапе проектирования.
«Основная цель этого эксперимента — проверка основ квантовой хромодинамики путем изучения поляризованной структуры нуклона и спиновых явлений при столкновении протонов и дейтронов», — отметил старший научный сотрудник ЛИТ ОИЯИ, заместитель координатора по компьютингу и программному обеспечению эксперимента SPD кандидат технических наук Данила Олейник.
По его словам, после того, как в 2024 году ИЯФ СО РАН вступил в научную коллаборацию SPD, специалисты института принимают активное участие не только в создании экспериментальной установки, но и в развитии инструментов, обеспечивающих обработку данных, важной составляющей которой является система CRIC. «Ведущий разработчик системы, научный сотрудник Алексей Владимирович Анисёнков курирует в проекте SPD Software & Computing текущее сопровождение и развитие системы CRIC в соответствии с потребностями эксперимента», — подчеркнул Данила Олейник.
Система CRIC будет обеспечивать настройку не только системы обработки экспериментальных данных, но также моделирование физических событий, доступ к статистике и согласованную работу центров в географически распределённой вычислительной среде. Система позволяет управлять и передачей данных, и нагрузкой, а также помогает решать задачи по мониторингу, учёту и предоставлению различных форм отчётов об использовании ресурсов.
«Ожидаемый объём получаемых экспериментальных данных измеряется десятками петабайт в год, что ставит данный эксперимент в один ряд с экспериментами на БАК. Естественным образом обработка экспериментальных данных, включая моделирование физических событий, осуществляется в географически распределённой вычислительной среде, одной из ключевых систем которой является CRIC», — отметил Данила Олейник.
По словам Алексея Анисёнкова, в дальнейшем запланировано активное развитие системы и помощь в обеспечении текущих нужд эксперимента SPD, сопровождение проекта.
«Информационная система CRIC является составной частью комплексной системы распределенной обработки данных эксперимента SPD, над развитием которой работают представители различных научных организаций. Основной вклад в доработку и ввод в эксплуатацию других элементов комплекса, системы управления нагрузкой PanDA и системы управления данными Rucio для нужд SPD осуществляется специалистами ЛИТ ОИЯИ, в развитии географически распределённой инфраструктуры обработки данных активно участвует Петербургский институт ядерной физики им. Б. П. Константинова Национального исследовательского центра «Курчатовский институт» в Гатчине», — отметил Данила Олейник.
Источник: ИЯФ СО РАН.