Экспериментально определены хроматографические индексы удерживания для 32 азотсодержащих соединений
Экспериментально определены хроматографические индексы удерживания для 32 азотсодержащих соединений
В молодёжной лаборатории «умных» методов химического анализа Института физической химии и электрохимии им. А.Н. Фрумкина РАН экспериментально определили хроматографические индексы удерживания для 32 азотсодержащих соединений, являющихся возможными продуктами трансформации несимметричного диметилгидразина. Исследования впервые выполнены для трёх применяемых в газовой хроматографии неподвижных фаз (неполярной, полярной и среднеполярной).
Сравнение экспериментальных данных с предсказанными с помощью методов машинного обучения показало, что используемые в ИФХЭ РАН возможности искусственного интеллекта предсказывают индексы удерживания с высокой достоверностью. Результаты исследования дополняют и для некоторых записей корректируют данные, содержащиеся в базе данных NIST, которая является мировым стандартом для идентификации соединений методом газовой хромато-масс-спектрометрии. Способность нейросети предсказывать индексы удерживания может быть полезна при идентификации соединений без использования стандартных образцов.
Рассказывает заведующая молодёжной лабораторией «умных» методов химического анализа ИФХЭ РАН кандидат химических наук Анастасия Шолохова: «Наша работа — первая, в которой экспериментально измерено хроматографическое удерживание азотсодержащих гетероциклов для трёх неподвижных фаз и проведено сравнение результатов с теми, что предсказала нейросеть, и с теми, что получили другие научные группы. В мировых базах данных содержится не слишком много информации по индексам удерживания. Даже для наиболее часто применяемых фаз, таких как стандартная неполярная фаза или стандартная полярная фаза, в базе данных NIST отсутствуют индексы удерживания, соответственно, для половины и двух третей соединений, которые мы рассматривали. А для среднеполярной фазы индексов удерживания для этих соединений в базе нет вообще. Наши результаты будут полезны не только при идентификации продуктов трансформации несимметричного диметилгидразина. Азотсодержащие гетероциклы в большинстве своем являются токсичными, поэтому их присутствие в окружающей среде необходимо контролировать».
При масс-спектрометрическом исследовании изучаемая молекула «разбивается» на отдельные фрагменты — ионы, каждый со своим зарядом и массой, и подсчитывается число «осколков» с определённым соотношением «масса–заряд». Полученную зависимость числа ионов от их соотношения «масса–заряд» называют масс-спектр. Проводя нецелевой хромато-масс-спектрометрический анализ, учёные, как правило, сравнивают полученный экспериментальный масс-спектр с данными из библиотеки масс-спектров (например, NIST) и делают выводы о возможной структуре молекулы. Проблема в том, что поиск по базе масс-спектров примерно в 20% случаев приводит к неверному результату (так называемая ложная идентификация), даже если нужный масс-спектр имеется в базе данных. Если масс-спектра нет, вероятность ошибки возрастает во много раз. Изомеры (молекулы с одинаковым составом атомов, которые расположены по-разному) этим методом различить невозможно. Серьёзным подспорьем при идентификации является использование хроматографических индексов удерживания — величин, которые характеризуют скорость перемещения молекулы через хроматографическую колонку. Индексы удерживания главным образом зависят от строения соединения и химической природы неподвижной фазы. Индекс удерживания может являться дополнительным критерием для отсечения ложных кандидатов при масс-спектральном поиске: с его помощью удаётся исключить из списка кандидатов те соединения, для которых индексы удерживания кардинально отличаются от экспериментальных.
«Для изомеров использование индекса удерживания — единственный способ определить, о каком соединение идёт речь, — объяснила Анастасия Шолохова. — Но, во-первых, далеко не для всех веществ в базе данных приведены индексы удерживания. Во-вторых, современные исследователи обоснованно ставят под сомнение достоверность содержащихся в базе записей».
В лаборатории физико-химических основ хроматографии и хромато-масс-спектрометрии ИФХЭ РАН ранее был разработан самый точный на данный момент способ предсказания индексов удерживания с использованием методов машинного обучения. Обученная свёрточная нейросеть позволяет предсказывать индексы удерживания на основании предполагаемой структуры молекулы. Эти значения можно использовать, когда в базе данных нет нужной информации.
«Однако, и это естественно, результат предсказания тем точнее, чем больше структура анализируемой молекулы похожа на те, по данным о которых обучали нейросеть, — заметила Анастасия Шолохова. — Мы задались вопросом: все ли хорошо и точно в международных базах данных и как их можно уточнить с помощью наших экспериментальных данных и “умных” методов? Мы обнаружили несоответствие индексов удерживания для нескольких гетероциклических соединений. Ошибочные значения, с одной стороны, приведут к неверной идентификации соединений, а с другой — повлияют на точность предсказания индексов удерживания, особенно если база данных мала. Искусственный интеллект обучается по тем данным, которые ему предлагают. Если эти данные неверны, он обучается неправильно и ошибка будет наслаиваться на ошибку как снежный ком. Мы подробно описали возможные источники ошибок для обнаруженных несоответствий в индексах удерживания, проанализировали их и планируем сделать публикацию на эту тему в ведущем хроматографическом журнале».
Полученные данные позволят идентифицировать ранее неизвестные продукты трансформации несимметричного диметилгидразина и разработать методы нейтрализации этих «новых» веществ, негативно влияющих на окружающую среду и человека. Также эти данные позволят критически оценить предыдущие работы по идентификации продуктов трансформации несимметричного диметилгидразина и сделать выводы о точности предсказания индексов удерживания.
Несимметричный диметилгидразин — один из компонентов ракетного топлива, высокотоксичное вещество, обладающее канцерогенностью, мутагенностью и другими вредными свойствами. Несимметричный диметилгидразин используется в ракетно-космической отрасли. Он попадает в окружающую среду на разных этапах эксплуатации: при падении ступеней ракет, в которых остается около тонны невыработанного топлива, при протечках из топливных баков или при авариях. Также отмечаются менее известные области применения несимметричного диметилгидразина: в растениеводстве и химической промышленности, в частности фармацевтической, полиграфической и др., в которых тоже могут происходить утечки этого вещества. В окружающей среде несимметричный диметилгидразин активно окисляется и трансформируется в сотни сложных соединений, некоторые из которых даже более токсичны, чем сам НДМГ. Перед исследователями стоит задача — выявить возможные продукты трансформации НДМГ в окружающей среде и, в частности, в биологических объектах. При этом ни в коем случае нельзя ограничиваться поиском только известных соединений, потому что на разнообразие природных условий НДМГ отвечает разнообразием продуктов трансформации. Поэтому необходимо идентифицировать каждое соединение в смеси. Получив структурные формулы для неизвестных соединений, специалисты могут делать выводы об их токсичности и их опасности для окружающей среды.
«Ни один из существующих методов хромато-масс-спектрометрии в одиночку не позволяет определить структуру неизвестного соединения “из одной масс-хроматограммы”, но сочетание нескольких методов и применение алгоритмов машинного обучения делают вероятным получение достоверного результата, — подвела итог Анастасия Шолохова. — Задача нашей молодёжной лаборатории — создать методологию расшифровки структуры неизвестных молекул без их препаративного выделения в чистом виде из смеси, без использования стандартов и баз данных. Разрабатываемое программное обеспечение можно будет использовать для установления структур неизвестных соединений при экологических исследованиях, анализе промышленных объектов, в криминалистике, словом, везде, где требуется определять неизвестные вещества. Это амбициозная задача. Первые результаты нам удалось получить очень быстро, потому что наша новая молодёжная лаборатория начинает работу не с чистого листа, а пользуется большим научным заделом, подготовленным лабораторией физико-химических основ хроматографии и хромато-масс-спектрометрии ИФХЭ РАН. Исследования по определению продуктов трансформации НДМГ под руководством члена-корреспондента РАН Алексея Константиновича Буряка ведутся более 25 лет. Подготовленные в ИФХЭ РАН методики аттестованы ВНИИМС и используются на предприятиях “Роскосмоса”».
Одновременное применение высокоэффективной жидкостной хромато-масс-спектрометрии (ВЭЖХ-МС), газовой хромато-масс-спектрометрии (ГХ-МС) и методов искусственного интеллекта позволяет эффективно идентифицировать соединения при нецелевом хромато-масс-спектрометрическом анализе. Сочетание этих методов позволяет определять структуры ранее неизвестных соединений, выявлять продукты трансформации токсикантов и принимать меры по их нейтрализации.
Молодёжная лаборатория «умных» методов химического анализа создана в ИФХЭ РАН 22 апреля 2024 года. В ней работают восемь человек, четверо из них кандидаты наук.
Работа опубликована в журнале Chemosphere.
Текст: Ольга Макарова.
Источник: ИФХЭ РАН.