Создана крупнейшая база данных растворимости органических соединений в неводных растворителях BigSolDB 2.0
Создана крупнейшая база данных растворимости органических соединений в неводных растворителях BigSolDB 2.0
Сотрудники Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского университета «Высшая школа экономики», Московского государственного университета им. М.В. Ломоносова и Венского университета представили самую крупную базу данных растворимости органических соединений в неводных растворителях BigSolDB 2.0 на более чем 100 тысяч экспериментальных значений для создания моделей машинного обучения и разработали для нее онлайн-приложение.
Представленная база данных перспективна для прогнозирования растворимости химических веществ с помощью алгоритмов, основанных на данных, и может позволить создать рационально спроектированный, эффективный и экономичный инструмент для разработки материалов и химических составов нового поколения. Результаты работы опубликованы в журнале Scientific Data.
Растворимость является одним из ключевых свойств органических соединений, определяющих их применение в химии, материаловедении и фармацевтике. Однако, предсказание значений растворимости в любом растворителе, кроме воды, остается сложной задачей в современной хемоинформатике, не в последнюю очередь из-за отсутствия больших и разнообразных наборов данных. Для решения этой задачи целесообразно использовать методы машинного обучения, которые позволяют предсказывать свойства химических соединений без необходимости в экспериментальных образцах. Это делает процесс оценки, например, растворимости, значительно быстрее и дешевле. Кроме того, использование большой и качественной базы данных улучшает точность прогнозов и повышает надёжность полученных результатов, открывая возможности для масштабного скрининга новых соединений.
Химики представили большую базу данных растворимости органических соединений в неводных растворителях BigSolDB 2.0 для разработки моделей машинного обучения. Работу прокомментировал один из авторов статьи, младший научный сотрудник лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов: «Мы проанализировали 1595 рецензируемых научных статьи и извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание было уделено качеству данных — мы проводили тщательную проверку и стандартизацию всех записей, устранение дубликатов и валидацию источников.
Все молекулярные структуры растворённых веществ и растворителей были стандартизированы и представлены в машиночитаемом формате SMILES, что позволяет проводить прямолинейный анализ с помощью методов машинного обучения. Данные были преобразованы в единицы LogS, что обычно желательно для приложений машинного обучения. Мы также разработали онлайн-приложение для интерактивной визуализации и поиска в наборе данных, который позволяет легко находить значения растворимости как по химической структуре, так и по тривиальному названию соединения».
По словам авторов, созданная база данных решает критическую проблему недостатка комплексных наборов данных для растворимости органических веществ, которая ранее ограничивала развитие методов машинного обучения в этой области. Большинство предыдущих исследований были сосредоточены только на водной растворимости, тогда как BigSolDB 2.0 охватывает широкий спектр органических растворителей.
В представленной базе данных среди наиболее распространённых растворителей выделяются низкомолекулярные спирты, вода, этилацетат, ацетон и ацетонитрил. Это особенно важно для разработки многих химических и технологических процессов, где точное знание растворимости критично для выбора растворителей в синтезе, разработки лекарственных препаратов и создания эффективных методов экстракции и кристаллизации.
Доступ к базе данных возможен также через онлайн-приложение.
Исследование выполнено при поддержке Министерства науки и высшего образования Российской Федерации в рамках государственного задания ИОНХ РАН.
Источник: пресс-служба Минобрнауки России.