
Команда исследователей из Института общей и неорганической химии им. Н.С. Курнакова РАН, Московского государственного университета имени М.В. Ломоносова, а также Национального исследовательского университета Высшая школа экономики представила широкой научной общественности масштабную базу данных MixtureSolDB, включающую уникальные экспериментальные сведения о растворимости органических соединений в бинарных смесях растворителей. Совместно с созданием самой обширной коллекции данных учёные разработали современное онлайн-приложение для их интерактивной визуализации и анализа, что открывает новые перспективы для современных химических и фармацевтических исследований. В частности, этот цифровой проект значительно расширяет горизонты для прогнозирования разнообразных свойств химических соединений при помощи методик искусственного интеллекта и машинного обучения. Новый инструмент уже оценивают как значимый шаг вперёд для создания новых лекарств и инновационных материалов.
Зачем современная наука нуждается в базе MixtureSolDB
Растворимость — это одно из определяющих свойств химических веществ, влияющее на их пригодность в различных производственных, фармацевтических и исследовательских процессах. Инженеры и специалисты по материалам всё чаще сталкиваются с необходимостью работать не с отдельными чистыми растворителями, а с их смесями, что усложняет сбор и анализ информации для прогнозирования свойств. Хемоинформатика сталкивается с задачей поиска скрытых закономерностей, однако ранее отсутствие обширных и качественных наборов экспериментальных данных делало эффективное использование машинного обучения затруднительным. MixtureSolDB призвана радикально изменить ситуацию — с её помощью появляется больше возможностей для прогнозирования растворимости без дорогостоящих и долгих экспериментов.
Уникальность и масштаб MixtureSolDB
База данных, созданная российскими учёными, охватывает более 175 тысяч экспериментальных значений растворимости, аккумулированных из более чем тысячи рецензируемых публикаций. Исследованием руководил младший научный сотрудник Лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов. Работа охватывала сведения по 810 органическим соединениям в 750 уникальных бинарных системах растворителей, охватывая температурный диапазон от 252 до 383 K. Большое внимание уделялось качеству и надёжности: каждая запись подвергалась подробной верификации, стандартизации и удалению дубликатов. Таким образом, MixtureSolDB — это не просто цифровой архив, но тщательно структурированный научный инструмент для актуальных исследований.
SMILES формат и цифровые технологии поиска информации
Вся база данных хранит молекулярные структуры веществ и растворителей в машиночитаемом формате SMILES (Simplified Molecular Input Line Entry System), который широко используется в аналитической химии и позволяет легко интегрировать этот массив информации в алгоритмы машинного обучения. Кроме того, команда разработчиков реализовала онлайн-приложение, позволяющее осуществлять быстрый и удобный поиск по названию или химической структуре соединения. Такой подход делает работу с информацией простой и понятной — даже для новичков или студентов, впервые сталкивающихся с подобными задачами.
Преимущества перед предыдущими решениями
Ранее большинство исследований в сфере растворимости сосредотачивались на индивидуальных растворителях, и именно благодаря этому проекту впервые реализовано столь масштабное и систематизированное представление данных о бинарных смесях. Это даёт возможность разрабатывать и тестировать более точные модели искусственного интеллекта, охватывающие реальные рабочие условия, встречающиеся в лабораториях и на производстве. Благодаря высокой детализации и качеству информации, а также универсальности формата, MixtureSolDB становится важнейшей опорной точкой для сотен исследователей из России и других стран.
Практическая значимость для индустрии и науки
В коллекции MixtureSolDB представлены популярные бинарные смеси (вода с этанолом, вода с ацетонитрилом, этанол с ацетоном), а также множество других составов, востребованных в разных областях химической промышленности и фармацевтики. Точные сведения о растворимости в таких смесях имеют принципиальное значение для выбора оптимальных условий синтеза, создания новых фармацевтических форм, а также для разработки методов высокоточной кристаллизации и экстракции. Интеграция базы данных MixtureSolDB уже на ранних этапах научных исследований надежно экономит ресурсы и резко ускоряет проведение анализа новых веществ.
Вдохновляющий вклад молодых учёных и поддержка государства
Особого внимания заслуживает участие студенческого коллектива химического факультета МГУ имени М.В. Ломоносова: Фёдор Кузнецов, Владимир Елистратов, Матвей Васияров не только внесли весомый вклад в обработку информации, но и получили свой первый опыт научных публикаций. Среди них — победители престижных Международных химических олимпиад, что свидетельствует о преемственности и высоком уровне российской научной школы. Реализация проекта проходила при поддержке Минобрнауки России по программе государственного задания ИОНХ РАН, что подчёркивает важность согласованных усилий государства и ведущих образовательных центров страны.
Актуальная версия базы данных MixtureSolDB открыта для бесплатного использования по ссылке: https://doi.org/10.5281/zenodo.18660057. Открытый исходный код онлайн-приложения: https://github.com/levakrasnovs/MixtureSolDB.
Источник: indicator.ru



