В идеальном мире химики хотели бы предсказать, какая комбинация химикатов поставит самый высокий урожай продукта и избежит непреднамеренных побочных продуктов или других потерь, но предсказание результата этих многомерных реакций оказалось сложным.Группа исследователей во главе с Абигейл Дойл, профессором А. Бартона Хепберна Химии в Принстонском университете, и доктором Спенсером Дреэром из Научно-исследовательских лабораторий Мерка, нашла способ точно предсказать урожаи реакции, изменяя до четырех компонентов реакции, используя применение искусственного интеллекта, известного как машинное обучение.
Они превратили свой метод в программное обеспечение, которое они сделали доступными для других химиков. Они издали свое исследование 15 февраля в журнале Science.«Программное обеспечение, которое мы разработали, может работать на любую реакцию, любое основание», сказал Дойл. «Идея состояла в том, чтобы позволить кому-то применить этот инструмент и надо надеяться основываться на нем с другими реакциями».Обширные ресурсы и время израсходованы, чтобы сделать синтетические молекулы, часто в основном специальным способом, сказала она.
Используя это новое программное обеспечение, химики могут определить высокодоходные комбинации химикатов и оснований более дешево и эффективно.«Мы надеемся, что это будет ценным инструментом в ускорении синтеза новых лекарств», сказал Дерек Анемен, который закончил его доктора философии химии в лаборатории Дойла в 2017 и теперь работает на IBM.
«Многие из этих алгоритмов машинного обучения были вокруг в течение достаточно долгого времени», сказал Иисус Эстрада, аспирант в лаборатории Дойла, который способствовал исследованию и бумаге. «Однако в синтетическом сообществе органической химии, мы действительно не насладились потрясающими возможностями то машинное обучение предложения».«Как химики, мы традиционно повернули далеко от многомерного анализа», сказал Дойл. «Мы только смотрим на одну переменную за один раз или единственный набор условий для диапазона оснований».Когда Анемен сказал Дойлу, что он хотел использовать машинное обучение, чтобы заняться многомерной проблемой, она поощрила его. «Я всегда – специально для моих самых талантливых студентов – пытаюсь дать им волю действий в прошлом году их доктора философии», сказала она. «Это – проект, который он предложил мне».
Дойл и Анемен намереваются моделировать урожай реакции, изменяя четыре различных компонента реакции, по экспоненте более трудное усилие, чем изменение одной переменной за один раз.«В начале мы знали, что будет много проблем преодолеть», сказал Анемен. «Мы не были уверены, что это было даже возможно».Исторически, одно препятствие развитию многомерных моделей собирало достаточно данных по урожаям реакции, чтобы построить эффективный «учебный набор», сказал он. Но недавно, Мерк изобрел автоматизированные системы, которые могут управлять тысячами реакций на заказе дней.
Другая проблема вычисляла количественные описатели для каждого химиката, чтобы использовать в качестве исходных данных для модели. Эти описатели, как правило, вычислялись один за другим, который будет непрактичен для большого количества химических комбинаций, которые они хотели использовать.
Они преодолели это ограничение, сочиняя кодекс, который использовал существующую программу, спартанца, чтобы вычислить и затем извлечь описатели для каждого химиката, используемого в модели.Как только у них были свои количественные описатели, они попробовали несколько статистических подходов. Во-первых, они используют линейный регресс, отраслевой стандарт, но нашли, что это точно не предсказало урожай реакции. Они тогда исследовали многочисленные общие модели машинного обучения и нашли, что один названный «случайный лес» обеспечил поразительно точные предсказания урожая.
Случайная лесная модель работает, беспорядочно выбирая небольшие выборки из набора данных тренировки и используя тот образец, чтобы построить дерево решений. Каждое отдельное дерево решений тогда предсказывает урожай для данной реакции, и затем результат усреднен через деревья, чтобы произвести полное предсказание урожая.Другой прорыв случился, когда исследователи обнаружили, что со случайными лесами, «урожаи реакции могут быть точно предсказаны, используя результаты ‘только’ сотен реакций (вместо тысяч), число, которое химики без роботов могут выполнить самих», сказал Анемен.Они далее нашли, что случайные лесные модели могут предсказать урожаи для химических соединений, не включенных в учебный набор.
«Используемые методы абсолютно современные», сказала Хлоя-Агат Азанкот, исследователь машинного обучения в Центре Вычислительной Биологии Парижской Науки и Университета Писем, который не был вовлечен в исследование. «Сюжеты корреляции в бумаге достаточно хороши, что я думаю, что мы можем предположить доверие этим предсказаниям в будущем, которое ограничит потребность в дорогостоящих лабораторных экспериментах».«Эти результаты захватывающие, потому что они предполагают, что этот метод может использоваться, чтобы предсказать урожай для реакций, где стартовый материал никогда не делался, который поможет минимизировать потребление химикатов, которые являются отнимающими много времени, чтобы сделать», сказал Анемен. «В целом, Эта методология открывает перспективу для (1) предсказание урожая для реакций, используя пока еще разрушенные стартовые материалы и (2) предсказание оптимальных условий для реакции с известным стартовым материалом и продуктом».После того, как Анемен получил свою степень, Эстрада продолжал исследование. Цель состояла в том, чтобы создать программное обеспечение, которое было доступно не только для компьютерных экспертов как Анемен и Эстрада, но и более широкого синтетического сообщества химии, сказал Дойл.
Она объяснила, как программное обеспечение работает: «Вы вытягиваете структуры – стартовые материалы, катализаторы, основания – и программное обеспечение выяснят разделенные описатели между всеми ними. Это – Ваш вход. Результат – урожаи реакций. Машинное обучение соответствует всем тем описателям к урожаям с целью, что Вы можете вставить любую структуру, и это скажет Вам результат реакции.
«Идея состоит в том, чтобы помочь людям провести многомерное пространство, где Вы не можете постигнуть интуитивно результаты», сказал Дойл.