Искусственный Интеллект в качестве навигатора в химическом пространстве #машинноеобучение #глубокоеобучение #хемоинформатика #нейронныесети #graphNN #TensorFlow #ChemicalSpaceNavigation #химическоепространство #хемоинформатикавроссии Пока мы наблюдаем, как Искусственный Интеллект побеждает в различных компьютерных играх, сворачивает белки и разглядывает снимки МРТ, огромный кусок хемоинформатики проходит мимо нас. Я здесь говорю об изучении химического пространства и генерации новых структур. Казалось бы этот вопрос уже решён и существует множество методов глубокого обучения, которые работают на обработке линейного представления SMILES. При этом, люди порой стесняются спросить о причинах игнорирования вроде бы как более подходящего молекулярного представления, а именно молекулярного графа. SMILES представление привносит ряд проблем, когда мы стараемся его обработать рекуррентной сетью. Во-первых, SMILES может быть очень длинным, из-за чего необходимо использовать большие по количеству весов нейронные слои. Во-вторых, целым кошмаром для нейронной сети является восстановить (т.е. правильно замкнуть) цикл в молекуле, особенно если это нечто на подобии стероидов. Ну и наконец, SMILES строка имеет чёткое направление обхода молекулы. А что, если нейросеть восстановила ту же самую молекулу (т.е. справилась с задачей автокодирования), но выдала её SMILES в другом порядке. Будет ли это являться ошибкой? На текущий момент ответом на этот вопрос будет "Да, такой SMILES считается новым". В абсолюте, графовое представление решает все эти три проблемы и позволяет нейросети работать с молекулами, имея более глубокое понимание химии. Однако, и здесь встречается ряд проблем. В нашей новой статье мы предлагаем новый подход к работе над молекулами, используя некоторое упрощение графового представления молекулы - граф, в котором все связи считаются одинарными (метки типа связи игнорируются), но для каждого атома известно количество присоединённых к нему атомов водорода. Такое упрощение снижает сложность, позволяет не делать стандартизацию молекул (какая разница ароматическая связь или структура Кекуле - число водородов же не меняется!), но все же позволяет полностью восстановить структуру молекулы. Мы назвали такой граф водородным, а архитектуру, которая может работать с таким представлением - HyFactor. https://chemrxiv.org/engage/chemrxiv/article-details/61aa38576d4e8f3bdba8aead