Publié le : janvier 22, 2025

Évaluation de l'accessibilité synthétique des in silico La synthèse de petites molécules fait partie intégrante du processus de découverte de médicaments. Bien que l'application de modèles d'apprentissage automatique pour prédire si les petites molécules sont faciles ou difficiles à synthétiser ait récemment attiré l'attention, les seuils prédéterminés et les déséquilibres des ensembles de données posent des problèmes pour ces approches de classification binaire. Dans cette étude, nous introduisons une nouvelle approche de classification multiclasse par assemblage de plis pour prédire le nombre minimum d'étapes nécessaires à la synthèse d'une petite molécule. En assemblant les modèles de base formés sur de multiples plis stratifiés sous-échantillonnés, cette approche atténue efficacement l'impact du déséquilibre des classes grâce à des stratégies d'agrégation des probabilités ou de vote. En outre, nous proposons des mesures d'évaluation floues qui tiennent compte des tolérances pratiques dans les prédictions, ce qui permet une évaluation plus souple et plus réaliste de la performance des modèles. Grâce à l'expérimentation sur deux ensembles de données de référence de réaction, nous démontrons l'efficacité de notre modèle dans une tâche de prédiction d'accessibilité synthétique multiclasse et la supériorité de notre méthode proposée par rapport à six modèles existants dans des tâches de prédiction d'accessibilité synthétique binaire.

Veuillez noter que le contenu suivant est disponible uniquement en anglais.