Predicción del Coeficiente de Distribución (log DpH) n-octanol/agua con Modelos de Machine Learning
Cargando...
Archivos
Fecha
2022
Autores
Director
Título de la revista
ISSN de la revista
Título del volumen
Publicador
Páginas
Resumen
El coeficiente de distribución (log DpH) en n-octanol/agua es un descriptor de la lipofilicidad de las moléculas, característica relevante en la química medicinal, toxicología y en otras áreas de la química. Este coeficiente, toma en cuenta la distribución de la molécula neutra e ionizada en cada fase; por lo que dependerá del coeficiente de partición del compuesto neutro (log PN), del coeficiente del compuesto ionizado (log PI) y de la constante de equilibrio ácida (pKa). Estos tres valores se pueden utilizar para calcular el coeficiente de distribución a cualquier pH de interés. Los modelos de Machine Learning (ML) se basan en el aprendizaje automático a partir de observaciones para luego realizar clasificación o predicción de otras observaciones. Son una de las herramientas in silico con más auge en los últimos años en la predicción de propiedades físicas y químicas, como lo es el log D. Existen gran cantidad de algoritmos de ML para la predicción del log D7.4, por ser el pH fisiológico. En este trabajo se utilizaron algoritmos de ML para predecir individualmente el coeficiente de partición del compuesto neutro (log PN), del coeficiente del compuesto ionizado (log PI) y de la constante de equilibrio ácida (pKa). Las predicciones individuales de las propiedades se sometieron validaciones cruzadas y externas para elegir el mejor modelo de predicción para cada una. En el caso de la predicción de log PI el algoritmo con mejor desempeño fue de Random Forest (RF); para log PN y pKa fue XGBoosting. Luego se integraron los tres y se obtuvieron predicciones del coeficiente de distribución (log DpH) a diferentes valores de pH para un set de prueba. Para el set de prueba se obtuvo un RMSE de 0.76 y de 0.96 para un set de validación externa unidades de log D. La evidencia obtenida sugiere que el desempeño del modelo propuesto es comparable y mejor en algunos casos que softwares de licencia consolidados en la predicción del log D.
Descripción
Tesis (licenciatura en química)--Universidad de Costa Rica. Facultad de Ciencias. Escuela de Química, 2022
Palabras clave
ALGORITMOS (COMPUTADORAS), APRENDIZAJE POR MAQUINAS - MODELOS MATEMATICOS, MOLECULAS, PREDICCIONES - MODELOS MATEMATICOS