Zamora Ramírez, William J.López Pérez, Kenneth Geovanny2023-11-232023-11-232022https://repositorio.sibdi.ucr.ac.cr/handle/123456789/21280Tesis (licenciatura en química)--Universidad de Costa Rica. Facultad de Ciencias. Escuela de Química, 2022El coeficiente de distribución (log DpH) en n-octanol/agua es un descriptor de la lipofilicidad de las moléculas, característica relevante en la química medicinal, toxicología y en otras áreas de la química. Este coeficiente, toma en cuenta la distribución de la molécula neutra e ionizada en cada fase; por lo que dependerá del coeficiente de partición del compuesto neutro (log PN), del coeficiente del compuesto ionizado (log PI) y de la constante de equilibrio ácida (pKa). Estos tres valores se pueden utilizar para calcular el coeficiente de distribución a cualquier pH de interés. Los modelos de Machine Learning (ML) se basan en el aprendizaje automático a partir de observaciones para luego realizar clasificación o predicción de otras observaciones. Son una de las herramientas in silico con más auge en los últimos años en la predicción de propiedades físicas y químicas, como lo es el log D. Existen gran cantidad de algoritmos de ML para la predicción del log D7.4, por ser el pH fisiológico. En este trabajo se utilizaron algoritmos de ML para predecir individualmente el coeficiente de partición del compuesto neutro (log PN), del coeficiente del compuesto ionizado (log PI) y de la constante de equilibrio ácida (pKa). Las predicciones individuales de las propiedades se sometieron validaciones cruzadas y externas para elegir el mejor modelo de predicción para cada una. En el caso de la predicción de log PI el algoritmo con mejor desempeño fue de Random Forest (RF); para log PN y pKa fue XGBoosting. Luego se integraron los tres y se obtuvieron predicciones del coeficiente de distribución (log DpH) a diferentes valores de pH para un set de prueba. Para el set de prueba se obtuvo un RMSE de 0.76 y de 0.96 para un set de validación externa unidades de log D. La evidencia obtenida sugiere que el desempeño del modelo propuesto es comparable y mejor en algunos casos que softwares de licencia consolidados en la predicción del log D.spaALGORITMOS (COMPUTADORAS)APRENDIZAJE POR MAQUINAS - MODELOS MATEMATICOSMOLECULASPREDICCIONES - MODELOS MATEMATICOSPredicción del Coeficiente de Distribución (log DpH) n-octanol/agua con Modelos de Machine Learningproyecto fin de carrera