Estructura
HogarHogar > Blog > Estructura

Estructura

May 16, 2024

Scientific Reports volumen 13, número de artículo: 13361 (2023) Citar este artículo

334 Accesos

Detalles de métricas

La concentración micelar crítica (CMC) es una de las principales propiedades fisicoquímicas de los agentes tensioactivos, también conocidos como surfactantes, con diversas aplicaciones teóricas e industriales. Está influenciado por parámetros básicos como la temperatura, el pH, la salinidad y la estructura química de los tensioactivos. La mayoría de los estudios sólo han estimado la CMC en condiciones fijas basándose en los parámetros químicos del surfactante. En el presente estudio, nuestro objetivo fue desarrollar un conjunto de modelos novedosos y aplicables para estimar la CMC de tensioactivos aniónicos conocidos considerando tanto las propiedades moleculares de los tensioactivos como factores básicos que afectan como la salinidad, el pH y la temperatura como parámetros de modelado. Empleamos la técnica de relación de propiedades cuantitativas-estructurales para emplear los parámetros moleculares de los iones tensioactivos. Recopilamos 488 valores de CMC de la literatura para 111 tensioactivos aniónicos a base de sodio, incluidos los tipos de sulfato, sulfonato, sulfonato de benceno, sulfosuccinato y sulfato de polioxietileno. Calculamos 1410 descriptores moleculares optimizados para cada tensioactivo utilizando el software Dragon para utilizarlo en los procesos de modelado. Se utilizó el método de reemplazo mejorado para seleccionar los descriptores más efectivos para el CMC. Los resultados del presente estudio son un modelo lineal multivariado y dos modelos no lineales. Los modelos no lineales se produjeron utilizando dos enfoques robustos de aprendizaje automático: árboles de aumento de gradiente estocástico (SGB) y programación genética (GP). La evaluación estadística mostró una precisión altamente aplicable y aceptable de los modelos recientemente desarrollados (RSGB2 = 0,999395 y RGP2 = 0,954946). Los resultados finales mostraron la superioridad y la mayor capacidad del método SGB para realizar predicciones confiables.

Las aplicaciones industriales de las soluciones tensioactivas demuestran la creciente importancia de estos sistemas en la vida cotidiana1. Los tensioactivos se utilizan en diversas industrias, incluida la recuperación mejorada de petróleo (EOR)2, limpiadores y detergentes3,4, emulsionantes y agentes dispersantes5, alimentos6, recubrimientos7 y muchos otros procesos químicos, petroleros y farmacéuticos1.

Los tensioactivos son compuestos anfifílicos que constan de partes hidrófilas (cabeza polar) e hidrófobas (cola no polar). Debido a esta estructura única, los tensioactivos tienden a acumularse en la superficie de soluciones como el agua o la salmuera. Una vez que la superficie está saturada con moléculas de surfactante, las partículas restantes se acumulan en masa y forman micelas8.

Entre los diferentes tipos de tensioactivos, los tensioactivos aniónicos son conocidos por sus altas propiedades espumantes, y algunas industrias, como la EOR química (CEOR), la de detergentes y limpiadores, a menudo los utilizan en aplicaciones específicas. En el presente estudio, investigamos varios tensioactivos aniónicos para comprender mejor su comportamiento y propiedades.

La concentración micelar crítica (CMC) es una propiedad importante de los tensioactivos que se ha investigado en muchos estudios teóricos y experimentales. La CMC se define como la concentración máxima de un tensioactivo a la que no se forman micelas o la concentración a la que comienzan a formarse micelas8,9.

En concentraciones mayores que la CMC, la solución se considera micelar y exhibe un comportamiento diferente al de una solución diluida (p. ej., una solución con una concentración menor que la CMC). Desde un punto de vista industrial y económico, la operación de sistemas tensioactivos en el CMC a menudo resulta en eficiencias específicas. Además, se han llevado a cabo varios estudios teóricos y termodinámicos para estimar diversas propiedades de los sistemas tensioactivos basándose en las mismas propiedades en la CMC. Un buen ejemplo en esta área es la estimación de la tensión superficial de una solución tensioactiva a partir del exceso de concentración superficial en la CMC8,9. La CMC es una forma sencilla de evaluar el comportamiento de solutos tensioactivos en superficies y coloides, lo que la convierte en una herramienta valiosa para evaluar sus posibles aplicaciones industriales y farmacéuticas10,11. En determinadas situaciones, es deseable que los tensioactivos tengan una CMC baja, como cuando se utilizan para disolver fármacos hidrófobos en núcleos micelares con cantidades mínimas de tensioactivo10,12. Además, en aplicaciones como formación de espuma, humectación y limpieza de superficies duras, donde a menudo se desea una tensión superficial del producto baja, las micelas actúan como depósitos de surfactante por encima de la CMC, lo que permite la dilución del producto sin cambios significativos en la tensión superficial. Por otro lado, en casos como la extracción de proteínas de membrana, se prefiere una CMC alta ya que la eficiencia de extracción generalmente se estabiliza en alrededor de cuatro veces la CMC del surfactante debido a la autoasociación10,13.

Debido a las numerosas aplicaciones de CMC, el conocimiento de los valores de esta propiedad específica es esencial en diferentes condiciones. Las mediciones experimentales son una forma confiable de acceder a valores precisos. Sin embargo, realizar experimentos en laboratorios no siempre es sencillo, especialmente a altas temperaturas y presiones. En algunos casos, las mediciones experimentales son costosas y/o requieren mucho tiempo y pueden implicar incertidumbres sobre impurezas, posibles descomposiciones, etc. La aplicación de métodos de estimación y modelos matemáticos puede resultar eficaz en este ámbito. Para el desarrollo de correlaciones computacionales se encuentran disponibles modelos empíricos, como método famoso, y diferentes algoritmos matemático-estadísticos. Herramientas conocidas como programación genética (GP), redes neuronales artificiales (ANN), optimización de enjambre de partículas (PSO), sistema de inferencia neurodifuso adaptativo (ANFIS), máquinas de vectores de soporte (SVM), árboles de aumento de gradiente estocástico (SGB) , etc., se aplican.

Para estimar las propiedades de los compuestos químicos, se prefieren enfoques de base molecular, como la contribución de grupo y la relación cuantitativa estructura-propiedad (QSPR)14. En el método de contribución de grupos, las propiedades de los compuestos químicos se estiman analizando diferentes partes de sus estructuras moleculares, como grupos funcionales, enlaces singulares y múltiples, etc. Este es un método interesante que a veces puede lograr una alta precisión. Sin embargo, existen algunas desventajas, como su aplicabilidad limitada a ciertos isómeros, así como a compuestos químicos con estructura nueva.

QSPR es otro método de estimación en el que la propiedad considerada (función objetivo) se estima a partir de una serie de parámetros químicos de los componentes llamados "descriptores moleculares"15. Los descriptores moleculares se refieren únicamente a las estructuras moleculares de los componentes y se calculan aplicando ciertas reglas matemáticas. Una de las ventajas importantes de un modelo QSPR es la capacidad de estimar las propiedades de compuestos químicos recientemente diseñados únicamente a partir de sus descriptores moleculares. En este estudio, se aplicó la técnica QSPR para producir modelos novedosos para CMC como funciones de descriptores moleculares.

Existen varios modelos matemáticos para estimar la CMC de tensioactivos aniónicos. En 1953, Klevens16 propuso una relación entre la CMC y el número de átomos de carbono en la cola del surfactante (N) de la siguiente manera:

A y B son constantes para series homólogas de tensioactivos en condiciones fijas. Este modelo es simple, pero es válido para condiciones fijas y tensioactivos estructuralmente simples.

En los principales estudios de modelado CMC se ha utilizado el enfoque QSPR. Huibers et al.17 desarrollaron un modelo lineal multivariable basado en QSPR a partir de un conjunto de datos de 119 tensioactivos aniónicos a 40 °C. El modelo es el siguiente:

En esta ecuación, el descriptor “t-sum-KH0”, que es el índice de conectividad molecular de Kier y Hall de orden cero, se considera como una variable para la parte hidrofóbica (cola) del surfactante. Este parámetro está relacionado con el volumen molecular y el área de superficie. "TDIP" representa el momento dipolar total del tensioactivo y es un descriptor de toda la molécula. "h-sum-RNC" es el número relativo de átomos de carbono en la fracción hidrófila (cabeza) y refleja la diversidad de las estructuras del grupo de cabeza18.

Huibers et al.17 también desarrollaron una correlación lineal multivariable para los tipos de sulfato y sulfonatos utilizando 66 puntos de datos a 40 °C:

KH1 es el índice de conectividad molecular de Kier y Hall de primer orden, que es un parámetro que se correlaciona con el volumen molecular y el área de superficie. KS3 es el índice de forma de Kier de tercer orden que está relacionado con la forma molecular. HGP determina el número de carbonos unidos al resto hidrófilo y está ubicado en la cadena más larga de la molécula del surfactante17,18.

Jalali-Heravi y Konouz19 produjeron otro modelo lineal utilizando 31 tensioactivos aniónicos (27 alquilsulfatos y 4 alcanosulfonatos) a 40 °C. La correlación se presentó de la siguiente manera:

En esta ecuación, WI, que es el número de Wiener, un descriptor topológico que mide la compacidad de la molécula. RA−1 es el recíproco del índice Randic, un criterio para cuantificar la ramificación molecular y D es el momento dipolar molecular.

En 2002, Wang et al.20 propusieron un modelo lineal QSPR para 40 tensioactivos aniónicos. Este modelo implicaba una serie de descriptores de la mecánica cuántica:

En esta ecuación, KH0, Et, ΔHf, EHOMO y ELUMO representan el índice de conectividad molecular de Kier y Hall de orden cero, la energía total de la molécula, el calor molar de formación, la energía del orbital molecular ocupado más alto y la energía del orbital molecular más bajo desocupado. orbital molecular, respectivamente.

El modelo de Robert et al.21 fue otra correlación producida en 2002 que se generó adoptando el coeficiente de partición octanol/agua para 16 tensioactivos aniónicos, incluido el sulfato de alcohol primario y el éster sulfato de alcohol primario a 50 °C. Aplicaron dos variables en su correlación: Πh, que es el coeficiente de partición octanol/agua del resto hidrofóbico y se define como el coeficiente de partición octanol/agua de toda la molécula menos el coeficiente de partición octanol/agua del fragmento cargado negativamente SO3−. u OSO3− 18, y L, que es la longitud del resto hidrofóbico como unidad de enlace simple C – C. El siguiente modelo es su correlación sugerida:

Li et al.22 presentaron un modelo lineal multivariado en 2004. Optimizaron las estructuras hidrófobas-hidrófilas de 98 tensioactivos aniónicos, incluidos alquilsulfatos de sodio, alquilsulfonatos de sodio, alquilbencenosulfonatos de sodio y alquilcarboxilatos de potasio, y calcularon datos químicos cuánticos para desarrollar su correlación:

En esta ecuación, NT representa el número total de átomos y QC-max representa las cargas atómicas netas máximas en el átomo de carbono.

Li et al.23 también desarrollaron un modelo lineal en 2006 para 36 alquilbencenosulfonatos de sodio utilizando el mismo método que en su trabajo anterior:

f −IBAL es el índice de conectividad a distancia de Balaban del segmento hidrofóbico, que representa el tamaño molecular y la compacidad.

Katritzky et al.18,24 recomendaron el uso de descriptores moleculares topológicos, de solvatación y relacionados con la carga para desarrollar modelos, debido a la importante fuerza impulsora de las interacciones intermoleculares entre los tensioactivos aniónicos y el agua. Sin embargo, se han utilizado diferentes categorías de descriptores en el modelado y se han presentado resultados aceptables.

Una investigación general muestra que casi todas las correlaciones matemáticas sugeridas para estimar la CMC han sido construidas con base en descriptores químicos en condiciones constantes de temperatura (T), principalmente en soluciones acuosas sin salinidad. Sin embargo, la CMC es una cantidad físico-química de tensioactivos que está muy influenciada por algunos parámetros básicos. Junto con la estructura química de un tensioactivo, la salinidad de la solución, la temperatura (T), la presión (P) y el pH son los parámetros más eficaces en la CMC, como se muestra en estudios previos25,26,27,28,29.

El impacto de la temperatura sobre la CMC de los tensioactivos en el agua es complejo y sigue una tendencia no lineal. Inicialmente, la CMC disminuye con la temperatura hasta alcanzar un mínimo, después de lo cual comienza a aumentar con un aumento adicional de la temperatura. Esto se debe al hecho de que temperaturas más altas conducen a una hidratación reducida de la parte hidrófila de la molécula del tensioactivo, lo que facilita la formación de micelas. Sin embargo, al mismo tiempo, el aumento de temperatura también interfiere con las moléculas de agua estructuradas que rodean la parte hidrófoba de la molécula de surfactante, lo que impide la formación de micelas. Así, el equilibrio entre los efectos favorables y desfavorables de la temperatura sobre la micelización determina si la CMC aumenta o disminuye en un determinado rango de temperatura30. Generalmente, la adición de sal a soluciones de tensioactivos aniónicos da como resultado una reducción de la tensión superficial, y el efecto se vuelve más significativo a concentraciones de sal más altas. Este fenómeno se atribuye a las interacciones electrostáticas que facilitan la migración de monómeros tensioactivos hacia la interfaz31.

El objetivo principal de este estudio fue generar modelos novedosos y precisos que incorporen los parámetros efectivos en CMC, incluidos descriptores químicos y variables físicas, para varios tensioactivos aniónicos comunes ampliamente utilizados. En este estudio, el método QSPR se combinó con dos enfoques sólidos de aprendizaje automático: SGB y GP. Se desarrollaron nuevos métodos predictivos con aplicabilidad y confianza para estimar la CMC. La inclusión de propiedades físicas como T, pH y salinidad junto con los descriptores químicos para estimar la CMC es un enfoque novedoso e innovador. Además, el uso de métodos SGB y GP para desarrollar modelos CMC es una técnica nueva.

El conjunto de datos total incluye 488 conjuntos (es decir, observaciones) de datos experimentales adoptados de la literatura11,19,25,32,33,34,35,36,37,38,39,40,41,42. Cada conjunto (observación) contiene parámetros básicos, incluida la salinidad de la solución (en forma de salinidad equivalente de NaCl), la temperatura (T), el pH y la CMC a presión atmosférica. Los datos recopilados involucran 111 tensioactivos aniónicos a base de sodio ampliamente utilizados, incluidos alquilsulfatos de sodio, alcanosulfonatos de sodio, alquilbencenosulfonatos de sodio, dialquilsulfosuccinato de sodio y alquil(X)oxietilenosulfatos de sodio (X representa mono, di, tri o tetra).

Cabe señalar que la salinidad equivalente de NaCl (Seq) se define como la salinidad de la salmuera en la que todas las sales disueltas (cationes y aniones) se han reemplazado con una cierta cantidad de cloruro de sodio para que la resistividad de la salmuera se mantenga igual43,44. Es un método habitual y sencillo para representar la salinidad donde se aplica un criterio común (la cantidad de NaCl) en lugar de una diversa variedad de sales. Además, el pH de las soluciones recopiladas en el conjunto de datos se atribuye a las sales disueltas (es decir, efectos de cationes y aniones de las sales) sin los efectos de los iones tensioactivos, y no hay aditivos ácidos o básicos en los datos recopilados. Los rangos de todas las variables se muestran en la Tabla 1.

Para generar los modelos basados ​​en datos, primero se dividió aleatoriamente todo el conjunto de datos en dos subconjuntos. Según la literatura45,46,47,48,49, el 90% de los datos se consideraron datos de entrenamiento y los puntos de datos restantes se utilizaron como datos de prueba. El conjunto de datos de entrenamiento se utilizó para desarrollar el modelo CMC, mientras que los datos de prueba se utilizaron para probar la capacidad de estimación del modelo recientemente desarrollado.

Los descriptores moleculares de un compuesto son especificaciones químicas numéricas calculadas a partir de la estructura química del componente. Se calculan utilizando ciertas reglas matemáticas que están disponibles en software especializado50,51. En primer lugar, la estructura química del compuesto debe dibujarse con precisión en un software adecuado. En el presente estudio, las estructuras de los iones tensioactivos (aniones) se dibujaron en ChemBio3D Ultra, que es un módulo del software ChemBioOffice52. Luego, las estructuras dibujadas se optimizaron minimizando el nivel de energía utilizando mecánica molecular (MM2). Las estructuras optimizadas se guardaron como archivos SDF53 y se enviaron al software Dragon para calcular los descriptores. La versión en línea del software Dragon está disponible gratuitamente54. El software Dragon calcula diferentes categorías de descriptores, incluidos (1) descriptores constitucionales 0D (recuentos de átomos y grupos), (2) grupos funcionales 1D y fragmentos centrados en átomos, (3) topológicos, autocorrelaciones, índices de conectividad, índices de información y índices basados ​​en valores propios, (4) descriptores moleculares invariantes holísticos ponderados (WHIM) y de geometría, topología y ensamblaje de pesos atómicos (GETAWAY), etc. Para obtener más información sobre los descriptores moleculares, consulte la literatura55.

En el siguiente paso, se excluyeron los descriptores con el mismo valor para todos los compuestos del conjunto de datos, es decir, los descriptores no informativos. Finalmente, se consideró un conjunto de 1410 descriptores optimizados para cada compuesto en el proceso de modelado.

En el enfoque QSPR, después de calcular los descriptores, se debe seleccionar un pequeño subconjunto de los descriptores más eficaces como parámetros químicos modelo (por ejemplo, estructurales) junto con otras variables (básicas). En otras palabras, se debe elegir una pequeña cantidad de descriptores del gran conjunto. Existen diferentes métodos para la selección de variables de subconjunto, como la regresión lineal multivariada basada en algoritmos genéticos (GA-MLR)15, la aproximación de funciones genéticas (GFA)51, la regresión por pasos hacia adelante (FSR), el método de reemplazo (RM)56,57, método de reemplazo (ERM)56,58, y así sucesivamente.

En este estudio, se utilizó el ERM para seleccionar el mejor subconjunto. Puede encontrarse una explicación detallada del procedimiento ERM en otros lugares56,58,59. En el método ERM, el usuario determina la cantidad de descriptores que el algoritmo debe encontrar, y ERM los encontrará en forma de una regresión lineal multivariada. El principal desafío es determinar una regresión simple con un número mínimo de descriptores que proporcione la precisión adecuada. Para seleccionar los mejores descriptores en este estudio, primero intentamos encontrar dos descriptores utilizando el conjunto de datos de entrenamiento. El algoritmo ERM desarrolló la mejor regresión lineal con dos descriptores. Luego, se aumentó el número de descriptores uno por uno para mejorar la precisión de la regresión multivariada. Para cada regresión, el coeficiente de correlación (R2) y la desviación estándar residual (RSD) se calcularon utilizando las siguientes fórmulas:

En las ecuaciones, \({\text{y}}_{{\text{i}}}^{{{\text{exp}}{.}}}\),\({\text{y}} _{{\text{i}}}^{{\text{cal}}{.}}}\) y \(\overline{{\text{y}}}^{\exp .}\) representan los valores experimentales, estimados y promedio de la función objetivo (log 10 CMC), respectivamente. n es el número de muestras en el conjunto de datos (conjunto de datos de entrenamiento) y d es el número de descriptores en la regresión lineal. Se desea un valor más bajo de RSD y un valor más alto de R2. Los resultados del paso de selección de descriptores se muestran en la Fig. 1. De la Fig. 1 se puede inferir que aumentar el número de descriptores más allá de cinco no tuvo ningún efecto positivo en la capacidad de estimación de la regresión lineal. Por lo tanto, se consideró un subconjunto de cinco descriptores moleculares y los descriptores determinados se presentan en la Tabla 2.

El efecto del número de descriptores moleculares sobre la capacidad de predicción en el paso de selección de descriptores.

Los descriptores determinados junto con T, Seq y pH se utilizaron para generar un modelo de regresión lineal multivariado para CMC. Para evaluar el rendimiento predictivo del modelo, se emplearon varios criterios estadísticos comunes. En este estudio se utilizaron la desviación cuadrática media (RMSD), el error absoluto medio (MAE) y R2, que son parámetros ampliamente utilizados.

\({\text{y}}_{{\text{i}}}^{{{\text{exp}}{.}}}\),\({\text{y}}_{{\ text{i}}}^{{{\text{cal}}{.}}}\), y n representan las muestras experimentales, estimadas y el número de muestras de la variable dependiente en el conjunto de datos, respectivamente. Son más deseables valores más bajos de RMSD y MAE, que indican proximidad a cero. El valor de R2 debe estar cerca de la unidad. Además de los criterios estadísticos comunes, se utilizan varias técnicas estadísticas específicas en el enfoque de modelado QSPR para validar cualquier modelo lineal QSPR. Los principales métodos de validación de QSPR incluyen validación cruzada con dejar uno fuera (LOO), validación cruzada sin dejar (LNO), arranque, aleatorización y y validación externa. Aunque la explicación de estas técnicas específicas ha sido propuesta en algunos estudios60, aquí se presenta una breve revisión.

En la validación cruzada de LOO, cada muestra del conjunto de datos de entrenamiento se excluye una vez y se genera una nueva regresión lineal multivariada sin esa muestra. Utilizando la nueva regresión, se estima la variable dependiente de la muestra excluida. Los valores del coeficiente de correlación (Q2) y el error cuadrático medio de validación cruzada (RMSECV) se calculan utilizando las siguientes ecuaciones:

donde \({\text{y}}_{{\text{i}}}^{{{\text{exp}}{.}}}\),\({\text{y}}_{{ \text{i}}}^{{{\text{cal}}{.}}}\), \(\overline{{\text{y}}}^{\exp .}\), y n representan el experimental, estimado, el promedio de los valores experimentales y el número de muestras en el conjunto de datos de entrenamiento, respectivamente.

La validación cruzada de LNO es similar a LOO, con la única diferencia de que en la validación cruzada de LNO, se excluye un grupo de muestras en lugar de solo una. Los valores de RMSECV y Q2 se recalculan para la validación cruzada de LNO. En la validación cruzada de LOO, la repetición de la prueba no afecta a RMSECV ni a Q2. Sin embargo, en las validaciones LNO ross, RMSECV y Q2 pueden variar debido a la repetición de la prueba. En este estudio, la prueba de validación cruzada de LNO se repitió tres veces y se informaron los resultados. Al desarrollar un modelo lineal QSPR, los valores mínimos aceptables para las variables estadísticas son Q2 > 0,5 y R2 > 0,6. Una diferencia entre Q2 y R2 que excede 0,2–0,3 indica un sobreajuste en el proceso de modelado lineal QSPR60.

En la técnica de arranque, todo el conjunto de datos se divide aleatoriamente en conjuntos de datos de entrenamiento y de prueba varias veces. Para cada división, se genera una regresión lineal multivariada respectiva y se realiza una validación cruzada LOO. Luego se calculan los valores de R2 y Q2 y se informan sus promedios (es decir, R2boot y Q2boot). En el arranque, un punto de datos puede excluirse una vez, varias veces o nunca. En el presente estudio, el arranque se realizó 5000 veces.

El método de aleatorización y se utiliza para evaluar la posibilidad de correlación aleatoria entre las variables dependientes e independientes de un modelo lineal QSPR. En la prueba de aleatorización y, la matriz original de valores de variables independientes es fija y el vector de la variable dependiente es aleatorio. Luego se construye una regresión entre las variables aleatorias. Si no existe una correlación aleatoria, la regresión multivariada resultante debería ser de mala calidad. La aleatorización Y se realiza varias veces y los valores de R2 y el coeficiente de correlación LOO (Q2) se calculan para cada regresión (es decir, R2yi y Q2yi). Los resultados de la aleatorización y generalmente se presentan gráficamente como R2i versus Q2i. Cuando Q2yi < 0,2 y R2yi < 0,2, no existe riesgo de correlación casual14,60. En el presente estudio, la aleatorización y se realizó 1000 veces.

La validación externa es otro método en el que el conjunto de datos principal se divide aleatoriamente en conjuntos de datos de entrenamiento estructuralmente similares y un conjunto de validación externo (es decir, un conjunto de prueba). En el presente estudio, al principio, se seleccionó aleatoriamente el 10% de todo el conjunto de datos como conjunto de validación externa (es decir, el conjunto de prueba) y se utilizó para evaluar la aplicabilidad de la estimación.

Después de desarrollar y evaluar el modelo lineal multivariable, se aplicaron los algoritmos SGB y GP para generar modelos no lineales para CMC utilizando las variables independientes (es decir, los descriptores determinados, T y Seq). Los modelos no lineales suelen proporcionar más precisión y poder de estimación.

En la investigación actual, se implementó el marco de árbol de aumento de gradiente estocástico (SGB) sobre los datos recopilados para modelar CMC.

Stochastic Gradient Boosting es una mejora del método clásico de gradiente Boosting, creado por Friedman61. Al incorporar el enfoque de ensacado de Breiman62, se aumenta la precisión y la eficiencia al muestrear aleatoriamente los datos de entrenamiento63,64. Esto da como resultado un mejor rendimiento de predicción65, y la técnica ha demostrado ser eficaz en muchas industrias y aplicaciones66–76.

En términos más generales, Gradient Boosting (GB) es un algoritmo eficaz que transforma hipótesis débiles en hipótesis fuertes combinando una serie de alumnos en conjunto formados por alumnos de base simple o débiles77,78. Un alumno débil se define como aquel cuyo rendimiento es sólo ligeramente mejor que el azar y, en el caso de GB, los árboles de decisión (como los árboles de regresión) se utilizan comúnmente como alumnos débiles. Para evitar el sobreajuste, la construcción de árboles a menudo se limita limitando el número de niveles o eligiendo los mejores puntos de división basándose en la minimización de una función de pérdida.

El objetivo general del algoritmo es minimizar la pérdida del modelo agregando alumnos débiles mediante un procedimiento similar a un descenso de gradiente. En cada iteración, se agrega un nuevo alumno débil que se centra en los casos que el alumno débil anterior no predijo correctamente, reduciendo así la pérdida. Luego, el resultado de cada árbol generado se agrega al resultado de la secuencia de árboles para mejorar gradualmente el resultado final del modelo.

GB estocástico es una variación de GB donde se selecciona aleatoriamente una submuestra del conjunto de entrenamiento total para cada iteración, y el alumno base se ajusta a esa submuestra sin reemplazo61,64. Esto reduce el riesgo de sobreajuste y permite la autovalidación del modelo internamente mediante el uso de estimaciones de error listas para usar. Además, el algoritmo se vuelve más rápido ya que se generan árboles de regresión en conjuntos de datos más pequeños en cada iteración. La revisión de la literatura ha demostrado la alta capacidad de esta nueva rama del algoritmo de árbol de decisión en áreas de ingeniería química79,80.

Al desarrollar el modelo SGB, los valores de error disminuyeron drásticamente a medida que aumentaba el número de árboles hasta que la tasa de error se estabilizó (ver Fig. 2). El algoritmo SGB seleccionó una solución con 2736 árboles, que fue la solución que devolvió el error mínimo en forma de RMSD para el conjunto de datos de prueba (RMSDtest = 0,05203).

El gráfico de RMSD sobre los sucesivos pasos de impulso para las muestras de entrenamiento y prueba utilizando el método SGB.

Para lograr el modelo más generalizable, determinar la tasa de aprendizaje era crucial. La tasa de aprendizaje es el peso específico con el que se agregan árboles simples consecutivos a la ecuación de predicción y se considera el parámetro más importante. Para identificar el valor óptimo, se realizó un análisis de sensibilidad, que demostró los efectos de la tasa de aprendizaje en el rendimiento del modelo SGB para predecir CMC, como se ilustra en la Fig. 3. Se determinó que el parámetro optimizado era 0,09. Utilizando el árbol SGB también se determinaron los grados de importancia de todos los parámetros del modelo.

Los efectos de la tasa de aprendizaje sobre el rendimiento del modelo SGB para predecir CMC.

La programación genética (GP) es un algoritmo utilizado en el presente estudio para desarrollar el modelo CMC. GP es un conocido enfoque de aprendizaje automático para estudios de optimización y modelado que fue introducido en la década de 1990 por John Koza81. El procedimiento de GP está inspirado en el fenómeno de generación biológica en el que los programas informáticos evolucionan evolutivamente en un algoritmo de aprendizaje automático para realizar tareas.

En el proceso de GP, primero se genera aleatoriamente una población de funciones matemáticas a partir de operadores matemáticos predeterminados definidos por el usuario. Luego, algunas de estas funciones se eligen aleatoriamente para ordenarlas en forma de uno o varios “genes”. Un gen se representa como una estructura de árbol sintáctico similar a un cromosoma que opera con datos de entrada, es decir, el conjunto de datos de entrenamiento (como se muestra en la Fig. 4)82,83.

Esquema de un gen GP simple que incluye los operadores: +, ^, ×, tanh.

Una vez que se determinan los genes primarios de la primera población (conocida como padres), el modelo general de GP primario se desarrolla mediante una suma ponderada de los genes con un término de sesgo. Sin embargo, el modelo primario no proporciona la precisión deseada y se requiere un proceso de modificación. En el siguiente paso, las estructuras arbóreas de los genes primarios se modifican cruzando los árboles con mejor rendimiento y cortando algunas secciones de árboles para intercambiarlas entre ellos. Esta modificación resulta principalmente en una nueva población (próxima generación o niños) debido a cambios en las funciones matemáticas84.

La generación se itera varias veces en un proceso regular hasta que se genera la última población, que incluye las funciones más optimizadas con una disposición específica de genes para resolver el problema85. En las aplicaciones de modelado de GP, la regresión entre la función objetivo y las variables independientes también se conoce como "regresión simbólica multigénica". Es una técnica eficaz que incluye uno o más genes (árboles GP habituales individuales) que proporcionan un procesamiento sencillo y rápido para realizar tareas83,86.

En este estudio, el número de poblaciones y el número de generaciones se establecieron en 180 cada uno, y se emplearon los operadores matemáticos +, −, ×, / y exp (exponencial). Se ejecutó GP sobre los datos de entrada y se obtuvo el modelo de salida con una precisión aceptable.

A continuación se presenta el modelo lineal multivariable para CMC de tensioactivos aniónicos en salmuera:

Las variables del nuevo modelo desarrollado se han presentado en las Tablas 1 y 2. Los descriptores determinados (que se muestran en la Tabla 2) son “CIC2”87, “EEig12x”88, “Lop”88,89, “BEHp2”90 y “ G3”91.

CIC2 es un contenido de información complementaria de simetría de vecindad de segundo orden de la categoría de descriptores de índices de información. Es una medida del grado de diversidad de elementos en la estructura87.

El descriptor Lop es un índice centrado en lopping categorizado en descriptores topológicos, que generalmente se obtienen a partir de un gráfico molecular empobrecido en hidrógeno. Un gráfico molecular es un gráfico etiquetado cuyos vértices corresponden a los átomos del compuesto etiquetados con los tipos de átomos, y las aristas corresponden a enlaces químicos etiquetados con los tipos de enlaces89.

Lop es un índice definido como el contenido medio de información derivado de la partición de poda de un gráfico88.

EEig12x es uno de los descriptores de índices de adyacencia de bordes, que representa el duodécimo valor propio de la matriz de adyacencia de bordes ponderado por grados de borde. La matriz de adyacencia de bordes derivada de un gráfico molecular codifica la conectividad entre los bordes del gráfico88.

BEHp2 pertenece a la categoría de valores propios de carga de descriptores topológicos 2D. Es una medida de la polarizabilidad molécula/ion definida como el segundo valor propio más alto de la matriz Burden, que está ponderado por la polarizabilidad atómica90,92.

G3s es un descriptor WHIM y se define como el índice WHIM direccional de simetría del tercer componente ponderado por estados electrotopológicos atómicos. Las especificaciones WHIM se utilizan para calcular información molecular 3D basada en el tamaño, la forma, la simetría, la diversidad de átomos, etc.91.

Los parámetros estadísticos de la correlación lineal multivariada, incluidos los parámetros de validación específicos de QSPR, se presentan en las Tablas 3 y 4. Los valores de R2, RMSD y MAE muestran una precisión media del modelo lineal. La validez del modelo lineal se verificó mediante técnicas de validación cruzada LOO, validación cruzada LNO, bootstrapping, aleatorización y y validación externa. Los parámetros de validación cruzada de LNO se muestran en la Tabla 4 y la prueba de arranque se realizó 5000 veces. La baja diferencia entre los valores de Q2LOO, Q2LNO, Q2boot, Q2ext, R2boot y R2ext indica que el modelo lineal se ha desarrollado sin que se produzca sobreajuste. La prueba de aleatorización y se repitió 1000 veces y los resultados se muestran en la Fig. 5. Según esta prueba, los valores de Q2yi y R2yi (es decir, puntos de datos de aleatorización y) son de mala calidad en comparación con la correlación del modelo lineal. coeficiente (R2) y Q2LOO (indicado como un punto rojo en la Fig. 5), que verifica que no existe riesgo de correlación aleatoria en el modelo lineal multivariable de CMC.

El resultado de la prueba de aleatorización y para el modelo lineal multivariable de CMC.

La CMC estimada por la ecuación. (15) versus los datos experimentales se presentan en la Fig. 6. Según las Tablas 3 y 4 y la Fig. 6, el modelo lineal tiene una precisión aceptable. Sin embargo, la capacidad de predicción no es lo suficientemente excelente. Los resultados de los modelos no lineales se proponen en la siguiente sección.

La CMC estimada frente a los datos experimentales para el modelo lineal multivariado sobre conjuntos de datos de entrenamiento y prueba.

Los programas SGB y GP se ejecutaron sobre los datos de entrada para producir nuevos modelos para la CMC de tensioactivos aniónicos en una solución de salmuera. La ejecución del algoritmo SGB en este estudio sigue las explicaciones de Friedman61,64. El nuevo modelo GP es una relación matemática como sigue:

La Tabla 5 muestra los parámetros estadísticos de los modelos presentados. Los valores de R2, RMSD y MAE representan la aplicabilidad aceptable de los modelos SGB y GP y la alta precisión y superioridad del método SGB. Las Figuras 7 y 8 muestran la CMC estimada versus los valores experimentales para los modelos GP y SGB, respectivamente. Los datos calculados por el modelo SGB se han disperso bien en la línea de 45 grados (y = x), verificando una precisión excelente.

La CMC estimada versus los valores experimentales para el modelo GP sobre conjuntos de datos de entrenamiento y prueba.

La CMC estimada frente a los valores experimentales para el modelo SGB en conjuntos de datos de entrenamiento y prueba.

La Figura 9 presenta las curvas de frecuencia acumulada versus errores absolutos de la función objetivo (Log 10 (CMC)) para los modelos SGB y GP, así como la correlación lineal. El error absoluto máximo del modelo SGB en esta figura es 0,18. Además, los errores absolutos del 82,2 % de todos los conjuntos de datos son inferiores a 0,01 y los errores absolutos del 99,2 % de los datos son inferiores a 0,1 para el nuevo modelo SGB. La Figura 10 muestra errores absolutos sobre el conjunto de datos total para los modelos lineal (gráfico superior), GP (gráfico medio) y SGB (gráfico inferior). Como se observa en las Figs. 9 y 10, la precisión de la estimación se ha mejorado desde el modelo lineal al modelo SGB, y la precisión del método SGB es la más alta.

Frecuencia acumulada de los nuevos modelos desarrollados.

Errores absolutos de los puntos de datos en todo el conjunto de datos para el modelo lineal (arriba), el modelo GP (medio) y el modelo SGB (abajo). Se observa que la precisión de la estimación ha aumentado de arriba a abajo.

La importancia relativa de las variables independientes, incluidos los descriptores (Lop, CIC2, EEig12x, BEHp2 y G3s), T, pH y Seq, ha sido determinada por el algoritmo SGB en la calibración del modelo SGB, y los resultados se han representado en la Fig. 11. Un valor más alto de una variable indica una importancia relativa más fuerte en la respuesta. Como se muestra, el descriptor Lop es el factor más efectivo entre las variables de entrada en el desarrollo del modelo SGB.

Importancia relativa de las variables independientes en el CMC según el algoritmo SGB.

La aplicación de los modelos propuestos se muestra en la Tabla 6 para la estimación de la CMC del dodecilsulfato de sodio como muestra en el conjunto de datos.

Las novedades del presente estudio son la generación de nuevos modelos con alta precisión para la CMC de soluciones surfactantes que contienen diferentes tipos de sales basados ​​en el enfoque QSPR y la aplicación de GP y SGB para producir modelos no lineales. El uso de una amplia gama de salinidades y temperaturas, así como varios tipos de tensioactivos aniónicos en el procedimiento de modelado, ha aumentado la aplicabilidad de la estimación y el rendimiento de predicción de los modelos recientemente desarrollados.

La estimación de CMC es uno de los intereses más importantes de las comunidades académicas e industriales que se ocupan de los tensioactivos. El presente estudio se realizó para obtener métodos novedosos para la estimación de la CMC de tensioactivos aniónicos conocidos y muy utilizados en función de parámetros físicos (T, pH y salinidad) y factores químicos (Lop, CIC2, EEig12x, BEHp2, y G3) y evitar las costosas y lentas mediciones de laboratorio. La estimación de CMC a diferentes temperaturas y salinidades se considera novedosa e innovadora. El enfoque molecular QSPR, junto con el marco de aprendizaje conjunto de procedimientos de aumento de gradiente estocástico (SGB) y programación genética (GP), se utilizó para producir modelos para CMC en salmuera. Los algoritmos implementados son confiables y aplicables para predecir CMC. Sin embargo, los resultados de SGB son más precisos en términos de parámetros estadísticos. Esta investigación también alienta a las comunidades científicas y de ingenieros a investigar más a fondo el uso de la nueva rama de los marcos de computación blanda. El desarrollo de estos modelos para CMC proporciona nuevas aplicaciones en la simulación y el control de sistemas tensioactivos, así como la predicción de CMC para tensioactivos aniónicos de nuevo diseño.

Todos los conjuntos de datos de la literatura analizados en este estudio están disponibles a pedido razonable de los autores correspondientes.

Error absoluto

Sistema adaptativo de inferencia neuro-difusa

Redes neuronales artificiales

Valor propio más alto no. 2 de matriz de carga/ponderada por polarizabilidades atómicas

Recuperación química mejorada de petróleo

Contenido de información complementaria (simetría vecinal de segundo orden)

Concentración micelar crítica

Momento bipolar

Valor propio 12 desde el borde adj. matriz ponderada por grados de borde

Energía del orbital molecular ocupado más alto.

Energía del orbital molecular desocupado más bajo.

Recuperación mejorada de petróleo

Método de reemplazo mejorado

Energía total de la molécula.

Índice de conectividad a distancia de Balaban

Regresión gradual hacia adelante

Índice WHIM direccional de simetría del tercer componente/ponderado por estados electrotopológicos atómicos

Algoritmo genético de regresión lineal multivariante.

Aumento de gradiente

Aproximación de la función genética.

Programación genética

Posición del grupo hidrofóbico

Algoritmo competitivo imperialista

Índice de conectividad molecular de Kier y Hall de orden cero

Índice de conectividad molecular de primer orden de Kier y Hall

Índice de forma de Kier de tercer orden

Índice centrado de corte

Error absoluto medio

Mecánica molecular

Número de muestras en el conjunto de datos

Número total de átomos

Presión

Optimización de Enjambre de partículas

Coeficiente de correlación al cuadrado de validación cruzada de LOO de bootstrapping

Coeficiente de correlación al cuadrado de validación externa.

Coeficiente de correlación al cuadrado de validación cruzada sin exclusión

Coeficiente de correlación al cuadrado de validación cruzada de dejar uno fuera

Coeficiente de correlación al cuadrado de validación cruzada LOO de aleatorización Y

Cargas atómicas netas máximas en el átomo de carbono

Relación de propiedad cuantitativa-estructural

Coeficiente de correlación al cuadrado

Coeficiente de correlación al cuadrado de la prueba de arranque

Coeficiente de correlación al cuadrado de la prueba de validación externa.

Coeficiente de correlación al cuadrado de la prueba de aleatorización y

Recíproco del índice randic

Método de reemplazo

Desviación cuadrática media

Error cuadrático medio de validación cruzada

Desviación estándar residual

Número relativo de átomos de carbono.

Salinidad equivalente de NaCl

Aumento del gradiente estocástico

Máquinas de vectores soporte

Temperatura

Momento dipolar total

Molecular invariante holístico ponderado

número de salchicha

Variable dependiente prevista

Variable dependiente experimental

Promedio de la variable dependiente experimental

Calor molar de formación

Coeficiente de partición octanol/agua

Schramm, LL, Stasiuk, EN & Marangoni, DG 2 Tensioactivos y sus aplicaciones. Ana. Sección Rep. C (Phys. Chem.) 99, 3–48 (2003).

Artículo CAS Google Scholar

Massarweh, O. & Abushaikha, AS El uso de tensioactivos en la recuperación mejorada de petróleo: una revisión de los avances recientes. Representante de Energía 6, 3150–3178 (2020).

Artículo de Google Scholar

Suárez, L., Díez, MA, García, R. & Riera, FA Tecnología de membranas para la recuperación de compuestos detergentes: una revisión. J. Ind. Ing. Química. 18, 1859–1873 (2012).

Artículo de Google Scholar

Falbe, J. Surfactantes en productos de consumo: teoría, tecnología y aplicación. (Springer Science & Business Media, 2012).

Hellgren, A.-C., Weissenborn, P. & Holmberg, K. Tensioactivos en pinturas a base de agua. Prog. Org. Abrigo. 35, 79–87 (1999).

Artículo CAS Google Scholar

Kralova, I. & Sjöblom, J. Surfactantes utilizados en la industria alimentaria: una revisión. J. Dispers. Ciencia. Tecnología. 30, 1363-1383 (2009).

Artículo CAS Google Scholar

Adams, JW Surfactantes organosiliconados: propiedades, química y aplicaciones. Fenómenos superficiales y aditivos en recubrimientos a base de agua y tecnología de impresión, 73–82 (1991).

Myers, D. Ciencia y tecnología de tensioactivos. (John Wiley e hijos, 2005).

Rosen, MJ Surfactantes y fenómenos interfaciales. (Wiley, 2004).

Gaudín, T. et al. Impacto de la estructura química en las propiedades anfifílicas de los tensioactivos a base de azúcar: una descripción general de la literatura. Adv. Col. Interfaz. Ciencia. 270, 87-100 (2019).

Artículo CAS Google Scholar

Mukerjee, P. & Mysels, KJ Concentraciones micelares críticas de sistemas tensioactivos acuosos. (Sistema de datos de referencia estándar nacional, 1971).

Rangel-Yagui, CO, Pessoa, A. Jr. & Tavares, LC Solubilización micelar de fármacos. J. Farmacéutica. Farmacéutica. Ciencia 8, 147–163 (2005).

CAS PubMed Google Académico

Arachea, BT y cols. Selección de detergentes para una mejor extracción de proteínas de membrana. Expr. de proteína Purif. 86, 12-20 (2012).

Artículo CAS PubMed Google Scholar

Abooali, D. & Sobati, MA Nuevo método para la predicción del punto de ebullición normal y la entalpía de vaporización en el punto de ebullición normal de refrigerantes puros: un enfoque QSPR. En t. J. Refrigerador. 40, 282–293 (2014).

Artículo CAS Google Scholar

Gharagheizi, F. & Sattari, M. Predicción de la temperatura de punto triple de componentes puros utilizando sus estructuras químicas. Ing. de Indiana. Química. Res. 49, 929–932 (2009).

Artículo de Google Scholar

Klevens, H. Estructura y agregación en solución dilatada de agentes tensioactivos. Mermelada. Aceite. Química. Soc. 30, 74–80 (1953).

Artículo CAS Google Scholar

Huibers, PD, Lobanov, VS, Katritzky, A., Shah, D. & Karelson, M. Predicción de la concentración micelar crítica utilizando un enfoque cuantitativo de relación estructura-propiedad. J. Ciencia de la interfaz coloidal. 187, 113-120 (1997).

Artículo ADS CAS PubMed Google Scholar

Hu, J., Zhang, X. y Wang, Z. Una revisión sobre el progreso en los estudios QSPR para tensioactivos. En t. J. Mol. Ciencia. 11, 1020-1047 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Jalali-Heravi, M. & Konouz, E. Predicción de la concentración micelar crítica de algunos tensioactivos aniónicos mediante técnicas de regresión múltiple: un estudio cuantitativo de la relación estructura-actividad. J. Surfacto. Detergente. 3, 47–52 (2000).

Artículo CAS Google Scholar

Wang, Z.-W., Li, G.-Z., Zhang, X. & Li, L. Predicción de la concentración micelar crítica de tensioactivos aniónicos en solución acuosa: enfoque cuantitativo de la relación estructura-propiedad. Acta Chimica Sinica-Edición china 60, 1548-1552 (2002).

CAS Google Académico

Roberts, DW Aplicación de los coeficientes de partición octanol/agua en la ciencia de los tensioactivos: una relación estructura-propiedad cuantitativa para la micelización de tensioactivos aniónicos. Langmuir 18, 345–352 (2002).

Artículo CAS Google Scholar

Li, X. y col. Estimación de la concentración micelar crítica de tensioactivos aniónicos con enfoque QSPR. J. Mol. Estructura. (Thoechem) 710, 119-126 (2004).

Artículo CAS Google Scholar

Xuefeng, L. et al. Correlación de la concentración micelar crítica de alquilbencenosulfonatos de sodio con descriptores moleculares. Universidad de Wuhan. J. Nat. Ciencia. 11, 409–414 (2006).

Artículo de Google Scholar

Katritzky, AR, Pacureanu, L., Dobchev, D. & Karelson, M. Estudio QSPR de la concentración micelar crítica de tensioactivos aniónicos utilizando descriptores moleculares computacionales. J. química. inf. Modelo. 47, 782–793 (2007).

Artículo CAS PubMed Google Scholar

Chauhan, S. & Sharma, K. Efecto de la temperatura y los aditivos sobre la concentración micelar crítica y la termodinámica de la formación de micelas de dodecilbencenosulfonato de sodio y bromuro de dodeciltrimetilamonio en solución acuosa: un estudio conductimétrico. J. química. Termodina. 71, 205–211 (2014).

Artículo CAS Google Scholar

Hara, K., Kuwabara, H., Kajimoto, O. y Bhattacharyya, K. Efecto de la presión sobre la concentración micelar crítica de tensioactivo neutro mediante el método de sonda de fluorescencia. J. Fotoquímica. Photobiol., A 124, 159-162 (1999).

Artículo CAS Google Scholar

Rahman, A. & Brown, C. Efecto del pH sobre la concentración micelar crítica de dodecilsulfato de sodio. J. Aplica. Polimero. Ciencia. 28, 1331-1334 (1983).

Artículo CAS Google Scholar

Ren, ZH Mecanismo del efecto de la sal sobre la micelización de un tensioactivo anfótero aminosulfonato. Ing. de Indiana. Química. Res. 54, 9683–9688 (2015).

Artículo CAS Google Scholar

Akhlaghi, N. & Riahi, S. Efecto de la salinidad sobre la concentración micelar crítica del tensioactivo mediante la medición de la tensión superficial. Irán. J. Ciencia del gas y petróleo. Tecnología. 8, 50–63 (2019).

Google Académico

Rosen, MJ y Kunjappu, JT Surfactantes y fenómenos interfaciales (Wiley, 2012).

Rafique, AS et al. Estructura micelar y transformaciones en soluciones acuosas de alquilbencenosulfonato de sodio (NaLAS): efectos de la concentración, la temperatura y la sal. Materia blanda 16, 7835–7844 (2020).

Artículo ADS CAS PubMed Google Scholar

Davis, A., Morton, S., Counce, R., DePaoli, D. y Hu, M.-C. Efectos de la fuerza iónica en los ángulos de contacto del hexadecano sobre una superficie de vidrio recubierta de oro en soluciones de tensioactivos iónicos. Coloides Surf., A 221, 69–80 (2003).

Artículo CAS Google Scholar

Fletcher, PD, Savory, LD, Woods, F., Clarke, A. y Howe, AM Estudio modelo de recuperación mejorada de petróleo mediante inundación con solución acuosa de surfactante y comparación con la teoría. Langmuir 31, 3076–3085 (2015).

Artículo CAS PubMed Google Scholar

Fu, J. y col. Una nueva técnica para determinar concentraciones micelares críticas de tensioactivos y dispersantes de aceite mediante la absorbancia UV del pireno. Coloides Surf., A 484, 1–8 (2015).

Artículo ADS CAS Google Scholar

Moradi, P., Najafi, M. y Khani, V. Propiedades de adsorción y fase micelar de tensioactivos aniónicos en presencia de electrolitos y aceite a diferentes temperaturas. Equilibrio de fase fluida. 337, 370–378 (2013).

Artículo CAS Google Scholar

Mulqueen, M. & Blankschtein, D. Investigación teórica y experimental de las tensiones interfaciales de equilibrio aceite-agua de soluciones que contienen mezclas de tensioactivos. Langmuir 18, 365–376 (2002).

Artículo CAS Google Scholar

Nahringbauer, I. La interacción entre polímero y tensioactivo revelada por la tensión interfacial. Tendencias Interfaz Coloidal Sc. V 1, 200–205 (1991).

Artículo de Google Scholar

Puig, J., Mares, M., Miller, W. y Franses, E. Mecanismo de tensiones interfaciales ultrabajas en sistemas de tensioactivo diluido, aceite y salmuera. Surf de coloides. 16, 139-152 (1985).

Artículo CAS Google Scholar

Rosen, MJ, Wang, H., Shen, P. y Zhu, Y. Tensión interfacial ultrabaja para una mejor recuperación de petróleo a concentraciones de tensioactivos muy bajas. Langmuir 21, 3749–3756 (2005).

Artículo CAS PubMed Google Scholar

Serrano-Saldaña, E. & Domínguez-Ortiz, A., Pérez-Aguilar, H., Kornhauser-Strauss, I. & Rojas-González, F.,. Humectabilidad de sistemas sólido/salmuera/n-dodecano: estudio experimental de los efectos de la fuerza iónica y la concentración de tensioactivo. Superficies coloides Una fisicoquímica. Ing. Aspectos 241, 343–349 (2004).

Artículo de Google Scholar

Zdziennicka, A., Szymczyk, K., Krawczyk, J. & Jańczuk, B. Concentración micelar crítica de algunos tensioactivos y parámetros termodinámicos de su micelización. Equilibrio de fase fluida. 322, 126-134 (2012).

Artículo de Google Scholar

Zhou, J. & Dupeyrat, M. Efecto del alcohol sobre la tensión interfacial en sistemas de aceite, agua y dodecilsulfato de sodio. J. Ciencia de la interfaz coloidal. 134, 320–335 (1990).

Artículo ADS CAS Google Scholar

Bassiouni, Z. Teoría, medición e interpretación de registros de pozos vol. 4 (Sociedad de Ingenieros Petroleros, 1994).

Reservar Google Académico

Limited, gráficos de interpretación de registros de S. Schlumberger. (Schlumberger, 1984).

Abooali, D., Soleimani, R. & Gholamreza-Ravi, S. Caracterización de las propiedades fisicoquímicas de los componentes del biodiesel utilizando enfoques inteligentes de minería de datos. Combustible 266, 117075 (2020).

Artículo CAS Google Scholar

Chatterjee, S. y col. Red neuronal entrenada para optimización de enjambre de partículas para la predicción de fallas estructurales de edificios RC de varios pisos. Computación neuronal. Aplica. 28, 2005-2016 (2017).

Artículo de Google Scholar

Gupta, AK, Singh, SK, Reddy, S. y Hariharan, G. Predicción de la tensión de flujo en el régimen de envejecimiento por deformación dinámica del acero inoxidable austenítico 316 utilizando una red neuronal artificial. Madre. Des. 35, 589–595 (2012).

Artículo CAS Google Scholar

Gyurova, LA y Friedrich, K. Redes neuronales artificiales para predecir la fricción por deslizamiento y las propiedades de desgaste de compuestos de sulfuro de polifenileno. Tríbol. En t. 44, 603–609 (2011).

Artículo CAS Google Scholar

Soleimani, R., Abooali, D. & Shoushtari, NA Caracterización de la captura de CO2 con soluciones acuosas de LysK y la mezcla de MAPA+ DEEA utilizando métodos de computación blanda. Energía 164, 664–675 (2018).

Artículo CAS Google Scholar

Sobati, MA y Abooali, D. Modelos de base molecular para la estimación de propiedades críticas de refrigerantes puros: enfoque de relación cuantitativa de propiedades de estructura (QSPR). Termochim. Acta 602, 53–62 (2015).

Artículo CAS Google Scholar

Khajeh, A. & Modarress, H. Predicción QSPR de la tensión superficial de refrigerantes a partir de sus estructuras moleculares. En t. J. Refrigerador. 35, 150-159 (2012).

Artículo CAS Google Scholar

CBO Cambridgesoft, http://www.cambridgesoft.com/. (2015).

Dalby, A. y col. Descripción de varios formatos de archivos de estructuras químicas utilizados por programas informáticos desarrollados en Molecular Design Limited. J. química. inf. Computadora. Ciencia. 32, 244-255 (1992).

Artículo CAS Google Scholar

VCCLAB, Laboratorio Virtual de Química Computacional, http://www.vcclab.org. (2005).

Todeschini, R. & Consonni, V. Descriptores moleculares para quimioinformática, volumen 41 (conjunto de 2 volúmenes). vol. 41 (John Wiley e hijos, 2009).

Mercader, AG, Duchowicz, PR, Fernández, FM & Castro, EA Método de reemplazo modificado y mejorado para la selección de descriptores moleculares en teorías QSAR y QSPR. Quimio. Intel. Laboratorio. Sistema. 92, 138-144 (2008).

Artículo CAS Google Scholar

Morales, AH et al. Aplicación del método de sustitución como nueva estrategia de selección de variables en QSAR. 1. Potencial cancerígeno. Quimiomet. Intel. Laboratorio. Sistema. 81, 180–187 (2006).

Artículo CAS Google Scholar

Mercader, AG, Duchowicz, PR, Fernández, FM & Castro, EA Avances en el método de reemplazo y reemplazo mejorado en las teorías QSAR y QSPR. J. química. inf. Modelo. 51, 1575-1581 (2011).

Artículo CAS PubMed Google Scholar

Sobati, MA, Abooali, D., Maghbooli, B. y Najafi, H. Un nuevo modelo basado en estructura para la estimación del verdadero volumen crítico de mezclas de múltiples componentes. Quimio. Intel. Laboratorio. Sistema. 155, 109-119 (2016).

Artículo CAS Google Scholar

Kiralj, R. & Ferreira, M. Procedimientos básicos de validación de modelos de regresión en estudios QSAR y QSPR: teoría y aplicación. J. Braz. Química. Soc. 20, 770–787 (2009).

Artículo CAS Google Scholar

Friedman, JH Aumento del gradiente estocástico. Computadora. Estadística. Análisis de datos. 38, 367–378 (2002).

Artículo MathSciNet MATEMÁTICAS Google Scholar

Breiman, L. Arqueando el borde. (Informe Técnico 486, Departamento de Estadística, Universidad de California en Berkeley, 1997).

Kriegler, B. & Berk, R. Estimación de áreas pequeñas de personas sin hogar en Los Ángeles: una aplicación de aumento de gradiente estocástico sensible a los costos. Ana. Aplica. Estadística. 1, 1234-1255 (2010).

MathSciNet MATEMÁTICAS Google Scholar

Friedman, JH Aproximación de la función codiciosa: una máquina de refuerzo de gradiente. Ana. Estadística. 1, 1189-1232 (2001).

MathSciNet MATEMÁTICAS Google Scholar

Kuhn, M. & Johnson, K. Modelado predictivo aplicado. vol. 810 (Springer, 2013).

Saeedi Dehaghani, AH y Soleimani, R. Predicción de la presión mínima de miscibilidad del aceite de CO2 mediante métodos de computación blanda. Química. Ing. Tecnología. 43, 1361-1371 (2020).

Abooali, D., Soleimani, R. & Gholamreza-Ravi, S. Caracterización de las propiedades fisicoquímicas de los componentes del biodiesel utilizando enfoques inteligentes de minería de datos. Combustible 266, 117075 (2020).

Abooali, D., Soleimani, R. & Rezaei-Yazdi, A. Modelado de la absorción de CO2 en soluciones acuosas de DEA, MDEA y DEA+ MDEA basado en métodos inteligentes. Septiembre Ciencia. Tecnología. 55, 697–707 (2020).

Soleimani, R., Abooali, D. & Shoushtari, NA Caracterización de la captura de CO2 con soluciones acuosas de LysK y la mezcla de MAPA+ DEEA utilizando métodos de computación blanda. Energía 164, 664–675 (2018).

Hashemkhani, M. et al. Predicción de la tensión superficial binaria de mezclas que contienen líquidos iónicos mediante algoritmos de Máquina de Vectores de Soporte. J. Mol. Licuado. 211, 534–552 (2015).

Soleimani, R. y col. Desarrollando un modelo preciso basado en árboles de decisión para predecir la solubilidad del dióxido de carbono en polímeros. Química. Ing. Tecnología. 43, 514–522 (2020).

Dehaghani, AHS & Soleimani, R. Estimación de la tensión interfacial para el almacenamiento geológico de CO2. Química. Ing. Tecnología. 42, 680–689 (2019).

Soleimani, R., Dehaghani, AHS y Bahadori, A. Un nuevo algoritmo basado en árbol de decisión para la predicción de la solubilidad del sulfuro de hidrógeno en varios líquidos iónicos. J. Mol. Licuado. 242, 701–713 (2017).

Brillante, L. et al. Investigar el uso de una máquina de aumento de gradiente, un bosque aleatorio y su conjunto para predecir el contenido de flavonoides de la piel a partir de las características físico-mecánicas de las bayas en las uvas para vino. Computadora. Electrón. Agrícola. 117, 186-193 (2015).

Artículo de Google Scholar

Godinho, S., Guiomar, N. & Gil, A. Uso de un algoritmo de aumento de gradiente estocástico para analizar la efectividad de los datos de Landsat 8 para el mapeo de cobertura terrestre montada: aplicación en el sur de Portugal. En t. J. Aplica. Observación de la Tierra. Geoinf. 49, 151-162 (2016).

Anuncios Google Scholar

Zhou, J., Li, X. & Mitri, HS Rendimiento comparativo de seis métodos de aprendizaje supervisado para el desarrollo de modelos de predicción de la estabilidad de pilares de roca dura. Nat. Peligros 79, 291–316 (2015).

Artículo de Google Scholar

Kearns, M. Reflexiones sobre el refuerzo de hipótesis. Manuscrito inédito 45, 105 (1988).

Mason, L., Baxter, J., Bartlett, PL y Frean, MR en Avances en sistemas de procesamiento de información neuronal. 512–518.

Soleimani, R., Dehaghani, AHS y Bahadori, A. Un nuevo algoritmo basado en árbol de decisión para la predicción de la solubilidad del sulfuro de hidrógeno en varios líquidos iónicos. J. Mol. Licuado. 242, 701–713 (2017).

Artículo CAS Google Scholar

Soleimani, R., Mahmood, T. y Bahadori, A. Evaluación de la potencia del compresor y el funcionamiento del condensador por servicio de refrigeración en sistemas de refrigerante de propano de tres etapas utilizando una nueva herramienta de aprendizaje conjunto. Chemeca 2016: Ingeniería Química-Regeneración, Recuperación y Reinvención, 23 (2016).

Koza, JR Programación genética: sobre la programación de computadoras mediante selección natural. (Bradford, 1992).

Abooali, D. & Khamehchi, E. Nuevo método predictivo para estimar la temperatura de formación de hidratos de gas natural mediante programación genética. Aplicaciones y computación neuronal, 1–10.

Searson, DP, Leahy, DE y Willis, MJ en Actas de la multiconferencia internacional de ingenieros e informáticos. 77–80 (Citeseer).

Abooali, D. & Khamehchi, E. Hacia modelos predictivos para la estimación de la presión del punto de burbuja y el factor de volumen de formación del petróleo crudo utilizando un enfoque inteligente. Braz. J. química. Ing. 33, 1083-1090 (2016).

Artículo CAS Google Scholar

Abooali, D. & Khamehchi, E. Estimación de la viscosidad dinámica del gas natural basada en metodología de programación genética. J. Nat. Ciencia del gas. Ing. 21, 1025-1031 (2014).

Artículo CAS Google Scholar

Searson, D. GPTIPS: Programación genética y regresión simbólica para MATLAB. Guía del usuario 2010 (2009).

Gharagheizi, F. & Alamdari, RF Predicción de la temperatura del punto de inflamación de componentes puros utilizando un modelo cuantitativo de relación estructura-propiedad. Mol. inf. 27, 679–683 (2008).

CAS Google Académico

Todeschini, R. & Consonni, V. Manual de descriptores moleculares. vol. 11 (Wiley, 2008).

Gold, V., Loening, K., McNaught, A. y Shemi, P. Compendio de terminología química de la IUPAC (Blackwell Science, 1997).

Google Académico

Burden, FR Número de identificación molecular para búsquedas de subestructuras. J. química. inf. Computadora. Ciencia. 29, 225–227. https://doi.org/10.1021/ci00063a011 (1989).

Artículo CAS Google Scholar

Todeschini, R. & Gramatica, P. Modelado SD y predicción mediante descriptores WHIM. Parte 5. Desarrollo teórico y significado químico de los descriptores WHIM. Mol. inf. 16, 113-119 (1997).

CAS Google Académico

Burden, FR Un índice molecular químicamente intuitivo basado en los valores propios de una matriz de adyacencia modificada. Mol. inf. 16, 309–314 (1997).

CAS Google Académico

Descargar referencias

Club de Jóvenes Investigadores y Élite, Sucursal Central de Teherán, Universidad Islámica de Azad, Teherán, Irán

Danial Abooali

Departamento de Ingeniería Química, Facultad de Ingeniería Química, Universidad Tarbiat Modares, PO Box 14115-143, Teherán, Irán

Reza Soleimani

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

DA: Conceptualización, Metodología, Software, Validación, Redacción - borrador original, Recursos, Visualización, Curación de datos, Investigación, Análisis formal, Supervisión. RS: Administración de proyectos, Conceptualización, Validación, Visualización, Curación de datos, Software, Redacción - borrador original, Redacción - Revisión y edición, Metodología, Análisis formal.

Correspondencia a Danial Abooali o Reza Soleimani.

Los autores certifican que NO tienen ningún conflicto sobre ningún interés financiero o no financiero en el tema o los materiales discutidos en este manuscrito.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Abooali, D., Soleimani, R. Modelado basado en la estructura de la concentración micelar crítica (CMC) de tensioactivos aniónicos en salmuera utilizando métodos inteligentes. Representante científico 13, 13361 (2023). https://doi.org/10.1038/s41598-023-40466-1

Descargar cita

Recibido: 14 de marzo de 2023

Aceptado: 10 de agosto de 2023

Publicado: 17 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-40466-1

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.