Información

¿Cuáles son los métodos para inferir interacciones genéticas?

¿Cuáles son los métodos para inferir interacciones genéticas?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Existe una clasificación de métodos para inferir interacciones genéticas? Me refiero a algunos trabajos publicados que utilizan datos de genómica genética. ¿Es esto posible solo con datos de expresión? ¿Y qué hay de las pantallas de perturbación? Supongo que todos necesitan información sobre mutantes / variaciones genéticas.


BioGRID es una base de datos de interacciones y catalogan las interacciones por (entre otras cosas) la clase de experimento que las descubrió. Ver http://wiki.thebiogrid.org/doku.php/experimental_systems#genetic_interactions

Aparte de eso, debe mirar las reseñas y publicaciones recientes, pero se perderá fácilmente a menos que descubra algunos detalles importantes, como:

  • ¿Qué especie? ¿Levadura, gusano, humano, línea celular?
  • ¿Qué tipo de interacción? ¿Letalidad sintética? ¿Epistasis complicada y elegante?
  • ¿Cuánto cuesta? ¿Todo el genoma? 2-3 genes?

Una descripción general de los métodos estadísticos utilizados para inferir redes reguladoras de genes y redes de interacción proteína-proteína.

La era posgenómica está marcada por la disponibilidad de una avalancha de datos genómicos y, por lo tanto, ha permitido a los investigadores mirar hacia nuevas dimensiones para comprender los complejos procesos biológicos que gobiernan la vida de un organismo vivo [1-5]. Las diversas funciones de sustento de la vida se realizan mediante un esfuerzo colaborativo que involucra ADN, ARN y proteínas. Los genes y las proteínas interactúan entre sí y entre sí y orquestan la realización exitosa de una multitud de tareas importantes. Comprender cómo trabajan juntos para formar una red celular en un organismo vivo es extremadamente importante en el campo de la biología molecular. Dos problemas importantes en este campo considerablemente incipiente de la biología computacional son la inferencia de redes reguladoras de genes y la inferencia de redes de interacción proteína-proteína. Este artículo analiza primero cómo interactúan los genes y las proteínas entre sí y luego analiza la inferencia de una red celular integradora de genes y proteínas combinados.

La regulación de genes es uno de los muchos procesos fascinantes que tienen lugar en un organismo vivo mediante el cual la expresión y represión de genes se controlan de manera sistemática. Con la ayuda de la enzima ARN polimerasa, el ADN se transcribe en ARNm que puede traducirse o no en proteínas. Se encuentra que, en ciertos casos especiales, el ARNm se transcribe de forma inversa a ADN. Los procesos de transcripción y traducción se representan esquemáticamente en la Figura 1, donde las interacciones en negro muestran el marco más general y las interacciones representadas en rojo ocurren con menos frecuencia. Los factores de transcripción (TF), que son una clase de proteínas, desempeñan el papel importante de unirse al ADN y, por lo tanto, regulan su transcripción. Dado que los genes pueden codificar TF y / u otras proteínas, se forma una red compleja de genes y proteínas. El nivel de actividad de un gen se mide en términos de la cantidad de producto funcional resultante y se denomina expresión génica. Las recientes tecnologías genómicas de alto rendimiento son capaces de medir los valores de expresión génica y han proporcionado conjuntos de datos a gran escala, que se pueden utilizar para obtener información sobre cómo se organizan y operan las redes de genes. Una de las representaciones más encontradas de redes reguladoras de genes es en términos de un gráfico, donde los genes están representados por sus nodos y los bordes representan las interacciones entre ellos.

El problema de la inferencia de la red reguladora de genes (GRN) consiste en comprender el modelo del sistema subyacente [6-10]. En pocas palabras, dados los datos de expresión génica, es necesario identificar las acciones de activación o represión de un conjunto de genes en los otros genes. Hay varias cuestiones asociadas con este problema, incluida la elección de modelos que capturen las interacciones de los genes lo suficientemente bien, seguido de algoritmos de inferencia robustos y fiables que se pueden utilizar para derivar conclusiones decisivas sobre la red. Las redes inferidas varían en su sofisticación dependiendo de la extensión y precisión del conocimiento previo disponible y el tipo de modelos utilizados en el proceso. También es importante que las redes de genes así inferidas posean la calidad de reproducibilidad altamente deseable para tener un alto grado de confianza en ellas. Una imagen suficientemente precisa de las interacciones genéticas podría allanar el camino para avances significativos en la búsqueda de curas para diversas enfermedades genéticas, incluido el cáncer.

Las interacciones proteína-proteína (IBP) son de enorme importancia para el funcionamiento de una célula. Se pueden obtener conocimientos sobre el mecanismo molecular encontrando las interacciones de las proteínas con un alto grado de precisión [11, 12]. Las redes de interacción de proteínas no solo consisten en interacciones binarias, sino que, para llevar a cabo diversas tareas, las proteínas trabajan junto con las cohortes para formar complejos de proteínas. Debe enfatizarse que una proteína en particular puede ser parte de diferentes complejos de proteínas y, por lo tanto, el problema de la inferencia es mucho más complicado. Los conjuntos de datos proteómicos de alto rendimiento existentes permiten la inferencia de interacciones proteína-proteína. Sin embargo, se encuentra que las interacciones proteína-proteína obtenidas mediante el uso de diferentes métodos pueden no ser equivalentes, lo que indica que hay un gran número de falsos positivos y negativos en los datos. De manera similar a la representación de redes reguladoras de genes, las redes de interacción proteína-proteína también se modelarán en términos de gráficos, donde las proteínas denotan los nodos y los bordes significan si existe una interacción entre los nodos adyacentes.

Muchos métodos estadísticos se han aplicado ampliamente para resolver varios problemas bioinformáticos en la última década. Hay varios artículos que proporcionan una excelente revisión de diversas técnicas estadísticas y computacionales para inferir redes genómicas y proteómicas [2, 12]. Sin embargo, es importante comprender las similitudes y diferencias fundamentales que caracterizan los dos problemas de inferencia. Este artículo proporciona una descripción general de los métodos estadísticos más recientes propuestos para la inferencia de GRN y redes PPI. Para la inferencia de redes de genes, se presentarán tres grandes clases de técnicas de modelado e inferencia, a saber, enfoques de modelado gráfico probabilístico, métodos teóricos de la información y modelos de representación del espacio de estados. Los métodos de modelado gráfico probabilístico y de agrupamiento que comprenden la clase más grande de métodos estadísticos que utilizan datos de PPI se revisan para las redes de interacción proteína-proteína. A través de una revisión concisa de estos algoritmos contemporáneos, nuestro objetivo es proporcionar al lector una comprensión suficientemente rica de las técnicas actuales de vanguardia utilizadas en el campo de la inferencia de redes genómicas y proteómicas.

El resto de este documento está organizado de la siguiente manera. La sección 2 describe algunos de los conjuntos de datos disponibles para la inferencia de redes genómicas y proteómicas. La sección 3 revisa los métodos estadísticos recientes empleados para inferir redes reguladoras de genes. Las técnicas de inferencia de la red proteína-proteína se revisan en la Sección 4. Los métodos para obtener una red integrada con la red de genes y proteína-proteína como subredes se dan en la Sección 5. La evaluación de la red inferida se discute en la Sección 6. Finalmente, las conclusiones se extraen en Sección 7.

2. Datos biológicos disponibles

La era posgenómica se distingue por la disponibilidad de una gran cantidad de conjuntos de datos biológicos que son de naturaleza bastante heterogénea y difíciles de analizar [3]. Se espera que estos conjuntos de datos puedan ayudar a obtener conocimientos útiles sobre las interacciones subyacentes en las redes gen-gen y proteína-proteína. En esta sección se revisan algunos de los principales tipos de datos utilizados para la inferencia de redes genómicas y proteómicas, incluidos los datos de expresión génica, los datos de interacción proteína-proteína y los datos del chip ChIP.

2.1. Datos de expresión genética. De todos los conjuntos de datos disponibles, los datos de expresión génica son los más utilizados para la inferencia de redes reguladoras de genes. La expresión génica es el proceso que da como resultado transcripciones funcionales, por ejemplo, ARN o proteínas, mientras se utiliza la información codificada en los genes. El nivel de expresión génica es un indicador importante de cuán activo es un gen y se mide en forma de datos de expresión génica. La similitud en los perfiles de expresión génica de dos genes aboga por cierto nivel de correlación entre ellos. En este artículo, los datos de expresión génica se indican mediante una variable aleatoria x (i), donde t representa el índice de tiempo.

2.1.1. Datos de microarrays de ADNc. Una forma de generar datos de microarrays de ADNc es mediante la tecnología de microarrays de ADN, que es, con mucho, el método más popular empleado para este propósito. El número de muestras de datos es, en general, mucho menor que el número de genes. Un inconveniente principal asociado con los datos de microarrays de ADNc es el ruido en las expresiones génicas observadas. Aunque los valores de expresión génica deben ser continuos, la incapacidad de medirlos con precisión sugiere el uso de valores discretizados.

2.1.2. Datos de secuencia de ARN. El reciente avance de las tecnologías de secuenciación ha proporcionado la capacidad de adquirir niveles de expresión génica más precisos [13]. RNA-Seq es una tecnología novedosa para mapear y cuantificar transcriptomas, y se espera que reemplace todos los métodos contemporáneos debido a su superioridad en términos de tiempo, complejidad y precisión. La estimación de la expresión génica en RNA-Seq comienza con la transcripción inversa de la muestra de RNA en muestras de cDNA, que se someten a una secuenciación de alto rendimiento, lo que da como resultado lecturas de secuencia cortas. Estas lecturas se asignan luego al genoma de referencia utilizando una variedad de herramientas de alineación disponibles. Los niveles de expresión génica se estiman utilizando las lecturas mapeadas, y se han propuesto varios algoritmos en la literatura reciente para encontrar estimaciones eficientes y más precisas de los niveles de expresión génica. Este proceso se resume en la Figura 2. Se ha descubierto que los datos de expresión génica obtenidos de esta manera son mucho más reproducibles y menos ruidosos en comparación con las micromatrices de ADNc. La siguiente subsección describe los datos utilizados para la inferencia de la red PPI.

2.2. Datos de interacción proteína-proteína. Los datos de PPI a gran escala se han producido en los últimos años mediante tecnologías de alto rendimiento como la purificación por afinidad de dos híbridos de levadura y en tándem, que proporcionan interacciones estables y transitorias, y la espectrometría de masas, que indica los complejos de proteínas [11, 12]. Estos conjuntos de datos, además de estar incompletos, también constan de falsos positivos y, por lo tanto, las interacciones encontradas en varios conjuntos de datos pueden no coincidir entre sí. Debido a este desacuerdo, es imperativo hacer uso de métodos estadísticos para inferir las redes PPI al encontrar interacciones confiables y reproducibles y predecir las interacciones que aún no se encuentran en los datos actualmente disponibles.

2.3. Datos de chip-chip. Los datos de chip-chip, que es una abreviatura de inmunoprecipitación de cromatina y microarrays (chip), investigan las interacciones entre el ADN y las proteínas. Estos datos proporcionan información sobre las proteínas de unión al ADN. Dado que algunos de los genes codifican factores de transcripción (TF) que a su vez regulan algunos otros genes y / o proteínas, esta información viene a la mano para la inferencia de redes de genes [10] y la red integrada. Sin embargo, generar los datos del chip ChIP para un genoma grande sería técnica y financieramente difícil.

2.4. Otros conjuntos de datos. Aparte de los conjuntos de datos descritos anteriormente, vale la pena mencionar aquí los datos de alteración y deleción de genes. El conjunto de datos de perturbación se genera realizando una perturbación inicial y luego dejando que el sistema reaccione ante ella [14]. Se miden los valores de expresión génica en los siguientes instantes de tiempo y en estado estacionario, obteniendo así la respuesta de los genes a la perturbación específica que podría ser el aumento o disminución del nivel de expresión de todos o ciertos genes. El conjunto de datos de eliminación de genes, como su nombre indica, implica la eliminación de un gen y la medición del nivel de expresión resultante de otros genes. Estos datos pueden descubrir de manera efectiva relaciones directas simples [14].

3. Modelado e inferencia de redes reguladoras de genes

Las redes reguladoras de genes capturan las interacciones presentes entre los genes. La estimación precisa y fiable de las redes de genes es muy importante y puede cosechar beneficios de gran alcance en el campo de la biología medicinal, por ejemplo, en términos de desarrollo de medicamentos personalizados. Las siguientes subsecciones revisan los principales métodos estadísticos utilizados para la inferencia de redes reguladoras de genes. Primero, se presenta la clase importante de modelos gráficos probabilísticos.

3.1. Técnicas probabilísticas de modelado gráfico. Los modelos gráficos probabilísticos han surgido como una herramienta útil para las redes reguladoras de genes de ingeniería inversa. Una red de genes está representada por un gráfico G = (V, E), donde V representa el conjunto de vértices (genes) y E denota el conjunto de aristas que conectan los vértices. Los vértices del gráfico se modelan como variables aleatorias y los bordes significan la interacción entre ellos. El valor de expresión del gen i se denota por [X.sub.i], y el número total de genes en la red se denota por N. Las siguientes subsecciones describen brevemente algunas de las técnicas de modelado gráfico robustas y populares para la inferencia de redes de genes.

3.1.1. Redes bayesianas. Las redes bayesianas modelan las redes reguladoras de genes como gráficos acíclicos dirigidos (DAG). Para simplificar el proceso de inferencia, la distribución de probabilidad de las redes DAG generalmente se factoriza en términos de las distribuciones condicionales de cada variable aleatoria dados sus padres:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (1)

donde Pa ([X.sub.i]) denota el padre del nodo [X.sub.i]. La red reguladora de genes se infiere utilizando las técnicas de aprendizaje de la red bayesiana. Esto se hace maximizando la probabilidad P (G | D), donde D denota los datos de expresión génica disponibles. Se han propuesto varias métricas de puntuación para obtener la mejor estructura gráfica [15]. La red, por tanto, obtenida es única en la medida de la clase de equivalencia, es decir, las relaciones de independencia se identifican de forma única.

Los datos de expresión génica disponibles hasta la fecha consisten en muy pocos puntos de datos, mientras que el número de genes es sustancialmente mayor, lo que hace que el sistema esté subdeterminado. Como alternativa para encontrar las redes completas, los científicos han propuesto observar ciertas características importantes, por ejemplo, las relaciones de Markov y las relaciones de orden. Si un gen X está presente en la red mínima que cubre el gen Y, se dice que se establece una relación de Markov. Una relación entre dos genes se denomina relación ordenada si un gen X particular parece ser padre de otro gen Y en todas las redes equivalentes. Al agregar esta información, es posible inferir la estructura regulatoria subyacente de manera robusta y confiable. La estructura de la red inferida de esta manera considera las interacciones estáticas únicamente. Para atender las interacciones dinámicas inherentes a las redes de genes, se han utilizado redes dinámicas bayesianas (DBN) [16, 17].

3.1.2. Redes probabilísticas cualitativas. Un método novedoso para modelar redes de genes es mediante el uso de redes probabilísticas cualitativas (QPN), que representan el análogo cualitativo de las DBN [18]. Las propiedades estructurales y de independencia de las QPN son las mismas que las de las redes bayesianas. Sin embargo, en lugar de preocuparse por las probabilidades condicionales locales de las variables aleatorias, la primera clase de modelos analiza cómo los cambios en las probabilidades de las variables aleatorias afectan las probabilidades de sus padres inmediatos. Este cambio se mide en términos cualitativos en lugar de valores cuantitativos, es decir, si las probabilidades aumentan, disminuyen o permanecen igual, como se muestra en la Figura 3.

Dos propiedades importantes de las QPN son las influencias cualitativas y las sinergias cualitativas. Una influencia positiva denotada por [I +] (X, Y) indica la mayor posibilidad de que Y tenga un valor más alto cuando el de X es alto y viceversa, independientemente de todas las demás variables, es decir,

[I +] (X, Y) si P (y | x, W) & gt P (y | -x). (2)

En el caso de tres variables, las QPN analizan las sinergias. Una sinergia aditiva positiva, denotada por [S +] (, Z), existe cuando el efecto combinado de los nodos padres es mayor en el nodo hijo que sus efectos individuales dados por

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (3)

Por lo tanto, las QPN brindan más información sobre las redes de genes al indicar si un gen en particular es un promotor o un inhibidor.

3.1.3. Modelos gráficos gaussianos. Los modelos gráficos de Gauss, también conocidos como modelos de gráficos de concentración o selección de covarianza, proporcionan una forma sencilla y eficaz de caracterizar las interacciones de los genes [19, 20]. Este método se basa en evaluar las dependencias condicionales entre genes en términos de coeficientes de correlación parcial entre las expresiones génicas y da como resultado una red no dirigida. Se estima una matriz de covarianza utilizando los conjuntos de datos de expresión génica disponibles. Suponga que X [miembro de] [R.nxn] denota la matriz de datos de expresión génica, donde las filas corresponden a observaciones y las columnas corresponden a genes, entonces se obtiene una estimación de la matriz de covarianza mediante

Suponiendo invertibilidad de [??], las correlaciones parciales se pueden determinar como

donde [[??]. sub.ij] denota la correlación parcial entre los genes i y j.

3.1.4. Algoritmo gráfico LASSO. Un inconveniente importante de los métodos basados ​​en la estimación de matrices de covarianza es su falta de fiabilidad debido al pequeño número de muestras de datos. Aprovechando el hecho de que las redes de genes son intrínsecamente escasas, es posible obtener las dependencias entre genes mediante un método de regresión lineal penalizado [20]. El algoritmo gráfico del Operador de Selección y Contracción Mínima Absoluta (LASSO) resuelve el problema de inferencia de red de manera eficiente al maximizar la siguiente función de verosimilitud penalizada:

2 / n (W) = log (det (W)) - traza ([??] W) - [rho] [[paralelo] W [paralelo] .sub.1], (6)

donde [rho] controla la escasez de la red, la notación [[paralelo] * [paralelo] .sub.1] representa la norma [l.sub.1], y W denota la matriz de covarianza. Esta minimización se puede llevar a cabo mediante el uso de métodos de descenso de gradiente en bloque, cuyos detalles se pueden encontrar en [20] y sus referencias.

3.2. Modelos de representación del espacio de estados. Uno de los métodos más antiguos y ampliamente utilizados para modelar redes de genes es el empleo de modelos de representación en el espacio de estados [21].A diferencia de otras clases, todos los métodos pertenecientes a esta clase modelan la evolución dinámica de la red genética. Estos modelos generalmente consisten en dos conjuntos de ecuaciones, el primer conjunto de ecuaciones que representa la evolución de las variables de estado ocultas denotadas por z (t), y el segundo conjunto de ecuaciones que relacionan las variables de estado ocultas con los datos de expresión génica observados, denotados por x (t) como se muestra en la Figura 4 Las funciones g (*) y h (*) describen la evolución de las variables ocultas y observadas, respectivamente. A continuación, en esta sección describiremos varios modelos para la inferencia de redes de genes utilizando el modelo de representación en el espacio de estados.

3.2.1. Modelo lineal de estado-espacio. El modelo más simple para las ecuaciones en el espacio de estados es el modelo lineal gaussiano dado por [21,22]:

z (t) = Az (t - l) + v (t), (7) x (t) = Cz (t) + w (t),

donde A es una matriz que representa las relaciones reguladoras entre los genes, yt representa los puntos de tiempo discretos. Las ecuaciones en diferencias se utilizan en lugar de ecuaciones diferenciales porque las observaciones discretas están disponibles en los datos de expresión génica. Los componentes de ruido v (t) yw (t) representan el ruido del sistema y de la medición, respectivamente, y se supone que son gaussianos. El ruido modela la incertidumbre presente en los datos estimados de expresión génica. La matriz C generalmente se considera una matriz de identidad. La inferencia en redes de genes modeladas por la representación del espacio de estado (7) se puede realizar utilizando actualizaciones de filtro de Kalman estándar. La simplicidad del modelo de espacio de estados evita el sobreajuste de la red y, por tanto, proporciona resultados fiables.

3.2.2. Modelos no lineales. Si bien es útil representar redes de genes mediante modelos simples para facilitar la complejidad computacional, también es imperativo incorporar efectos no lineales en las ecuaciones del sistema, ya que se sabe que los genes interactúan de manera no lineal [23]. Una función particular que se utiliza con frecuencia para capturar los efectos no lineales es la función de aplastamiento sigmoide que se define a continuación en (9) [24]. El modelo de representación del espacio de estado no lineal que captura las interacciones de los genes se describe mediante el siguiente sistema de ecuaciones:

z (t) = Az (t - l) + Bf (z (t - l), [mu] + [I0] + v (t), (8)

donde la j-ésima entrada de la función vectorial f (*) viene dada por la función de aplastamiento sigmoide:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (9)

donde [micro] es un parámetro a identificar. La matriz A representa las relaciones lineales entre los genes, mientras que la matriz B caracteriza las interacciones no lineales. El problema, por tanto, se reduce a la estimación de las siguientes incógnitas en el sistema:

[theta] = [A, B, [micro], [I.sub.0]], (10)

donde [I0] modela el sesgo constante. Una forma de resolver estas ecuaciones es utilizando el filtro de Kalman extendido (EKF) [24], que es un algoritmo popular para resolver ecuaciones de espacio de estados no lineales. El algoritmo EKF proporciona la solución al aproximar el sistema no lineal por su aproximación lineal de primer orden. Otras variantes del algoritmo de filtro de Kalman como el filtro de Kalman de cubatura (CKF), el filtro de Kalman sin aroma (UKF) y el algoritmo de filtro de partículas también se utilizan para resolver estos problemas de inferencia [25].

Sin embargo, para muchos estudios, el modelo no lineal considerado se compone de una gran cantidad de incógnitas y para estimar estas variables desconocidas con considerable precisión, se requieren conjuntos de datos que constan de una gran cantidad de muestras. La disponibilidad de conjuntos de datos más pequeños representa un obstáculo insuperable en la estimación fiable de un gran número de incógnitas. Este problema puede evitarse parcialmente simplificando el modelo para incluir sólo términos no lineales y, por lo tanto, reduciendo el número de parámetros desconocidos al mínimo [25] y aproximando [micro] para que sea uno. El sistema de ecuaciones correspondiente a un escenario tan parsimonioso viene dado por

donde f es la función definida previamente.

3.2.3. Modelos con restricciones de esparcimiento. Una característica crucial de muchas redes de genes es su escasez inherente, es decir, todos los genes de la red están conectados solo a algunos otros genes. Por lo tanto, se espera que las matrices A y B que representan las relaciones reguladoras entre los genes contengan muy pocos valores distintos de cero en comparación con el tamaño de estas matrices. Por lo tanto, se pueden aplicar métodos basados ​​en la contracción como LASSO [25, 26] para la estimación de parámetros y la selección parsimoniosa del modelo. Una de las formas de inferir modelos con restricciones de dispersión es realizar una estimación dual, que implica estimar los estados y los parámetros uno por uno. Los estados ocultos se pueden estimar utilizando el algoritmo de filtro de partículas, y una vez que se obtienen todas las estimaciones de los estados ocultos, se pueden apilar para formar una matriz y

así se obtiene el siguiente sistema de ecuaciones para realizar la estimación de los parámetros:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (12)

que se puede expresar de forma compacta en representación vectorial / matricial como

[z.sub.n] = [PHI] [b.sub.n] + [v.sub.n]. (13)

LASSO opera sobre este sistema de ecuaciones y produce un vector de parámetros [b.sub.n] minimizando el criterio [27]:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (14)

Las estimaciones de parámetros obtenidas mediante algoritmos basados ​​en LASSO parecen ser más fiables que las estimaciones proporcionadas por otros enfoques [25].

3.2.4. Modelos de espacio de estados para dependencias retardadas en el tiempo. Los modelos de espacio de estado discutidos hasta ahora no consideran los retrasos en el tiempo, mientras que se ha encontrado que las interacciones retardadas en el tiempo están presentes en las redes de genes [28] debido al tiempo requerido para que tengan lugar los procesos de transcripción y traducción. Una de las formas de modelar este fenómeno es adoptando el siguiente modelo de espacio de estados:

z (t) = Az (t-l) + Bu (t - [tau]) + v (t), (15)

En este modelo de espacio de estado, se considera que la entrada es el perfil de expresión de un regulador, como un factor de transcripción. Aquí, A representa la matriz de transición de estado N x N, mientras que la matriz B de N x p captura el efecto de p reguladores en el sistema. El valor del retardo de tiempo [tau] se obtiene al encontrar el mejor ajuste en un rango de valores posibles utilizando el criterio de información de Akaike (AIC) para evitar el sobreajuste de la red.

3.3. Métodos teóricos de la información. Los métodos teóricos de la información han proporcionado algunos de los algoritmos más robustos y fiables para la inferencia de redes de genes y forman la base de un estándar en este campo [29-31]. Una ventaja particular asociada con estos métodos es su capacidad para trabajar con suposiciones mínimas sobre la red subyacente. Esto contrasta con las técnicas de modelado gráfico probabilístico, así como con los modelos de espacio de estados, los cuales tienen su propio conjunto de supuestos. Como se destacó anteriormente, una red de Markov proporciona una red no dirigida, mientras que las redes bayesianas no pueden incorporar ciclos o bucles de retroalimentación. Los modelos de espacio de estados, aparte del modelo lineal de Gauss, hacen suposiciones críticas sobre la estructura del modelo. Estos inconvenientes no están presentes en el caso de la información de los métodos oréticos. La siguiente discusión presenta los principales enfoques teóricos de la información para inferir redes reguladoras de genes.

3.3.1. Encontrar la correlación entre genes. Dos de los conceptos más fundamentales en la teoría de la información son la información mutua y la entropía. La información mutua entre dos variables aleatorias X e Y se define como [32]

I (XY) = [suma sobre (x, y)] [p (x, y) log p (x, y) / p (x) p (y)]

donde denota la entropía o la incertidumbre presente en una variable aleatoria, y está dada por

H (X) = - [suma sobre (x)] p (x) log p (x). (17)

La información mutua mide la correlación entre dos variables aleatorias. En el contexto de la inferencia de la red de genes, una mayor información mutua entre dos genes indica una mayor dependencia y, por lo tanto, una posible interacción entre ellos. Algunos de los algoritmos más importantes y robustos para la inferencia de redes de genes hacen uso de la información mutua para encontrar los genes que interactúan [29, 30].

3.3.2. Identificación de interacciones indirectas entre genes. Si la información mutua entre dos genes es mayor que cierto umbral, indica alguna correlación entre ellos. Sin embargo, esta información por sí sola no es suficiente para decidir si los genes están conectados directa o indirectamente a través de un gen intermedio. La desigualdad en el procesamiento de datos (DPI) proporciona información para evaluar si tal escenario se cumple. En el caso de que tres genes formen una cadena de Markov como se muestra en la Figura 5, DPI se puede expresar como

I (XY) [menor o igual que] min [I (XZ), 1 (YZ)]. (18)

Usando esta desigualdad, se encuentra que la interacción con la menor información mutua es indirecta. Este método se emplea en ARACNE [29], que se ha convertido en un algoritmo estándar para la inferencia de redes de genes. Sin embargo, DPI no se sostiene en situaciones en las que uno de los tres genes es un gen padre de los otros dos genes. Se ha propuesto que se utilice información mutua condicional en tales casos [30]. La información mutua condicional se define como

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] (19)

Si I (XY | Z) es mucho menor que I (XY), implica que Z es un padre de los genes X e Y como se muestra en la Figura 5. no tiene ninguna influencia sobre los otros dos genes. Por lo tanto, al emplear la idea de información mutua condicional, se pueden tamizar las interacciones indirectas en el caso de causa común.

3.3.3. Encontrar las redes dirigidas. El cálculo de la información mutua utilizando datos estáticos no proporciona ninguna información sobre las relaciones dirigidas. Por otro lado, el uso de datos de series de tiempo también puede indicar la direccionalidad de las interacciones [33]. La información mutua para los datos de series de tiempo se puede expresar como

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] (20)

Si se obtiene un valor alto para I ([x.sub.t + 1], [y.sub.t]), significa una relación dirigida del gen Y a X. Mientras se utilizan estos métodos, la determinación del umbral de significancia es de considerable importancia y puede estimarse en base a los conocimientos previos sobre la red.

Las cantidades teóricas de la información discutidas hasta ahora son simétricas (o bidireccionales) y no proporcionan ninguna información sobre la direccionalidad por sí mismas. Recientemente se han propuesto algunas métricas nuevas para inferir relaciones asimétricas o unidireccionales, como el coeficiente de mezcla [PHI] definido como [34]:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (21)

En otras palabras, este coeficiente proporciona una medida de independencia o diferencia entre dos genes X e Y.DPI también es válido para la métrica de mezcla de [PHI] y, por lo tanto, puede usarse para identificar las interacciones indirectas como en el caso de información mutua.

3.3.4. Dependencias retardadas. Otra forma de encontrar relaciones dirigidas es detectando las dependencias retardadas mediante el uso de datos de series de tiempo. Los instantes de tiempo en los que la información mutua supera o desciende por debajo de los umbrales [[tau] .sub.up] y [[tau] .sub.down], respectivamente, se indican [35]. Estos instantes se denominan tiempos de cambio inicial de expresión (IcE) y se definen como

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (22)

Puede verse que agene [x.sub.a] puede ser un regulador para el gen [x.sub.b] si y solo si (iff) IcE ([x.sub.a]) & lt IcE ([x.sub.sub .B]). La información mutua en este caso viene dada por

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] (23)

donde el retraso se denota por k. El siguiente paso consiste en encontrar el máximo de los valores de información mutua calculados para todos los retrasos de tiempo, es decir,

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (24)

Si el valor de la información mutua máxima es mayor que un umbral preespecificado, se concluye que existe una relación dirigida de [xa] a [xb]. El cálculo del umbral es muy importante en todos los métodos de la teoría de la información que se selecciona sobre la base del valor P predeterminado [29]. Esto ayuda a obtener redes con el valor de significancia requerido.

3.3.5. Selección de modelo. Un paso importante y necesario en la implementación de los algoritmos antes mencionados es la selección del modelo. Una red formada mediante el uso de información mutua solo dará como resultado una estructura sobreajustada y, por lo tanto, la selección del modelo se vuelve imperativa. Se propuso el principio de longitud mínima de descripción (MDL) como un enfoque general para la selección del modelo. MDL establece que se debe seleccionar la red con la longitud de codificación más corta. Para una red con una gran cantidad de nodos, la longitud de codificación será grande y viceversa. El principio MDL proporciona una compensación y ayuda a seleccionar solo las interacciones significativas entre los genes. MDL se aplicó de diversas formas para encontrar la longitud de codificación de la red y las densidades de probabilidad asociadas con ella [33]. Otra forma de utilizar este principio es junto con el principio de máxima verosimilitud (ML) que da como resultado un algoritmo más general [36]. Se pueden encontrar más detalles sobre este algoritmo en [36]. Por lo tanto, parece que las herramientas de la teoría de la información son bastante poderosas para modelar e inferir redes reguladoras de genes.

4. Inferir las redes de interacción proteína-proteína

Habiendo examinado el problema de la inferencia de la red de genes, esta sección describe los métodos estadísticos que se utilizan para encontrar redes de interacción proteína-proteína confiables y completas. A diferencia de las redes de genes que en su mayoría se infieren utilizando los datos de expresión o similares, la inferencia de redes de PPI se puede llevar a cabo de diversas formas, como el perfil filogenético y la identificación de patrones estructurales. Este artículo se centra únicamente en los métodos que emplean datos de PPI para hacer inferencias. Los datos dados en este escenario son las interacciones proteína-proteína. Sin embargo, estos conjuntos de datos consisten en un gran número de falsos positivos y negativos y están lejos de ser completos y homogéneos. Por lo tanto, solo se encuentra una pequeña superposición entre los conjuntos de datos de PPI obtenidos de varias fuentes. Sin embargo, se observa que las interacciones predichas por más de un método son más confiables [37]. Uno de los desafíos es la gran cantidad de interacciones indicadas por los datos de PPI en contraposición a las considerablemente menos interacciones que se supone que están presentes en la realidad. Por lo tanto, el problema en este escenario es encontrar interacciones más confiables y predecir las interacciones aún desconocidas. Además, las interacciones de las proteínas pueden ser de diferentes tipos, desde las estables hasta las transitorias [37].

Cabe señalar que, a diferencia de las redes de genes, todavía se puede hacer mucho trabajo para la inferencia de la red proteína-proteína utilizando métodos probabilísticos. En un organismo vivo, varias proteínas trabajan juntas para realizar diversas tareas formando un complejo proteico. La mayoría de los datos de PPI consisten únicamente en interacciones binarias y es muy raro encontrar interacciones entre más de dos proteínas simultáneamente. Por lo tanto, la identificación de complejos de proteínas es de primordial importancia para comprender mejor la red celular.

La detección de complejos de proteínas es un área fundamental de estudio de las redes de proteínas [38], para las que se aplicaron varios métodos de agrupamiento. Una de las diversas formas de identificar los complejos de proteínas incluye la segmentación de gráficos, donde el gráfico se agrupa en subgráficos utilizando algoritmos de búsqueda basados ​​en costos. Otro enfoque se clasifica ampliamente como conservación entre especies [38], donde se utilizan herramientas de alineación para encontrar los complejos que son comunes en múltiples conjuntos de datos provenientes de diferentes especies. A continuación, se describen algunos de los métodos basados ​​en agrupamiento y modelado gráfico probabilístico propuestos recientemente.

4.1. Redes de Markov. Los datos de PPI disponibles analizan principalmente las interacciones binarias, y las interacciones de tres o más genes son difíciles de encontrar. Sin embargo, es importante observar las proteínas que interactúan de manera integral. Las redes de Markov son técnicas de modelado gráfico probabilístico que dan como resultado gráficos no dirigidos. Supongamos que X = <[X.sub.1],. [X.sub.N]] es un vector de variables aleatorias que modelan las proteínas. Su distribución conjunta se captura en términos de los potenciales [[psi] .sub.c] [miembro de] [PSI]. Las variables aleatorias [X.sub.c] que están conectadas entre sí se denominan alcance del potencial particular [[psi] .sub.c]. La distribución de probabilidad conjunta viene dada por

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (25)

donde Z es la constante de normalización también llamada función de partición. De esta forma se obtiene una representación compacta de la distribución de probabilidad. La estructura de la red se aprende utilizando las propiedades de independencia de las redes de Markov utilizando los datos PPI disponibles. Los detalles de este método se pueden encontrar en [37].

4.2. Redes bayesianas. Otra forma de modelar redes PPI es mediante redes bayesianas (BN) [39], que representan una técnica de modelado gráfico probabilístico. El algoritmo de inferencia se basa en encontrar las densidades de probabilidad condicionales P ([Xi] | C), donde C denota la variable de clase y [Xi] denota el i-ésimo nodo de la red. Una fortaleza particular de los BN es su capacidad para estimar los parámetros del modelo incluso en presencia de datos incompletos, que suele ser el caso de las redes PPI. Este hecho hace que BNa sea un método perfectamente adecuado para modelar redes de proteínas. Una forma de estimar los parámetros del modelo es mediante el algoritmo de maximización de expectativas (EM) [39]. La distribución de probabilidad conjunta se expresa como

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (26)

Suponiendo que todas las variables aleatorias son independientes entre sí, la densidad posterior viene dada por

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (27)

Una vez que se conocen los parámetros del modelo, se pueden hacer predicciones sobre variables aleatorias para las cuales los datos pueden no estar disponibles. Por tanto, este algoritmo proporciona un método adecuado para encontrar complejos de proteínas.

4.3. Métodos de agrupación gráfica. Una de las formas de agrupar gráficos se basa en el aprendizaje supervisado [12, 38]. Los subgráficos se modelan utilizando redes bayesianas y las características consisten en patrones topológicos de gráficos y propiedades biológicas. En lugar de asumir la propiedad de camarilla ampliamente utilizada, que considera que todos los nodos están conectados entre sí, el algoritmo busca las propiedades que se infieren de complejos ya conocidos. Dos características importantes son la etiqueta C que indica si un subgráfico es un complejo y el número de nodos IV. Los otros descriptores de características que incluyen estadísticas de grados, densidad de gráficos y estadísticas de correlación de grados se indican mediante [X.sub.1].[X.m] y se consideran independientes dados C y IV. El número de nodos dentro y fuera de sí mismo es una característica importante. Su importancia se puede ver en el hecho de que un mayor número de nodos en un subgráfico indica una menor probabilidad de que sea una camarilla. A todos los subgrafos se les asignan puntuaciones haciendo uso de estas propiedades. Una forma de determinar la probabilidad de que un subgrafo sea un complejo de proteínas es realizar una prueba de hipótesis simple calculando la siguiente probabilidad condicional [12, 38]:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (28)

donde las probabilidades posteriores se calculan mediante la regla de Bayes como

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (29)

Estas densidades de probabilidad se pueden calcular utilizando métodos de máxima verosimilitud. Comparando la puntuación obtenida con un umbral predeterminado, algunos de los subgrafos se pueden etiquetar como complejos. Este algoritmo toma la matriz ponderada de datos PPI como entrada, donde los pesos se asignan usando la probabilidad de cualquier interacción particular. En [12] se examinan varios otros métodos basados ​​en agrupaciones gráficas.

4.4. Métodos de factorización matricial para agrupamiento. La factorización matricial no negativa (NMF) es un método muy utilizado en problemas de agrupamiento. La aplicación de esta técnica se ha propuesto recientemente en [40], donde un conjunto de matrices factorizadas no negativas obtenidas utilizando datos de interacción proteína-proteína se combinan para realizar agrupaciones suaves. La importancia de este paso radica en el hecho de que un objeto en particular puede tener múltiples clases. Por lo tanto, los diversos algoritmos informados en la literatura que realizan agrupaciones duras pueden no ser muy beneficiosos en tales escenarios. Se observa que este método de NMF de conjunto clasifica las proteínas de acuerdo con las funciones que realizan y también identifica los múltiples grupos a los que pertenecen.

El algoritmo produce agrupaciones de bases [tau] al factorizar la matriz de datos simétricos S de interacciones de proteínas de la siguiente manera [40]:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (30)

donde [[paralelo] * [paralelo] .sub.F] denota la norma de Frobenius. Los factores V producidos de esta manera no son únicos. Sea [k.sub.i] el número de grupos en el i-ésimo grupo base, cada uno con un valor diferente para promover la diversidad. Una vez que el conjunto de matrices factorizadas está disponible, el siguiente paso es construir el gráfico combinando la información presente en ellos. Parámetro l = [k.sub.1] +. + [k.sub. [tau]] da el número total de vectores base que se denotan por V = <[v.sub. 1],. [v.sub.l]). Cada vector denota un nodo en el gráfico, y el peso del borde se calcula usando la correlación de Pearson para un par de vectores ([v.sub.i], [v.sub.j]) dado por

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] (31)

Habiendo analizado los problemas de inferencia de la red GRN y PPI individualmente, ahora procedemos a revisar los avances recientes en el modelado conjunto de las dos redes.

5. Una red celular integrada

Los avances en ingeniería inversa de GRN y redes PPI han allanado el camino para la estimación conjunta de GRN y redes PPI [41]. Este es un paso hacia la inferencia de una red integrada que consta de genes, proteínas y factores de transcripción, que indican interacciones entre ellos y entre ellos. La figura 6 muestra el esquema de una red celular integrada. En esta sección, revisamos dos formas importantes de estimar una red conjunta.

5.1. Modelos gráficos probabilísticos para inferencia conjunta. La referencia [41] propuso un método interesante para estimar GRN y redes PPI simultáneamente. Suponga que la expresión génica se denota por x y los datos de PPI se representan por y. El algoritmo proporciona una red de proteínas no dirigida [G.sub.p] y una red de genes dirigida [G.sub.r], modeladas usando las redes de Markov y Bayesian, respectivamente, maximizando su distribución conjunta, es decir,

P ([G.sub.r], [G.sub.p] | X, Y) [varía] P ([G.sub.r], [G.sub.p], X, Y) = P ( X | [G.sub.r]) p (Y | [G.sub.p]) P ([G.sub.r], [G.sub.p]), (32)

donde P (X | [G.r], [G.p]) = P (X | [G.r]) y P (Y | [G.r], [G. sub.p]) = P (Y | [G.sub.p]). La inferencia en las redes de Markov y Bayesiana se realiza de la misma manera que se explicó en las secciones anteriores. Las dos subredes se estiman iterativamente hasta que el algoritmo converge. Se pueden encontrar más detalles sobre este algoritmo en [41].

5.2. Estimación conjunta mediante el modelo de espacio de estados. El modelo de espacio de estado también se puede utilizar para obtener una red integrada de interacciones entre genes y proteína-proteína [42, 43]. En [43] se propone un enfoque novedoso que emplea un modelo no lineal, donde los parámetros del sistema se estiman utilizando mínimos cuadrados restringidos. Se supone que la expresión génica sigue un modelo dinámico dado por

[x.sub.i] (t + 1) = [x.sub.i] (t) + [N.sub.sub.i] ( t) - [[lambda] .sub.i] [z.sub.i] (t) + [k.sub.i] + [w.sub.i] (t), (33)

y [yj] denota el perfil de actividad proteica del j-ésimo factor de transcripción, y sus desviaciones media y estándar están representadas por y (independientemente. La magnitud de indica la fuerza de la relación entre el j-ésimo TF y el i-ésimo gen, y el signo sugiere si se trata de una relación excitadora o inhibitoria. El modelo en (33) sugiere que el nivel de expresión génica en el i-ésimo instante depende del nivel de expresión génica en el instante temporal anterior, así como del nivel de actividad de la proteína. El efecto de degradación del gen expresión está modelada por [[lambda] .sub.i], [k.sub.i] es una constante que representa el nivel basal, y [w.sub.i] (t) es el ruido gaussiano que modela los lazos inciertos en el modelo y los errores en los datos.

El nivel de actividad de la proteína sigue el siguiente modelo dinámico:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (35)

donde [b.sub.ij] da la relación entre las proteínas, an indica el efecto de traducción del ARNm a proteína, y [v.sub.n] (t) es el ruido gaussiano. Los parámetros desconocidos para ambos modelos están dados por

[[theta] .sub.i] = [[[a.sub.i1]. [a.sub.iN] [[lambda] .sub.i] [k.sub.i]]. sup.T], [[PHI] .sub.n] = [[[b.sub.n1]. [b.sub.sub.sub.nM] [α] .sub.sub.sub.sub.sub.n] [h.sub.n]]. sup.T] (36)

y se estiman resolviendo un problema de mínimos cuadrados restringidos [43]. Una vez que se obtienen las subredes individuales, se fusionan para formar una red celular con los TF conectándolos entre sí.

El problema de inferir una red integrada se encuentra en etapas relativamente iniciales y aún quedan abiertas varias vías de investigación. Además, se necesitan estudios de comparación para determinar los méritos y desventajas de los diferentes métodos en uso.

La precisión de la inferencia se puede evaluar utilizando el conocimiento de una red estándar de oro o la red verdadera. Para comparar los algoritmos, es necesario calcular los bordes correctamente identificados o los verdaderos positivos (TP). Además, el número de falsos positivos (FP), o los bordes indicados incorrectamente como presentes, y los falsos negativos (FN), que es la detección perdida, también deben contarse [10]. Con estos valores en la mano, tasa de verdaderos positivos o recuperación, es decir, TPR = TP / (TP + FN), tasa de falsos positivos, es decir, FPR = FP / (FP + TN) y valor predictivo positivo, es decir, PPV = TP / (TP + FP), también llamado precisión, se puede calcular. Estas cantidades nos permiten ver el desempeño gráficamente por el área bajo la curva ROC que traza el FPR versus el TPR. Estos criterios se utilizan más ampliamente como criterio de fidelidad para los algoritmos de inferencia de redes de genes.

Si bien es posible identificar las relaciones reguladoras de genes de manera experimental, no solo sería técnicamente prohibitivo sino que también resultaría muy costoso. Por esta razón, se han generado varias redes in silico e in vivo para ayudar en la evaluación comparativa de los algoritmos de inferencia de la red. Los más importantes son los conjuntos de datos DREAM (diálogo sobre evaluación y métodos de ingeniería inversa) [44] e IRMA (evaluación de modelización e ingeniería inversa in vivo) [45]. La referencia [10] proporciona un estudio unificado de algunos de los algoritmos importantes en los algoritmos de inferencia de redes de genes que utilizan estos conjuntos de datos.

7. Discusiones y conclusiones

Este artículo revisa los principales métodos estadísticos utilizados para la inferencia de redes de genes y proteína-proteína. La inferencia de la red PPI se puede llevar a cabo de una amplia variedad de formas mediante la explotación de la información filogenética y la secuenciación de datos. Este artículo se centró únicamente en los métodos de inferencia que emplean datos de PPI.

Para la inferencia de redes reguladoras de genes, el problema se puede plantear simplemente de la siguiente manera: dados los datos de expresión génica, encuentre las interacciones entre los genes. En este artículo se revisaron tres clases principales de métodos estadísticos: modelos gráficos probabilísticos, modelos de espacio de estados y métodos teóricos de la información. Para todos estos métodos, se discutieron técnicas de modelado y de inferencia. Se observa que se ha avanzado mucho en el campo de la inferencia GRN. Sin embargo, casi todos los métodos de inferencia de red propuestos en la literatura funcionan solo con los conjuntos de datos de expresión génica populares. Una parte interesante del trabajo futuro podría ser la integración de diferentes conjuntos de datos y conocimientos biológicos disponibles para generar algoritmos mejores y más sólidos.

Comparando las tres amplias clases de métodos estadísticos revisados ​​en el artículo, se encuentra que los métodos teóricos de la información tienen ventajas sobre los otros métodos en términos de supuestos mínimos de modelado y, por lo tanto, son capaces de modelar redes más generales. Las técnicas de modelado gráfico asumen que la red es acíclica en el caso del modelado de red bayesiana y proporcionan un gráfico no dirigido cuando se utilizan redes de Markov. Los modelos no lineales de espacio de estado funcionan con funciones no lineales que pueden no ser el verdadero representante de la red subyacente, lo que resulta en algoritmos menos robustos.

En el caso de la predicción de la red PPI, el método estadístico más popular es la agrupación. Además, también se utilizan técnicas de modelado gráfico probabilístico. Sin embargo, todavía quedan abiertas varias avenidas importantes de investigación. Dado que las redes de Markov y las redes bayesianas pueden modelar redes PPI de manera eficiente, otras técnicas gráficas probabilísticas, como los gráficos de factores, podrían potencialmente usarse para resolver este problema de inferencia. Los métodos de agrupación son más adecuados para el problema de inferencia de la red PPI, ya que el énfasis principal está en la identificación de complejos de proteínas. Se encuentra que ciertas técnicas de modelado importantes y populares pueden fallar en el modelado de redes PPI [46]. Además, podrían utilizarse métodos de agrupación basados ​​en información mutua [47].

Se han propuesto varios métodos estadísticos para inferir una red integrada de regulación de la transcripción e interacción proteína-proteína. Un modelo de espacio de estado para la inferencia de red integrada implica la estimación de parámetros que indica la fuerza de las regulaciones inhibitorias y excitadoras. Como se sabe que las redes celulares son escasas, se espera que el empleo de mínimos cuadrados restringidos por esparcimiento para la estimación de parámetros como se propone en [25] dé como resultado algoritmos de inferencia más robustos.

Los últimos años han mostrado un tremendo y rápido progreso en el campo del modelado de redes celulares. Con el aumento de la cantidad y los tipos de conjuntos de datos, los algoritmos que combinan múltiples conjuntos de datos son necesarios para el futuro.

Este documento fue posible gracias a la subvención QNRF-NPRP no. 09874-3-235 y el apoyo de NSF Grant no. 0915444. Las declaraciones hechas en este documento son responsabilidad exclusiva de los autores.

[1] X. Zhou y S. T. C. Wong, Bioinformática de sistemas computacionales, World Scientific, 2008.

[2] Y. Huang, I. M. Tienda-Luna y Y. Wang, "Redes reguladoras de genes de ingeniería inversa: un estudio de modelos estadísticos", IEEE Signal Processing Magazine, vol. 26, no. 1, págs. 76-97, 2009.

[3] X. Zhou, X. Wang y E. R. Dougherty, Redes genómicas: Inferencia estadística a partir de datos de microarrays, John Wiley & ampSons, 2006.

[4] H. Kitano, "Biología de sistemas computacionales", Nature, vol.420, no.6912, pp.206-210,2002.

[5] B. Mallick, D. Gold y V. Baladandayuthapani, Análisis bayesiano de datos de expresión génica, Wiley, 2009.

[6] H. D. Jong, "Modelado y simulación de sistemas de regulación genética: una revisión de la literatura", Journal of Computational Biology, vol.9, no.1, pp.67-103,2002.

[7] X. Cai y X. Wang, "Modelado estocástico y simulación de redes de genes", IEEE Signal Processing Magazine, vol.24, no.1, pp.27-36,2007.

[8] H. Hache, H. Lehrach y R. Herwig, "Ingeniería inversa de redes reguladoras de genes: un estudio comparativo", Eurasip Journal on Bioinformatics and Systems Biology, vol. 2009, artículo ID 617281, 2009.

[9] F. Markowetz y R.Spang, "Inferir redes celulares - una revisión", BMC Bioinformatics, vol.8, artículo S5,2007.

[10] C. A. Penfold y D. L. Wild, "Cómo inferir redes de genes a partir de perfiles de expresión, revisado", Interface Focus, vol.3, págs. 857870, 2011.

[11] J. Wang, M. Li, Y. Deng y Y. Pan, "Avances recientes en métodos de agrupación para redes de interacción de proteínas", BMC Genomics, vol.11, no. suplemento 3, artículo S10,2010.

[12] X. Li, M. Wu, C. K. Kwoh y S. K. Ng, "Enfoques computacionales para detectar complejos de proteínas a partir de redes de interacción de proteínas: una encuesta", BMC Genomics, vol.11, no.1, artículo S3, 2010.

[13] A. Mortazavi, B. A. Williams, K. McCue, L. Schaeffer y B. Wold, "Mapeo y cuantificación de transcriptomas de mamíferos mediante RNA-Seq", Nature Methods, vol. 5, no. 7, págs. 621-628, 2008.

[14] KY Yip, RP Alexander, KK Yan y M. Gerstein, "Reconstrucción mejorada de redes reguladoras de genes in silico mediante la integración de datos de perturbación y knockout", PLoS ONE, vol.5, no.1, Id. De artículo e8121, 2010 .

[15] D. Koller y N. Friedman, Modelos gráficos probabilísticos: principios y técnicas, MIT Press, 2009.

[16] K. Murphy y S. Mian, "Modelado de datos de expresión génica utilizando redes dinámicas bayesianas", Tech. Rep., Universidad de California, Berkeley, California, EE. UU., 2001.

[17] Y. Zhang, Z. Deng, H. Jiang y P. Jia, "Inferir redes reguladoras de genes a partir de múltiples fuentes de datos a través de una red bayesiana dinámica con EM estructural", en DILS, SCBoulakia y V. Tannen, Eds. , vol.4544 de Notas de la conferencia en Ciencias de la Computación, págs. 204-214, Springer, 2007.

[18] Z. M. Ibrahim, A. Ngom y A. Y. Tawfik, "Uso de la probabilidad cualitativa en redes reguladoras de genes de ingeniería inversa", IEEE Transactions on Computational Biology and Bioinformatics, vol. 8, no. 2, págs. 326-334, 2011.

[19] N. Kramer, J. Schafer y A. Boulesteix, "Estimación regularizada de redes de asociación de genes a gran escala utilizando modelos gráficos gaussianos", BMC Bioinformatics, vol.10, no.1, p.384, 2009.

[20] P. Menéndez, Y. A. I. Kourmpetis, C. J. F. ter Braak y F. A. van Eeuwijk, "Redes reguladoras de genes de perturbaciones multifactoriales usando lazo gráfico: aplicación al desafío DREAM 4", PLoS ONE, vol. 5, no. 12, ID de artículo e14147, 2010.

[21] F.-X. Wu, W.-J. Zhang y AJ Kusalik, "Modelado de la expresión génica a partir de datos de expresión de microarrays con ecuaciones de espacio de estado", en Pacific Symposium on Biocomputing, RB Altman, AK Dunker, L. Hunter, TA Jung y TE Klein, Eds., Págs. 581 -592, World Scientific, 2004.

[22] Z. Wang, F. Yang, DWC Ho, S. Swift, A. Tucker y X. Liu, "Modelado dinámico estocástico de datos de series temporales de expresión génica corta", IEEE Transactions on Nanobioscience, vol.7, no 1, págs. 44-55, 2008.

[23] M. Quach, N. Brunel y F. D'alche-Buc, "Estimación de parámetros y variables ocultas en modelos de espacio de estado no lineales basados ​​en ODE para inferencia de redes biológicas", Bioinformática, vol.23, no .23, páginas 3209-3216, 2007.

[24] Z. Wang, X. Liu, Y. Liu, J. Liang y V. Vinciotti, "Un enfoque de filtrado kalman extendido para modelar redes reguladoras de genes dinámicos no lineales a través de series de tiempo de expresión génica corta", transacciones IEEE / ACM en Biología Computacional y Bioinformática, vol.6, no.3, pp.410-419,2009.

[25] A. Noor, E. Serpedin, M. N. Nounou y H. N. Nounou, "Inferir redes reguladoras de genes a través de modelos de espacio de estado no lineales y explotar la escasez", Transacciones IEEE / ACM sobre biología computacional y bioinformática, vol.9, no. 4, páginas 1203-1211, 2012.

[26] A. Noor, E. Serpedin, M. Nounou y H. Nounou, "Inferir redes reguladoras de genes con modelos no lineales mediante la explotación de la escasez", en la Conferencia Internacional IEEE sobre Acústica, Habla y Procesamiento de Señales (ICASSP '12), págs. 725-728, marzo de 2012.

[27] R. Tibshirani, "Contracción por regresión y selección a través del lazo", Revista de la Royal Statistical Society B, vol. 58, págs. 267-288, 1996.

[28] C. Koh, F. X. Wu, G. Selvaraj y A. J. Kusalik, "Uso de un modelo de espacio de estados y análisis de ubicación para inferir redes reguladoras con retraso en el tiempo", Eurasip Journal sobre bioinformática y biología de sistemas, vol. 2009, artículo ID 484601, 3 páginas, 2009.

[29] A. A. Margolin, I. Nemenman, K. Basso et al., "ARACNE: un algoritmo para la reconstrucción de redes reguladoras de genes en un contexto celular de mamíferos", BMC Bioinformatics, vol.7, no. suplemento 1, artículo S7, 2006.

[30] W. Zhao, E. Serpedin y E. R. Dougherty, "Inferir conectividad de redes reguladoras genéticas utilizando criterios de teoría de la información", Transacciones IEEE / ACM sobre biología computacional y bioinformática, vol. 5, no. 2, págs. 262-274, 2008.

[31] A. Noor, E. Serpedin, MN Nounou, HN Nounou, N. Mohamed y L. Chouchane, "Métodos teóricos de la información para el modelado de redes reguladoras de genes", en el Simposio IEEE sobre Inteligencia Computacional en Bioinformática y Biología Computacional ( CIBCB '12), págs.418-423, 2012.

[32] T. Cover y J. Thomas, Elementos de la teoría de la información, Wiley Interscience, 2006.

[33] W. Zhao, E. Serpedin y E. R. Dougherty, "Inferir redes reguladoras de genes a partir de datos de series de tiempo utilizando el principio de longitud mínima de descripción", Bioinformatics, vol.22, no.17, pp. 2129-2135, 2006.

[34] M. Vidyasagar, "Métodos probabilísticos en biología del cáncer", Child hood, vol.20, pp.82-89,2011.

[35] P. Zoppoli, S. Morganella y M. Ceccarelli, "TimeDelay-ARACNE: ingeniería inversa de redes de genes a partir de datos de curso temporal mediante un enfoque teórico de la información", BMC Bioinformatics, vol. 11, no. 1, artículo 154, 2010.

[36] J. Dougherty, I. Tabus y J. Astola, "Inferencia de redes reguladoras de genes basadas en una longitud de descripción mínima universal", Eurasip Journal sobre Bioinformática y Biología de Sistemas, vol. 2008, ID de artículo 482090, 2008.

[37] A. Jaimovich, G. Elidan, H. Margalit y N.Friedman, "Hacia una red de interacción proteína-proteína integrada: un enfoque de red de Markov relacional", Journal of Computational Biology, vol.13, no.2, pp.145-164,2006.

[38] Y. Qi, F. Balem, C. Faloutsos, J. Klein-Seetharaman y Z. Bar-Joseph, "Identificación de complejos de proteínas mediante agrupación local de gráficos supervisados", Bioinformatics, vol.24, no.13, pp .i250-i268, 2008.

[39] J. R. Bradford, C. J. Needham, A. J. Bulpitt y D. R. Westhead, "Información sobre interfaces proteína-proteína utilizando un método de predicción de red bayesiana", Journal of Molecular Biology, vol. 362, no. 2, págs. 365-386, 2006.

[40] D. Greene, G. Cagney, N. Krogan y P. Cunningham, "Métodos de factorización de matriz no negativa de conjunto para agrupar interacciones proteína-proteína", Bioinfomatics, vol.24, no.15, pp.1722- 1728, 2008.

[41] N. Nariai, Y. Tamada, S. Imoto y S. Miyano, "Estimación de redes reguladoras de genes e interacciones proteína-proteína de Saccharomyces cerevisiae a partir de múltiples datos de todo el genoma", Bioinfomatics, vol.21, no. suplemento 2, páginas ii206-ii212, 2005.

[42] C. W. Li y B. S. Chen, "Identificación de los mecanismos funcionales de las redes reguladoras de genes y proteínas en respuesta a una gama más amplia de tensiones ambientales", Comparative and Functional Genomics, vol. 2010, artículo ID 408705, 2010.

[43] Y. C. Wang y B. S. Chen, "Red celular integrada de regulaciones de transcripción e interacciones proteína-proteína", BMC Systems Biology, vol.4, no.1, artículo 20, 2010.

[45] I. Cantone, L. Marucci, F. Iorio et al., "Una red sintética de levadura para la evaluación in vivo de enfoques de ingeniería inversa y modelos", Cell, vol.137, no.1, pp.172- 181, 2009.

[46] R. Schweiger, M. Linial y N. Linial, "Modelos probabilísticos generativos para redes de interacción proteína-proteína: la perspectiva biclicua", Bioinfomatics, vol.27, no.13, pp.i142-i148, 2011.

[47] X. Zhou, X. Wang y ER Dougherty, "Construcción de redes genómicas usando agrupación de información mutua y diseño de predictores de cadena de Markov-Monte-Carlo de salto reversible", procesamiento de señales, vol.83, no.4 , págs. 745-761, 2003.

Amina Noor, (1) Erchin Serpedin, (1) Mohamed Nounou, (2) Hazem Nounou, (3) Nady Mohamed, (4) y Lotfi Chouchane (4)

(1) Departamento de Ingeniería Eléctrica e Informática, Universidad Texas A & ampM, College Station, TX 77843-3128, EE. UU.


Fondo

Con cantidades cada vez mayores de datos biológicos generados por tecnologías modernas de alto rendimiento, nos enfrentamos a un problema desafiante: cómo extraer información significativa de los datos. Una dirección importante para abordar este problema es el uso de enfoques de minería de datos computacionales para el análisis de datos biológicos de alto rendimiento, como los datos de expresión génica [1–4]. En particular, se han desarrollado métodos de análisis para inferir interacciones reguladoras a partir de datos del transcriptoma [5-14]. Estas interacciones reguladoras vinculan reguladores, como factores de transcripción y quinasas, con sus objetivos y pueden incluir el tipo regulador de la interacción, lo que indica si existe una asociación activante (positiva) o inhibidora (negativa) entre el par de interactores. Conocer el tipo de interacción puede resultar beneficioso para una amplia gama de análisis, incluido el análisis centrado en módulos [15] y la simulación de redes [16]. Un número creciente de enfoques utilizan medidas de coexpresión, ya sea basadas en correlaciones (generalmente lineales) o basadas en la teoría de la información (pueden considerar relaciones no lineales) [17], para inferir GRN.

Aunque los enfoques basados ​​en la teoría de la información se han aplicado ampliamente para descifrar los GRN [18-20], actualmente no se utilizan para determinar el tipo de regulación entre dos genes conectados en un GRN reconstruido. A continuación, presentamos SIREN, un marco estadístico que utiliza una nueva medida basada en la teoría de la información para predecir el tipo de regulación. Nuestro nuevo marco es capaz de predecir con precisión el tipo de regulación entre dos genes que interactúan. La suposición fundamental de nuestro enfoque es que si dos genes conectados en la red tienen patrones de expresión similares, es probable que exista una asociación activa (positiva) entre ellos. Por otro lado, si sus patrones de expresión están anti-correlacionados, los genes que interactúan probablemente tengan una influencia inhibidora (negativa) entre sí. SIREN utiliza una medida basada en información mutua para predecir el tipo de interacción. La extensión de la información mutua se ha utilizado ampliamente como una medida de similitud para los campos de selección de características [21-24]. En nuestro enfoque novedoso, se introdujo una matriz de cambio de escala para convertir la función MI, que normalmente genera puntuaciones no negativas, en una función que puede tener valores negativos. El signo resultante se utiliza para predecir el tipo de interacción. Si bien SIREN detecta el tipo de regulación, no puede detectar la dirección de la regulación. Evaluamos SIREN probándolo en E. coli, cáncer de próstata e in silico GRN benchmarks. En cada caso, SIREN identificó de manera confiable los tipos regulatorios positivos y negativos. Además, la comparación de SIREN con un método de línea base basado en el coeficiente de correlación de Pearson (PCC) reveló que tiene un mayor desempeño en GRN biológicos. La implementación de R del algoritmo está disponible gratuitamente en http://baderlab.org/PegahKhosravi/SIREN.


Inferencia de redes biológicas

Una red es un conjunto de nodos y un conjunto de bordes dirigidos o no dirigidos entre los nodos. Existen muchos tipos de redes biológicas, incluidas las transcripcionales, de señalización y metabólicas. Pocas redes de este tipo se conocen en algo que se acerque a su estructura completa, incluso en las bacterias más simples. Aún se sabe menos sobre los parámetros que gobiernan el comportamiento de tales redes a lo largo del tiempo, cómo interactúan las redes en diferentes niveles en una célula y cómo predecir la descripción completa del estado de una célula eucariota o un organismo bacteriano en un momento dado en el futuro. La biología de sistemas, en este sentido, está todavía en su infancia.

Existe un gran interés en la medicina de redes para el modelado de sistemas biológicos. Este artículo se centra en un requisito previo necesario para el modelado dinámico de una red: la inferencia de la topología, es decir, la predicción del "diagrama de cableado" de la red. Más específicamente, nos centramos aquí en la inferencia de la estructura de la red biológica utilizando los conjuntos crecientes de datos de expresión de alto rendimiento para genes, proteínas y metabolitos. [2] En resumen, los métodos que utilizan datos de alto rendimiento para la inferencia de redes reguladoras se basan en la búsqueda de patrones de correlación parcial o probabilidades condicionales que indiquen una influencia causal. [3] [4] Estos patrones de correlaciones parciales que se encuentran en los datos de alto rendimiento, posiblemente combinados con otros datos suplementarios sobre los genes o proteínas en las redes propuestas, o combinados con otra información sobre el organismo, forman la base sobre la cual tal los algoritmos funcionan. Tales algoritmos pueden ser útiles para inferir la topología de cualquier red donde el cambio de estado de un nodo puede afectar el estado de otros nodos.

Redes reguladoras transcripcionales Editar

Los genes son los nodos y los bordes están dirigidos. Un gen sirve como fuente de una ventaja reguladora directa para un gen diana al producir una molécula de ARN o proteína que funciona como un activador o inhibidor transcripcional del gen diana. Si el gen es un activador, entonces es la fuente de una conexión reguladora positiva, si es un inhibidor, entonces es la fuente de una conexión reguladora negativa. Los algoritmos computacionales toman como datos de entrada primarios las mediciones de los niveles de expresión de ARNm de los genes considerados para su inclusión en la red, lo que arroja una estimación de la topología de la red. Dichos algoritmos se basan típicamente en supuestos de linealidad, independencia o normalidad, que deben verificarse caso por caso. [5] El agrupamiento o alguna forma de clasificación estadística se emplea típicamente para realizar una organización inicial de los valores de expresión de ARNm de alto rendimiento derivados de experimentos de microarrays, en particular para seleccionar conjuntos de genes como candidatos para nodos de red. [6] Entonces surge la pregunta: ¿cómo se pueden conectar los resultados de la agrupación o clasificación con la biología subyacente? Estos resultados pueden ser útiles para la clasificación de patrones, por ejemplo, para clasificar subtipos de cáncer o para predecir respuestas diferenciales a un fármaco (farmacogenómica). Pero para comprender las relaciones entre los genes, es decir, para definir con mayor precisión la influencia de cada gen sobre los demás, el científico normalmente intenta reconstruir la red reguladora de la transcripción. Esto se puede hacer mediante la integración de datos en modelos dinámicos respaldados por la literatura de antecedentes, o información en bases de datos públicas, combinada con los resultados de la agrupación. [7] El modelado puede realizarse mediante una red booleana, mediante ecuaciones diferenciales ordinarias o modelos de regresión lineal, p. Regresión de ángulo mínimo, por red bayesiana o basada en enfoques de la teoría de la información. [8] [9] Por ejemplo, se puede hacer mediante la aplicación de un algoritmo de inferencia basado en correlación, como se discutirá a continuación, un enfoque que está teniendo mayor éxito a medida que el tamaño de los conjuntos de microarrays disponibles sigue aumentando [3] [ 10] [11]

Transducción de señal Editar

Redes de transducción de señales (muy importante en la biología del cáncer). Las proteínas son los nodos y los bordes dirigidos representan la interacción en la que la conformación bioquímica del niño es modificada por la acción del padre (por ejemplo, mediada por fosforilación, ubiquitilación, metilación, etc.). La entrada principal en el algoritmo de inferencia serían los datos de un conjunto de experimentos que miden la activación / inactivación de proteínas (por ejemplo, fosforilación / desfosforilación) en un conjunto de proteínas. La inferencia de tales redes de señalización se complica por el hecho de que las concentraciones totales de proteínas de señalización fluctuarán con el tiempo debido a la regulación transcripcional y traduccional. Esta variación puede generar confusión estadística. En consecuencia, se deben aplicar técnicas estadísticas más sofisticadas para analizar tales conjuntos de datos. [12]

Editar metabólico

Redes de metabolitos. Los metabolitos son los nodos y los bordes están dirigidos. La entrada principal en un algoritmo serían los datos de un conjunto de experimentos que miden los niveles de metabolitos.

Interacción proteína-proteína Editar

Las redes de interacción proteína-proteína también se encuentran en un estudio muy activo. Sin embargo, la reconstrucción de estas redes no utiliza inferencia basada en correlación en el sentido discutido para las redes ya descritas (la interacción no implica necesariamente un cambio en el estado de la proteína), y la descripción de dicha reconstrucción de la red de interacción se deja para otros artículos.


3. Modelado e inferencia de redes reguladoras de genes

Las redes reguladoras de genes capturan las interacciones presentes entre los genes. La estimación precisa y fiable de las redes de genes es muy importante y puede cosechar beneficios de gran alcance en el campo de la biología medicinal, por ejemplo, en términos de desarrollo de medicamentos personalizados. Las siguientes subsecciones revisan los principales métodos estadísticos utilizados para la inferencia de redes reguladoras de genes. Primero, se presenta la clase importante de modelos gráficos probabilísticos.

3.1. Técnicas probabilísticas de modelado gráfico

Los modelos gráficos probabilísticos han surgido como una herramienta útil para las redes reguladoras de genes de ingeniería inversa. Una red de genes está representada por un gráfico. GRAMO = (V, mi), dónde V representa el conjunto de vértices (genes), y mi denota el conjunto de aristas que conectan los vértices. Los vértices del gráfico se modelan como variables aleatorias y los bordes significan la interacción entre ellos. El valor de expresión del gen I se denota por X I, y el número total de genes en la red se denota por norte. Las siguientes subsecciones describen brevemente algunas de las técnicas de modelado gráfico robustas y populares para la inferencia de redes de genes.

3.1.1. Redes bayesianas

Las redes bayesianas modelan las redes reguladoras de genes como gráficos acíclicos dirigidos (DAG). Para simplificar el proceso de inferencia, la distribución de probabilidad de las redes DAG generalmente se factoriza en términos de las distribuciones condicionales de cada variable aleatoria dados sus padres:

dónde Pensilvania(X I) denota el padre del nodo X I. La red reguladora de genes se infiere utilizando las técnicas de aprendizaje de la red bayesiana. Esto se hace maximizando la probabilidad PAG(GRAMO | D), dónde D denota los datos de expresión génica disponibles. Se han propuesto varias métricas de puntuación para obtener la mejor estructura gráfica [15]. La red, por tanto, obtenida es única en la medida de la clase de equivalencia, es decir, las relaciones de independencia se identifican de forma única.

Los datos de expresión génica disponibles hasta la fecha consisten en muy pocos puntos de datos, mientras que el número de genes es sustancialmente mayor, lo que hace que el sistema esté subdeterminado. Como alternativa para encontrar las redes completas, los científicos han propuesto observar ciertas características importantes, por ejemplo, las relaciones de Markov y las relaciones de orden. Si un gen X está presente en la red mínima que cubre el gen Y, entonces se dice que se establece una relación de Markov. Una relación entre dos genes se denomina relación ordenada si un gen en particular X parece ser padre de otro gen Y en todas las redes equivalentes. Al agregar esta información, es posible inferir la estructura regulatoria subyacente de manera robusta y confiable. La estructura de la red inferida de esta manera considera las interacciones estáticas únicamente. Para atender las interacciones dinámicas inherentes a las redes de genes, se han utilizado redes dinámicas bayesianas (DBN) [16, 17].

3.1.2. Redes probabilísticas cualitativas

Un método novedoso para modelar redes de genes es mediante el uso de redes probabilísticas cualitativas (QPN), que representan el análogo cualitativo de las DBN [18]. Las propiedades estructurales y de independencia de las QPN son las mismas que las de las redes bayesianas. Sin embargo, en lugar de preocuparse por las probabilidades condicionales locales de las variables aleatorias, la primera clase de modelos analiza cómo los cambios en las probabilidades de las variables aleatorias afectan las probabilidades de sus padres inmediatos. Este cambio se mide en términos cualitativos en lugar de valores cuantitativos, es decir, si las probabilidades aumentan, disminuyen o permanecen igual, como se muestra en la Figura 3.

Dos propiedades importantes de las QPN son las influencias cualitativas y las sinergias cualitativas. Una influencia positiva denotada por I + (X, Y) indica la mayor posibilidad de Y teniendo un valor más alto cuando el de X es alto y viceversa, independientemente de todas las demás variables, es decir,

En el caso de tres variables, las QPN analizan las sinergias. Una sinergia aditiva positiva, denotada por S + (<X, Y>, Z), existe cuando el efecto combinado de los nodos padres es mayor en el nodo hijo que sus efectos individuales dados por

Por lo tanto, las QPN brindan más información sobre las redes de genes al indicar si un gen en particular es un promotor o un inhibidor.

3.1.3. Modelos gráficos gaussianos

Los modelos gráficos de Gauss, también conocidos como modelos de gráficos de concentración o selección de covarianza, proporcionan una forma sencilla y eficaz de caracterizar las interacciones de los genes [19, 20]. Este método se basa en evaluar las dependencias condicionales entre genes en términos de coeficientes de correlación parcial entre las expresiones génicas y da como resultado una red no dirigida. Se estima una matriz de covarianza utilizando los conjuntos de datos de expresión génica disponibles. Suponer que X & # x02208 & # x0211d norte& # x000d7norte denota la matriz de datos de expresión génica, donde las filas corresponden a observaciones y las columnas corresponden a genes, luego se obtiene una estimación de la matriz de covarianza mediante

Suponiendo invertibilidad de W ^, las correlaciones parciales se pueden determinar como

donde & # x003c1 ^ i j denota la correlación parcial entre genes I y j.

3.1.4. Algoritmo gráfico LASSO

Un inconveniente importante de los métodos basados ​​en la estimación de matrices de covarianza es su falta de fiabilidad debido al pequeño número de muestras de datos. Aprovechando el hecho de que las redes de genes son intrínsecamente escasas, es posible obtener las dependencias entre genes mediante un método de regresión lineal penalizado [20]. El algoritmo gráfico del Operador de Selección y Contracción Mínima Absoluta (LASSO) resuelve el problema de inferencia de red de manera eficiente al maximizar la siguiente función de verosimilitud penalizada:

dónde & # x003c1 controla la escasez de la red, notación || & # x000b7 ||1 representa el l 1-norm y W denota la matriz de covarianza. Esta minimización se puede llevar a cabo mediante el uso de métodos de descenso de gradiente en bloque, cuyos detalles se pueden encontrar en [20] y sus referencias.

3.2. Modelos de representación del espacio de estados

Uno de los métodos más antiguos y ampliamente utilizados para modelar redes de genes es el empleo de modelos de representación en el espacio de estados [21]. A diferencia de otras clases, todos los métodos pertenecientes a esta clase modelan la evolución dinámica de la red genética. Estos modelos generalmente consisten en dos conjuntos de ecuaciones, el primer conjunto de ecuaciones que representa la evolución de las variables de estado ocultas denotadas por z(t), y el segundo conjunto de ecuaciones que relacionan las variables de estado ocultas con los datos de expresión génica observados, denotados por X(t) como se muestra en la Figura 4. Las funciones gramo(& # x000b7) y h(& # x000b7) describen la evolución de las variables ocultas y observadas, respectivamente. A continuación, en esta sección describiremos varios modelos para la inferencia de redes de genes utilizando el modelo de representación en el espacio de estados.

3.2.1. Modelo lineal de estado-espacio

El modelo más simple para las ecuaciones en el espacio de estados es el modelo lineal gaussiano dado por [21, 22]:

dónde A es una matriz que representa las relaciones reguladoras entre los genes, y t representa los puntos de tiempo discretos. Las ecuaciones en diferencias se utilizan en lugar de ecuaciones diferenciales porque las observaciones discretas están disponibles en los datos de expresión génica. Los componentes del ruido v(t) y w(t) representan el ruido del sistema y de la medición, respectivamente, y se supone que son gaussianos. El ruido modela la incertidumbre presente en los datos estimados de expresión génica. La matriz C generalmente se considera una matriz de identidad. La inferencia en redes de genes modeladas por la representación del espacio de estado (7) se puede realizar utilizando actualizaciones de filtro de Kalman estándar. La simplicidad del modelo de espacio de estados evita el sobreajuste de la red y, por tanto, proporciona resultados fiables.

3.2.2. Modelos no lineales

Si bien es útil representar redes de genes mediante modelos simples para facilitar la complejidad computacional, también es imperativo incorporar efectos no lineales en las ecuaciones del sistema, ya que se sabe que los genes interactúan de manera no lineal [23]. Una función particular que se utiliza con frecuencia para capturar los efectos no lineales es la función de aplastamiento sigmoide que se define a continuación en (9) [24]. El modelo de representación del espacio de estado no lineal que captura las interacciones de los genes se describe mediante el siguiente sistema de ecuaciones:

donde el ja entrada de la función vectorial F(& # x000b7) viene dado por la función de aplastamiento sigmoide:

dónde & # x003bc es un parámetro a identificar. Matriz A representa las relaciones lineales entre los genes, mientras que la matriz B caracteriza las interacciones no lineales. El problema, por tanto, se reduce a la estimación de las siguientes incógnitas en el sistema:

dónde I 0 modela el sesgo constante. Una forma de resolver estas ecuaciones es utilizando el filtro de Kalman extendido (EKF) [24], que es un algoritmo popular para resolver ecuaciones de espacio de estados no lineales. El algoritmo EKF proporciona la solución al aproximar el sistema no lineal por su aproximación lineal de primer orden. Otras variantes del algoritmo de filtro de Kalman como el filtro de Kalman de cubatura (CKF), el filtro de Kalman sin aroma (UKF) y el algoritmo de filtro de partículas también se utilizan para resolver estos problemas de inferencia [25].

Sin embargo, para muchos estudios, el modelo no lineal considerado se compone de una gran cantidad de incógnitas y para estimar estas variables desconocidas con considerable precisión, se requieren conjuntos de datos que constan de una gran cantidad de muestras. La disponibilidad de conjuntos de datos más pequeños representa un obstáculo insuperable en la estimación fiable de un gran número de incógnitas. Este problema puede evitarse parcialmente simplificando el modelo para incluir sólo términos no lineales y, por lo tanto, reduciendo el número de parámetros desconocidos al mínimo [25] y aproximando & # x003bc ser uno. El sistema de ecuaciones correspondiente a un escenario tan parsimonioso viene dado por

dónde F es la función definida previamente.

3.2.3. Modelos con restricciones de esparcimiento

Una característica crucial de muchas redes de genes es su escasez inherente, es decir, todos los genes de la red están conectados solo a algunos otros genes. Por tanto, matrices A y B que representan las relaciones reguladoras entre los genes se espera que contenga muy pocos valores distintos de cero en comparación con el tamaño de estas matrices. Por lo tanto, se pueden aplicar métodos basados ​​en la contracción como LASSO [25, 26] para la estimación de parámetros y la selección parsimoniosa del modelo. Una de las formas de inferir modelos con restricciones de dispersión es realizar una estimación dual, que implica estimar los estados y los parámetros uno por uno. Los estados ocultos se pueden estimar utilizando el algoritmo del filtro de partículas, y una vez que se obtienen todas las estimaciones de los estados ocultos, se pueden apilar para formar una matriz y así se obtiene el siguiente sistema de ecuaciones para realizar la estimación de los parámetros:

que se puede expresar de forma compacta en representación vectorial / matricial como

LASSO opera en este sistema de ecuaciones y produce un vector de parámetros B norte minimizando el criterio [27]:

Las estimaciones de parámetros obtenidas mediante algoritmos basados ​​en LASSO parecen ser más fiables que las estimaciones proporcionadas por otros enfoques [25].

3.2.4. Modelos de espacio de estados para dependencias retardadas en el tiempo

Los modelos de espacio de estado discutidos hasta ahora no consideran los retrasos en el tiempo, mientras que se ha encontrado que las interacciones retardadas en el tiempo están presentes en las redes de genes [28] debido al tiempo requerido para que tengan lugar los procesos de transcripción y traducción. Una de las formas de modelar este fenómeno es adoptando el siguiente modelo de espacio de estados:

En este modelo de espacio de estado, se considera que la entrada es el perfil de expresión de un regulador, como un factor de transcripción. Aquí, A representa el norte & # x000d7 norte matriz de transición de estado, mientras norte & # x000d7 pag matriz B captura el efecto de pag reguladores del sistema. El valor del retraso de tiempo & # x003c4 se obtiene al encontrar el mejor ajuste en un rango de valores posibles utilizando el criterio de información de Akaike (AIC) para evitar el sobreajuste de la red.

3.3. Métodos teóricos de la información

Los métodos teóricos de la información han proporcionado algunos de los algoritmos más robustos y fiables para la inferencia de redes de genes y forman la base de un estándar en este campo [29 & # x0201331]. Una ventaja particular asociada con estos métodos es su capacidad para trabajar con suposiciones mínimas sobre la red subyacente. Esto contrasta con las técnicas de modelado gráfico probabilístico, así como con los modelos de espacio de estados, los cuales tienen su propio conjunto de supuestos. Como se destacó anteriormente, una red de Markov proporciona una red no dirigida, mientras que las redes bayesianas no pueden incorporar ciclos o bucles de retroalimentación. Los modelos de espacio de estados, aparte del modelo lineal de Gauss, hacen suposiciones críticas sobre la estructura del modelo. Estos inconvenientes no están presentes en el caso de los métodos teóricos de la información. La siguiente discusión presenta los principales enfoques teóricos de la información para inferir redes reguladoras de genes.

3.3.1. Encontrar la correlación entre genes

Dos de los conceptos más fundamentales en la teoría de la información son la información mutua y la entropía. Información mutua entre dos variables aleatorias X y Y se define como [32]

dónde H denota la entropía o la incertidumbre presente en una variable aleatoria, y está dada por

La información mutua mide la correlación entre dos variables aleatorias. En el contexto de la inferencia de la red de genes, una mayor información mutua entre dos genes indica una mayor dependencia y, por lo tanto, una posible interacción entre ellos. Algunos de los algoritmos más importantes y robustos para la inferencia de redes de genes hacen uso de la información mutua para encontrar los genes que interactúan [29, 30].

3.3.2. Identificación de interacciones indirectas entre genes

Si la información mutua entre dos genes es mayor que cierto umbral, indica alguna correlación entre ellos. Sin embargo, esta información por sí sola no es suficiente para decidir si los genes están conectados directa o indirectamente a través de un gen intermedio. La desigualdad en el procesamiento de datos (DPI) proporciona información para evaluar si tal escenario se cumple. En el caso de que tres genes formen una cadena de Markov como se muestra en la Figura 5, DPI se puede expresar como

Usando esta desigualdad, se encuentra que la interacción con la menor información mutua es indirecta. Este método se emplea en ARACNE [29], que se ha convertido en un algoritmo estándar para la inferencia de redes de genes. Sin embargo, DPI no se sostiene en situaciones en las que uno de los tres genes es un gen padre de los otros dos genes. Se ha propuesto que se utilice información mutua condicional en tales casos [30]. La información mutua condicional se define como

Si I(X Y | Z) es mucho menor que I(X Y), implica que Z es padre de los genes X y Y como se muestra en la Figura 5. En caso de que las dos cantidades sean casi iguales, significa que el gen Z no tiene ninguna influencia sobre los otros dos genes. Por lo tanto, al emplear la idea de información mutua condicional, se pueden tamizar las interacciones indirectas en el caso de causa común.

3.3.3. Encontrar las redes dirigidas

El cálculo de la información mutua utilizando datos estáticos no proporciona ninguna información sobre las relaciones dirigidas. Por otro lado, el uso de datos de series de tiempo también puede indicar la direccionalidad de las interacciones [33]. La información mutua para los datos de series de tiempo se puede expresar como

Si se obtiene un valor alto para I(X t+1 Y t), significa una relación dirigida del gen Y para X. Al utilizar estos métodos, la determinación del umbral de significancia es de considerable importancia y puede estimarse en base al conocimiento previo sobre la red.

Las cantidades teóricas de la información discutidas hasta ahora son simétricas (o bidireccionales) y no proporcionan ninguna información sobre la direccionalidad por sí mismas. Recientemente se han propuesto algunas métricas nuevas para inferir relaciones asimétricas o unidireccionales como la & # x003d5-coeficiente de mezcla definido como [34]:

En otras palabras, este coeficiente proporciona una medida de independencia o diferencia entre dos genes. X y Y. DPI también es válido para & # x003d5-métrica de mezcla, y por lo tanto, se puede utilizar para identificar las interacciones indirectas como en el caso de la información mutua.

3.3.4. Dependencias retardadas

Otra forma de encontrar relaciones dirigidas es detectando las dependencias retardadas mediante el uso de datos de series de tiempo. Los instantes de tiempo en los que la información mutua supera o desciende por debajo de los umbrales. & # x003c4 hasta y & # x003c4 abajo, respectivamente, se señalan [35]. Estos instantes se denominan tiempos de cambio inicial de expresión (IcE) y se definen como

Se puede ver que un gen X a puede ser un regulador de genes X B si y solo si (sif) IcE (X a) & # x0003c IcE (X B). La información mutua en este caso viene dada por

donde el retraso se denota por k. El siguiente paso consiste en encontrar el máximo de los valores de información mutua calculados para todos los retrasos de tiempo, es decir,

Si el valor de la información mutua máxima es mayor que un umbral preespecificado, se concluye que existe una relación dirigida desde X a para X B. El cálculo del umbral es muy importante en todos los métodos teóricos de la información que se selecciona sobre la base de los valores predeterminados. PAG-valor [29]. Esto ayuda a obtener redes con el valor de significancia requerido.

3.3.5. Selección de modelo

Un paso importante y necesario en la implementación de los algoritmos antes mencionados es la selección del modelo. Una red formada mediante el uso de información mutua solo dará como resultado una estructura sobreajustada y, por lo tanto, la selección del modelo se vuelve imperativa. Se propuso el principio de longitud mínima de descripción (MDL) como un enfoque general para la selección del modelo. MDL establece que se debe seleccionar la red con la longitud de codificación más corta. Para una red con una gran cantidad de nodos, la longitud de codificación será grande y viceversa. El principio MDL proporciona una compensación y ayuda a seleccionar solo las interacciones significativas entre los genes. MDL se aplicó de diversas formas para encontrar la longitud de codificación de la red y las densidades de probabilidad asociadas con ella [33]. Otra forma de utilizar este principio es junto con el principio de máxima verosimilitud (ML) que da como resultado un algoritmo más general [36]. Se pueden encontrar más detalles sobre este algoritmo en [36]. Por lo tanto, parece que las herramientas de la teoría de la información son bastante poderosas para modelar e inferir redes reguladoras de genes.


Akutsu, T., S. Miyano y S. Kuhara (1999). Identificación de redes genéticas a partir de un pequeño número de patrones de expresión génica bajo el modelo de red booleana Pacific Symposium, Biocomputing 4: 17-28.

Aracena. J., S. Ben Lamine, MA. Mermet, O. Cohen y J. Demongeot (2000). Modelado matemático en redes genéticas: relaciones entre la expresión genética y tanto rotura cromosómica como circuitos positivos. En: Bourbakis, N. (Ed.). BIBE 2000, págs. 141-149. IEEE, Piscataway.

Aracena, J., S. Ben Lamine, MA. Memet, O. Cohen y J. Demongeot (2003). Modelado matemático en redes genéticas. Transacciones IEEE sobre sistemas Man Cybernetics, Part B 326: 171–188.

Demongeot J. y M. Richard (2000). Nuevos algoritmos de segmentación y emparejamiento como herramientas para modelar y comparar imágenes médicas. En: Deville, M. y R. Owens (Eds). XVI Congreso Mundial de Imacs 2000. págs. 127-131. EPFL, Lausana.

Demongeot J., J.P. Françoise, M. Richard, F. Senegas y T.P. Baum (2002). Un enfoque de geometría diferencial para el procesamiento de imágenes biomédicas. Comptes Rendus Biologies 325: 167-174.

Demongeot J., F. Thuderoz, T.P. Baum, F. Berger y O. Cohen (2003a). Procesamiento de imágenes de bioarreglos y modelado de redes genéticas. Comptes Rendus Biologies 326: 487–500.

Demongeot J., J. Beyz-Wendling, J. Mattes, P. Haigron, N. Glade y J.L. Coatrieux (2003b). Modelado e imágenes multiescala: los desafíos de la biocomplejidad. Actas IEEE 91: 1723-1737.

D'Haeseleer, P., S. Liang y R. Somogyi (2000). Inferencia de redes genéticas: del agrupamiento de coexpresión a la ingeniería inversa. Bioinformática 16: 707–726.

Krupa, B (2002). Sobre el número de experimentos necesarios para encontrar la estructura casual de sistemas complejos, Journal of Theoretical Biology 219: 257-267.

Liang, S., S. Furhman y R. Somogyi (1998). REVEAL, un algoritmo de ingeniería inversa general para la inferencia de arquitecturas de redes genéticas. Simposio del Pacífico sobre biocomputación 3: 18–29.


Discusión y conclusión

En las últimas dos décadas se han desarrollado varios métodos para inferir relaciones gen-gen a partir de datos de expresión. Si bien estos métodos funcionan bien en algunos casos, adolecen de una serie de inconvenientes que a menudo conducen a falsos positivos o faltan relaciones clave (falsos negativos). Lo primero se puede atribuir a la naturaleza no supervisada de la mayoría de los métodos (incluidos los métodos de coexpresión y agrupamiento), lo que dificulta "entrenarlos" en un conjunto de datos etiquetado. Este último a menudo es el resultado de los supuestos utilizados por métodos específicos (por ejemplo, supuestos de distribución para DBN) que no siempre se cumplen.

Para abordar estos problemas, presentamos CNNC, un marco general para la inferencia de relaciones genéticas, que se basa en CNN. La idea clave aquí es convertir los datos de entrada en un histograma de co-ocurrencia. Dicha representación nos permite utilizar plenamente tanto la información contenida en los datos SC como la capacidad de las CNN para explotar la información espacial. Por un lado, los datos SC proporcionan información sobre las relaciones reales basadas en células, mientras que las relaciones en los estudios masivos solo proporcionan información sobre promedios y, por lo tanto, no reflejan con precisión las interacciones y la causalidad reales. Además, la gran cantidad de células en los conjuntos de datos SC recientes nos permite estimar con precisión la distribución conjunta de pares de genes. Aquí, usamos decenas de miles de perfiles de expresión de un número relativamente pequeño de experimentos (unos pocos cientos), mientras que los conjuntos de datos masivos contenían muchos menos perfiles (los datos masivos que usamos, que son de uno de los experimentos más grandes, tienen solo ∼300 perfiles ). Además, a diferencia de la mayoría de los métodos anteriores, la CNNC está supervisada, lo que permite que la CNN se acerque a las diferencias sutiles entre los pares positivos y negativos. La supervisión también ayuda a ajustar la función de puntuación en función de las diferentes aplicaciones. Por ejemplo, diferentes características pueden ser importantes para analizar las interacciones del gen TF en comparación con la inferencia de proteínas en la misma vía. Finalmente, el hecho de que la red pueda utilizar grandes volúmenes de datos scRNA-seq sin requerir suposiciones explícitas sobre la distribución de la entrada le permite superar mejor el ruido y otros errores, reduciendo los falsos negativos.

El análisis de varias tareas diferentes de predicción de interacción y asignación funcional indica que CNNC puede mejorar métodos anteriores sin supervisión. También se puede ampliar de forma natural para integrar datos complementarios, incluida información epigenética y de secuencia. Las comparaciones con métodos más avanzados para la reconstrucción de redes biológicas resaltan aún más las ventajas de CNNC. Además, CNNC se puede utilizar como un paso de preprocesamiento o como un componente en métodos de reconstrucción de red más avanzados. Finalmente, CNNC es fácil de usar, ya sea con datos generales o con datos específicos de condiciones. Para el primero, los usuarios pueden descargar los datos y la implementación desde el sitio web de apoyo, proporcionar una lista de etiquetas (pares positivos y negativos para su sistema de interés) y recuperar las puntuaciones de todos los posibles pares de genes. Estos, a su vez, se pueden utilizar para cualquier aplicación posterior, incluido el análisis de red, la asignación de genes funcionales, etc.

Si bien nosotros y otros, desarrollamos varios métodos NN anteriores para analizar vectores de expresión unicelulares (11, 34 ⇓ ⇓ ⇓ –38), estos métodos son muy diferentes de CNNC. En primer lugar, su objetivo suele ser comparar datos entre células en lugar de analizar las relaciones de los genes dentro de las células como lo hace la CNNC. En segundo lugar, a diferencia de CNNC, estos métodos anteriores se basan en una representación vectorial (o matriz para múltiples celdas) de los datos de expresión, que no utiliza las ventajas del análisis espacial de la NN profunda. CNNC usa esa idea al convertir las relaciones de coexpresión en histogramas de imágenes antes de su análisis. Si bien esto se aplicó aquí a los datos de expresión génica, este enfoque también puede ser apropiado para otros tipos de datos, por ejemplo, datos financieros.

Dado que CNNC está supervisado, de hecho no se generalizaría a los casos en los que no hay etiquetas disponibles, a diferencia de algunos de los métodos con los que comparamos. Por otro lado, cuando las etiquetas están disponibles, lo cual es común en varios casos con datos genómicos (incluidas todas las tareas que presentamos), CNNC es una opción mucho mejor que los métodos no supervisados.

CNNC está implementado en Python, y tanto los datos como una versión de código abierto del software están disponibles en el sitio web de soporte (https://github.com/xiaoyeye/CNNC).


Documentos similares

Publicación Fecha de publicación Título
Cimini y col. 2019 La física estadística de las redes del mundo real
Wolock y col. 2019 Scrublet: identificación computacional de dobletes celulares en datos transcriptómicos unicelulares
Lähnemann y col. 2020 Once grandes desafíos en la ciencia de datos unicelulares
Pratapa y col. 2020 Algoritmos de evaluación comparativa para la inferencia de redes reguladoras de genes a partir de datos transcriptómicos unicelulares
Ding y col. 2018 Reducción de la dimensionalidad interpretable de los datos del transcriptoma unicelular con modelos generativos profundos
Mitchell y col. 1994 Evolución de los autómatas celulares para realizar cálculos: mecanismos e impedimentos
Huang y col. 2007 ¿A dónde se han ido todas las interacciones? Estimación de la cobertura de mapas de interacción de proteínas de dos híbridos
Ji y col. 2012 Encuesta: detección de módulos funcionales a partir de redes de interacción proteína-proteína
CN105144190B (en) 2018-05-01 Método, sistema y software de la biomolécula de componente de la identificación con interacción
Yau y col. 2011 Modelos de Markov ocultos no paramétricos bayesianos con aplicaciones en genómica
Bischl y col. 2012 Métodos de remuestreo para la validación del metamodelo con recomendaciones para el cálculo evolutivo
US20190252041A1 (en) 2019-08-15 Sistemas y métodos para clasificar, priorizar e interpretar variantes genéticas y terapias utilizando una red neuronal profunda
AU2009250971B2 (en) 2012-02-02 Métodos de descubrimiento de fármacos
Jaeger y col. 2011 Modelos de efectos mixtos para dependencias genéticas y regionales en tipología lingüística
Sindi y col. 2012 Un modelo probabilístico integrador para la identificación de la variación estructural en la secuenciación de datos.
Mitra y col. 2006 Agrupación evolutiva multiobjetivo de los datos de expresión génica
Xia y col. 2000 Construcción ab initio de estructuras terciarias de proteínas utilizando un enfoque jerárquico
Sun y col. 2011 Estimación de parámetros utilizando metaheurísticas en biología de sistemas: una revisión completa
Zechner y col. 2014 Inferencia escalable de cinéticas de reacción heterogéneas a partir de grabaciones agrupadas de una sola celda
Pirim y col. 2012 Agrupación de datos de expresión génica de alto rendimiento
CN105814573B (en) 2019-03-29 Método, aparato y sistema basado en la evolución dirigida
Liang y col. 2000 Monte Carlo evolutivo: aplicaciones al muestreo del modelo C p y el problema del punto de cambio
Kikuchi y col. 2003 Modelado dinámico de redes genéticas utilizando algoritmo genético y sistema S
Knowles y col. 2008 Metamodelado en optimización multiobjetivo
Hickerson y col. 2007 msBayes: canalización para probar historias filogeográficas comparativas utilizando computación bayesiana aproximada jerárquica

Otros archivos y enlaces

  • APA
  • Estándar
  • Harvard
  • Vancouver
  • Autor
  • BIBTEX
  • RIS

En: IET Systems Biology, vol. 4, núm. 6, 11.2010, pág. 428-440.

Resultado de la investigación: Contribución a la revista ›Artículo› revisión por pares

T1 - Dependencia multivariante e inferencia de redes genéticas

N2: una tarea fundamental en la biología de sistemas es la identificación de genes que interactúan para controlar los procesos celulares mediante la activación transcripcional de un conjunto de genes diana. Se han desarrollado muchos métodos que utilizan correlaciones estadísticas en conjuntos de datos de alto rendimiento para inferir tales interacciones. Sin embargo, las vías celulares son muy cooperativas, a menudo requieren el efecto conjunto de muchas moléculas. Se han propuesto pocos métodos para identificar explícitamente tales interacciones de orden superior, en parte debido al hecho de que la noción de dependencia estadística multivariada en sí misma permanece definida de manera imprecisa. Los autores definen el concepto de dependencia entre múltiples variables utilizando técnicas de máxima entropía e introducen pruebas computacionales para su identificación. Los resultados de la red sintética revelan que este procedimiento descubre dependencias incluso en regímenes submuestreados cuando la distribución de probabilidad conjunta no puede estimarse de manera confiable. El análisis de datos de microarrays de células B humanas revela que las estadísticas de tercer orden, pero no las de segundo orden, descubren relaciones entre genes que interactúan en una vía para regular cooperativamente un conjunto común de objetivos.

AB: una tarea fundamental en la biología de sistemas es la identificación de genes que interactúan para controlar los procesos celulares mediante la activación transcripcional de un conjunto de genes diana. Se han desarrollado muchos métodos que utilizan correlaciones estadísticas en conjuntos de datos de alto rendimiento para inferir tales interacciones. Sin embargo, las vías celulares son muy cooperativas, a menudo requieren el efecto conjunto de muchas moléculas. Se han propuesto pocos métodos para identificar explícitamente tales interacciones de orden superior, en parte debido al hecho de que la noción de dependencia estadística multivariada en sí misma permanece definida de manera imprecisa. Los autores definen el concepto de dependencia entre múltiples variables utilizando técnicas de máxima entropía e introducen pruebas computacionales para su identificación. Los resultados de la red sintética revelan que este procedimiento descubre dependencias incluso en regímenes submuestreados cuando la distribución de probabilidad conjunta no puede estimarse de manera confiable. El análisis de datos de microarrays de células B humanas revela que las estadísticas de tercer orden, pero no las de segundo orden, descubren relaciones entre genes que interactúan en una vía para regular cooperativamente un conjunto común de objetivos.


Materiales y métodos

Preparación de datos

Base de datos de expresiones espaciales.

Extraemos las imágenes ISH preprocesadas de FlyExpress (http://www.flyexpress.net) [23-25]. En esta base de datos, las imágenes ISH sin procesar de la base de datos BDGP se han recortado, alineado y escalado al tamaño de 320 × 128. Al igual que en la base de datos BDGP, ​​las imágenes estandarizadas se asignan a 16 etapas embrionarias, cada gen corresponde a un grupo de imágenes y un conjunto de términos de CV (vocabulario controlado).

GRN para Drosophila desarrollo ocular.

Las interacciones del gen objetivo-TF de verdad fundamental, es decir, las interacciones verificadas, son del estudio de Ref. [19], en el que una red reguladora de genes a gran escala sobre Drosophila Se estableció el desarrollo ocular. Lo consideramos válido porque consideraron tanto las relaciones de coexpresión (por RNA-Seq) como las interacciones físicas (utilizando la inferencia de motivo computacional) para producir las asociaciones TF-objetivo. Además, los autores marcaron niveles de confianza para los GRN, es decir, confianza alta, media y baja, y publicaron los GRN altos y medios. En el GRN de alta confianza, los enlaces TF-objetivo se obtuvieron a partir de evidencia directa, mientras que la red de confianza media contiene los enlaces con evidencia parcial.

Construcción de los conjuntos de datos.

Tenga en cuenta que las muestras de organismos utilizadas en el estudio de Potier [19] son ​​larvas de mosca de la fruta, porque el desarrollo del ojo ocurre principalmente durante la etapa larvaria [26]. De hecho, el desarrollo del ojo ya comienza temprano en el embrión (muchos genes están anotados por términos relacionados con los ojos en BDGP), y el BDGP recopila solo imágenes embrionarias, por lo que usamos las imágenes del rango de la última etapa del período embrionario, es decir, etapa 13-16. Para construir un conjunto de puntos de referencia, recuperamos los genes comunes compartidos entre el GRN de alta confianza y el último rango de etapa embrionaria en FlyExpress, incluidos 96 TF, 1261 genes diana y 2889 enlaces de genes TF. Los datos negativos son pares de genes TF seleccionados al azar del mismo conjunto de genes, y los pares negativos no están presentes en la red de confianza alta o media. La relación de positivo a negativo se establece en 1: 1. Dividimos los pares de genes TF en conjuntos de entrenamiento y de prueba, donde las imágenes que pertenecen al mismo gen están en el conjunto de entrenamiento o en el conjunto de prueba. La proporción de entrenamiento a prueba es 4: 1, y los datos de entrenamiento del 10% se utilizan para la validación. Para preparar un conjunto de prueba independiente, filtramos los enlaces comunes a las redes de confianza alta y media, dejando los enlaces específicos para la red de confianza media. Las estadísticas del conjunto de datos de referencia y el conjunto de pruebas independientes se muestran en la Tabla 1.

Modelado de problemas

En este estudio, tratamos de determinar si un determinado TF regula la expresión de un determinado gen de acuerdo con sus imágenes ISH, por lo que la entrada es una combinación de dos características de la imagen y la salida es una probabilidad de la existencia de una relación reguladora. Sin embargo, este no es un problema de clasificación de imágenes convencional, ya que cada gen corresponde a un conjunto de imágenes, capturadas en diferentes orientaciones, es decir, lateral, ventral y dorsal, o de diferentes lotes experimentales, y el tamaño del conjunto no es fijo. Por lo tanto, para emplear los modelos de aprendizaje profundo de última generación, generamos un conjunto de instancias para cada par de genes, que incluye todos los pares de imágenes de genes cruzados, y cada par de imágenes debe tener la misma orientación. Específicamente, para un TF gramoI y un gen gramoj, corresponden a dos conjuntos de imágenes, XI y Xj, respectivamente. Dejar XI sea ​​la unión de tres conjuntos, XI,l, XI,v, XI,D, que contienen imágenes de orientación lateral, ventral y dorsal, respectivamente. Y Xj se define de la misma manera.

Sea el espacio de salida y yI,j(∈ <0, 1>) sea la etiqueta de salida, que indica si la interacción entre gramoI y gramoj existe o no. En el escenario de aprendizaje original, queremos aprender una función de mapeo F como se muestra en la ecuación (1), (1) donde la entrada consta de dos conjuntos de imágenes de tamaño variable. Para simplificar este problema de aprendizaje de instancias múltiples, dividimos el par (XI, Xj) en varios pares de imágenes individuales, p. ej. , dónde está el paga imagen en XI, es el qa imagen en Xj, y tienen la misma orientación. En la fase de entrenamiento, asignamos la misma etiqueta yI,j a todos los pares separados de (XI, Xj), y tratamos de aprender una función de mapeo. F′, Que satisface las ecuaciones (2), (2) donde el operador ⊕ concatena los dos vectores en un vector de características completo, luego la tarea se convierte en un problema de aprendizaje de instancia única en un escenario de aprendizaje supervisado convencional. Tenga en cuenta que una sola imagen puede no cubrir todos los patrones de expresión representativos de su gen correspondiente, por lo que la simplificación anterior puede causar algún problema, pero según los estudios anteriores, el aprendizaje de instancia única funciona bien para la anotación automática de Drosphila imágenes embrionarias [17, 27], y otra ventaja de la conversión al aprendizaje de instancia única es que amplía sustancialmente el conjunto de datos.

Después del entrenamiento, obtenemos la función de mapeo estimada para la predicción. El modelo genera un valor de probabilidad para cada par de imágenes con la misma orientación. Dado que nuestro objetivo es predecir la relación reguladora para los pares de genes TF, en la fase de prueba, necesitamos integrar las salidas de los pares de imágenes a la probabilidad final del enlace TF-objetivo, como se muestra en la ecuación (3), (3 ) donde | ⋅ | denota el tamaño de un conjunto. Establecemos el umbral en el valor predeterminado 0.5, es decir, una probabilidad de salida mayor o igual a 0.5 indica la existencia de una relación regulatoria.

Arquitectura modelo

Modelamos la predicción de la interacción reguladora de genes como un problema de clasificación binaria, en el que una instancia de datos corresponde a un par de genes, y una etiqueta (positiva o negativa) denota la presencia o ausencia de interacción reguladora entre los dos genes. Las características de los datos se extraen de imágenes de expresión génica. Las etiquetas de entrenamiento son de GRNs previamente revelados mediante el uso de datos de RNA-Seq y la inferencia de motivo computacional [19]. La figura 2 muestra el diagrama de flujo de GripDL. La red neuronal convolucional (CNN) sirve como clasificador binario. Especialmente, adaptamos el modelo ResNet50 [28] en nuestro sistema de predicción. La capa superior del modelo ResNet50 se reemplaza por una capa completamente conectada activada por la función tanh con una dimensionalidad de salida de 128, donde se utilizan tanto la normalización por lotes como la deserción (tasa de deserción 0.1). La salida 128-D se alimenta a la capa final completamente conectada y da lugar a la probabilidad de predicción a través de una función de activación sigmoidea. La configuración detallada de la arquitectura del modelo se muestra en la Tabla 2. Hay cuatro conjuntos de bloques residuales, a saber, conv2_x, conv3_x, conv4_x y conv5_x, que contienen diferentes números de unidades residuales básicas.


Ver el vídeo: TEORIA SOCIOCULTURAL DE VYGOTSKY. FACIL Y CON EJEMPLOS!! (Mayo 2022).


Comentarios:

  1. De

    Bonita oración

  2. Nikogul

    ¡Higo! ¡Bien hecho!

  3. Verne

    mmm sencillo))

  4. Jonn

    Estas equivocado. Vamos a discutir. Escríbeme por MP.



Escribe un mensaje