Información

Cómo componer redes reguladoras de genes

Cómo componer redes reguladoras de genes


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tengo una red reguladora de genes relativamente simple que me gustaría visualizar, completa con los símbolos comunes de flecha y barra que se usan para mostrar, respectivamente, qué genes mejoran o reprimen con otros genes. ¿Hay alguna manera de componer una red reguladora de genes usando algo como LaTeX o Graphviz?

Para redes muy simples, supongo que algo como Photoshop o Illustrator probablemente sería la solución más rápida, pero estos programas se vuelven muy tediosos a medida que el tamaño de la red crece incluso un poco. ¿Qué suele utilizar la gente para este tipo de tarea?


Si tiene conexiones simples 1: 1 o puede enumerar sus datos de esa manera, puede probar Cytoscape (disponible gratuitamente). Existen numerosos complementos para personalizar lo que tiene en mente en términos de visualización.


No lo he probado, pero esta respuesta de StackOverflow sugiere que puede importar una red GraphViz en OmniGraffle (para Mac), lo que hace que sea muy fácil producir una red bonita (mucho más fácil que Photoshop / Illustrator).


Cómo componer redes reguladoras de genes - Biología

A red reguladora de genes o genético red reguladora (GRN) es una colección de segmentos de ADN en una célula que interactúan entre sí y con otras sustancias en la célula, lo que rige las tasas a las que los genes en el.
Artículo completo >>>

Un resumen de gene regulador redes, parte de la ciencia detrás del programa Genomics: GTL. . Como mínimo, un gene regulador la red normalmente contiene lo siguiente.
Artículo completo >>>

wo gene regulador redes inferidos de diferentes tipos de datos. cierto, gene regulador redes en sentido estricto porque son correlativos,.
Artículo completo >>>

Gene Regulador Redes (GRNs): La finalización de la secuenciación del genoma ha demostrado eso. Regulador Redes (TRN): aunque el control de gene expresión .
Artículo completo >>>

Página de inicio del laboratorio Klymkowsky. Comprensión gene regulador redes. . sobre gene regulador redes asociado con embrionarios tempranos, neuroectodérmicos y.
Artículo completo >>>

Noticias de ciencia y tecnología etiquetadas con la palabra clave: gene regulador la red. . Los investigadores ayudan a descubrir los secretos de gene regulador redes .
Artículo completo >>>

PASADENA, California - Un cuarteto de estudios realizados por investigadores del Instituto de Tecnología de California (Caltech) destacan una característica especial en gene regulador redes .
Artículo completo >>>

Gene Regulador La red. Identificación. Korkut Uygun y Yinlun Huang. Un marco de DCM para gene regulador la red. se introduce la inferencia:.
Artículo completo >>>

. genes a través de un genoma se puede describir como un transcripcional regulador la red. . los la red mapa revela que gene programas de expresión y celular.
Artículo completo >>>

Gene Regulador Redes en Desarrollo de Materiales del Curso MBL. análisis de bien estudiado gene regulador redes (GRN) tanto en embriones como en.
Artículo completo >>>

Aprender regulador (transcripcional) redes de gene datos de expresión. Solía ​​representar regulador redes. Gene = nodo. Enlace = regulación hacia arriba o hacia abajo.
Artículo completo >>>

Gene regulador redes son el complejo redes de gene interacciones que. los gene regulador la red estudiado por Sternberg y sus colegas controla el.
Artículo completo >>>

Gene Regulador Redes para las 36 familias de TF en humanos, ratones y ratas. . homeobox gene. Serie HOXA, HOXB, HOXD, CHX10, MSX1, MSX2, TLX1, PBX2. LEF.
Artículo completo >>>

Un cuarteto de estudios realizados por investigadores del Instituto de Tecnología de California (Caltech) destaca una característica especial sobre gene regulador redes publicado recientemente en.
Artículo completo >>>

Gene regulador redes son quizás el nivel organizacional más importante en. Cada individuo tiene un genoma del cual su gene regulador la red es derivado. .
Artículo completo >>>

. Células madre, La red-Identificador identificó un gene regulador la red entre 87. La red-Identificador, para inferir regulador redes desde el curso del tiempo.
Artículo completo >>>

Ruido intrínseco en gene regulador redes. Mukund Thattai y Alexander van. introducción de regulador interacciones crea un gene la red con complejo.
Artículo completo >>>


Integración de redes reguladoras de genes para comprender el comportamiento animal.

Durante años, los científicos han atribuido el comportamiento animal a las actividades coordinadas de las células neuronales y sus circuitos de neuronas, conocidos como red neuronal (NN). Sin embargo, los investigadores están superando los límites en la comprensión del comportamiento animal a través de la integración de la regulación genética.

Impulsado por una larga colaboración con el director del IGB y profesor de entomología Gene Robinson (GNDP), el director entrante de genómica computacional del IGB y el profesor de ciencias de la computación Saurabh Sinha (BSD / CABBI / GNDP / GSP) ayudaron a organizar un taller sobre “Cis-Evolución reguladora en el desarrollo y el comportamiento ”en 2018 para impulsar una nueva línea de pensamiento.

Interacciones entre la red neuronal (NN) y la red reguladora del gen (GRN). Dimensiones espaciales (abajo): diferentes células (neuronas), conectadas por el NN, pueden exhibir diferentes actividades de GRN, aunque el GRN en sí no haya cambiado. GRN incluye relaciones activantes (flecha verde) y represivas (martillo rojo) entre genes (círculos). La expresión génica se indica mediante un borde negro o gris, que representa una expresión alta y baja, respectivamente. Las señales transportadas por NN pueden influir en la expresión génica en una célula (flecha etiquetada como "Señalización neural"), y la actividad del GRN en una célula puede influir en la expresión génica en otra célula, por ejemplo a través de la señalización neuroendocrina. Dimensiones temporales (arriba a la derecha, las flechas más gruesas indican interacciones más rápidas): la transmisión rápida de mensajes (escala de milisegundos a segundos) por parte de la NN ("activación neuronal") puede inducir, a través de la señalización neuronal, la actividad de los genes tempranos inmediatos (IEG) asociados con el comportamiento, desencadenando una cascada de cambios transcripcionales y epigenéticos más lentos mediados por un GRN conductual (bGRN) en la escala de segundos a días. Estos cambios pueden retroalimentar a la NN si los niveles de neurorreceptores o neurotransmisores se ven afectados. En algunos casos, los cambios mediados por bGRN pueden conducir a cambios en el desarrollo, mediados por dGRN, en una escala de tiempo lenta de días, meses o incluso a través de generaciones. Estos cambios lentos en el desarrollo pueden afectar la morfología del cerebro y causar crecimiento neuronal o recableado, retroalimentando así al NN.

“Uno de los hallazgos notables de un estudio dirigido por Gene y sus colaboradores fue que los insectos más eusociales parecían tener algo diferente en su genoma regulador”, dijo Sinha. "Parecía que había algún tipo de firma evolutiva de comportamiento social complejo que realmente no esperábamos y fue uno de esos hallazgos que realmente te hizo reconsiderar las implicaciones".

El taller de dos días reunió a personas de un conjunto diverso de habilidades donde se intercambiaron y desafiaron ideas durante discusiones sobre varios temas. Dos años más tarde, los resultados de esas discusiones culminaron en un artículo en perspectiva publicado en el Actas de la Academia Nacional de Ciencias.

“El punto de partida de esta perspectiva es que la NN es el estándar de facto para comprender lo que sucede en el cerebro como pertinente al comportamiento”, dijo Sinha. “Nuestro objetivo era resaltar otro nivel de dinámica que acompaña al comportamiento y no solo la dinámica de la NN”.

Los autores de la perspectiva sintetizaron la evidencia actual sobre el papel de las redes reguladoras de genes (GRN), una colección de interacciones reguladoras entre genes, en el contexto del comportamiento animal junto con las NN. Los GRN asociados al comportamiento (bGRN) impactan los cambios en la expresión génica asociados con un determinado comportamiento animal, mientras que los GRN del desarrollo (dGRN) influyen en el desarrollo de nuevas células y conexiones en el cerebro. La integración de NN, bGRN y dGRN en múltiples escalas tiene potencial para comprender cómo funcionan estas redes en conjunto para regular el comportamiento animal.

“Nuestro primer objetivo fue simplemente enfatizar la importancia de la GRN en el contexto del comportamiento, antes de especular sobre cómo la GRN podría interactuar con la NN, ya que faltan investigaciones actuales”, dijo Sinha. "Un ejemplo de interacción entre NN y GRN podría ser la modulación de la actividad de transmisión neuronal a través del control de la expresión de proteínas o péptidos por parte de GRN".

A través del mapeo experimental de estas redes, los cambios en la expresión génica se pueden corresponder con comportamientos en diferentes tipos de células. Las tecnologías emergentes jugarán un papel clave en estos esfuerzos. "La medición de la expresión génica en el cerebro ha estado cargada de la heterogeneidad del cerebro donde hay tantos tipos de células diferentes", dijo Sinha. "El hecho de que tengamos tecnología unicelular realmente despegando significa que podemos tener una resolución adecuada de GRN en el cerebro y, por lo tanto, examinar cómo los GRN específicos del tipo celular interactúan con la transmisión de señales a través de la NN".

La perspectiva también toca cómo los factores ambientales y el comportamiento social afectan a los GRN, que luego modulan la función y el comportamiento de los NN. “El ambiente puede inducir cambios epigenéticos y de mayor duración que luego hacen que el GRN se vuelva diferente”, dijo Sinha. “Observar la función cerebral no solo a través de la lente de las NN sino también a través de las GRN nos permite incorporar el medio ambiente de una manera creíble. Con respecto al comportamiento social, probablemente haya una diferencia en el GRN de las abejas más eusociales y ese es un punto de partida para la intrigante posibilidad de que el comportamiento social tenga algunas características únicas en sus GRN ".

Con la aparición de tecnologías, los análisis futuros de bGRN y el intercambio entre bGRN, dGRN y NN en varios contextos conductuales proporcionarán una comprensión más profunda del comportamiento animal.


Resultados

Formulación del enfoque GRADIS

Nuestro enfoque supervisado GRADIS se basa en graph disperfil de tancia para inferir interacciones reguladoras entre TF y todos los genes (TF y no codificantes de TF) en un organismo de interés. GRADIS consta de tres pasos principales: (1) agrupación de muestras, mediante el cual las muestras con perfiles de expresión similares se dividen primero en k clústeres (p. ej., basados ​​en k-significa el algoritmo de agrupamiento 26) (2) Construcción de gráfico euclidiano-métrico, mediante el cual los perfiles de expresión obtenidos en el paso (1) para cada par TF-gen se proyectan como un gráfico completo euclidiano-métrico, donde el gen puede codificar TF o no -TF (3) Clasificación basada en SVM, mediante la cual se entrena un clasificador binario para el par de genes TF en función del perfil de distancia del gráfico del paso (2) para discriminar genes objetivo de genes no objetivo (para obtener una ilustración visual de GRADIS, consulte Figura 1). Un paso clave de GRADIS es la construcción del gráfico completo métrico euclidiano, que proporciona la diferencia clave con los enfoques supervisados ​​para la reconstrucción de GRN. Dado que el par TF-gen es un par ordenado entre un regulador y un gen regulado, las relaciones estadísticas inferidas de GRADIS pueden considerarse dirigidas.

a GRADIS requiere datos de expresión y conocimiento de las interacciones conocidas del factor de transcripción (TF) y del gen (G) como entrada. B Las muestras en los datos de expresión se agrupan primero mediante agrupación de k-medias, y los centroides respectivos se utilizan para obtener datos informativos y no redundantes. C Luego, las características se construyen a partir de los conjuntos de datos escalados obtenidos de la agrupación de muestras en (B).

Para entrenar un clasificador binario, el conjunto de datos de entrada debe contener instancias positivas y negativas. Sin embargo, las redes disponibles verificadas experimentalmente proporcionan poca información sobre la ausencia de regulaciones entre un TF y un gen. Otro aspecto distintivo de GRADIS es la técnica utilizada para generar instancias negativas durante la subtarea de clasificación de SVM. A continuación, proporcionamos los detalles de los tres pasos.

Paso 1: agrupación de muestras

El número de muestras utilizadas en GRADIS determina el número de características utilizadas en la clasificación basada en SVM. Para proporcionar características informativas y no redundantes, se necesita un paso de preprocesamiento para agrupar las muestras de datos en un número menor de grupos en función de su similitud. Este paso difiere de la determinación de grupos basados ​​en genes, aplicado en otros enfoques de reconstrucción de GRN 27. Con este fin, GRADIS emplea el k-significa algoritmo de agrupamiento, de modo que las muestras de datos originales se agrupen en k racimos. Usamos k-significa agrupamiento, ya que nos permite investigar el efecto de los números de grupo, para cualquier número de grupos k, sobre el desempeño de GRADIS. Los centroides de clúster resultantes luego se recopilan en un nuevo conjunto de datos que resume de manera efectiva la información en el original. En este conjunto de datos reducido, el perfil de expresión del gen gramo es un k-vector dimensional (< mathbf> _g = ( ) ), donde (x_g ^ i left ( right) ) es el nivel de expresión del gen gramo en el centroide del clúster I.

Paso 2: construcción del perfil de distancia del gráfico

Para proporcionar un enfoque supervisado global para la reconstrucción de GRN, a continuación construimos un vector de características para un par de genes TF basado en los respectivos perfiles de expresión. Los perfiles de expresión se obtienen del paso de agrupación de muestras, anterior. Para tener en cuenta las diferencias de magnitud entre los niveles de transcripción del gen TF y el objetivo putativo, los perfiles de expresión se reescalan para que se encuentren en el intervalo [0, 1].

Un par de escamas k-Los vectores dimensionales se pueden representar mediante k puntos en el cuadrado de la unidad. Usando una notación matemática, el par de genes (TF, GRAMO) con perfiles de expresión de (< mathbf> _ < mathrm <>> = (x _ << mathrm>> ^ 1, x _ << mathrm>> ^ 2, ldots, x _ << mathrm>> ^ k) ) y (< mathbf> _G = (x_G ^ 1, x_G ^ 2, ldots, x_G ^ k) ) se puede representar por k puntos ( left ( <>>> ^ 1, x_G ^ 1> right), left ( <>>> ^ 2, x_G ^ 2> right), ldots, left ( <>>> ^ k, x_G ^ k> right) ) en el cuadrado unitario (Fig. 2a, b).

Un ejemplo de perfiles de expresión (a) del factor de transcripción (TF) y un gen (GRAMO) representado en el cuadrado unitario (B), y (C) la matriz de adyacencia del gráfico completo métrico euclidiano obtenido de (B). La característica de los pares de genes TF viene dada por la vectorización del triángulo superior de la matriz (excluyendo la diagonal como no informativa).

En el siguiente paso, creamos un gráfico completo de borde ponderado para cada par usando su correspondiente conjunto de k puntos como nodos (Fig. 2b). El peso del borde que conecta los nodos (n_i = left ( <>>> ^ i, x_G ^ i> right) ) y (n_j = ( <>>> ^ j, x_G ^ j>) ) (Ij y 1 ≤ I, jk) se define como la distancia euclidiana entre los dos puntos, dada por (w ( ) = sqrt <(x _ << mathrm>> ^ i - x _ << mathrm>> ^ j) ^ 2 + (x_G ^ i - x_G ^ j) ^ 2> ). Una vez formado este gráfico ponderado, el triángulo derecho superior de la matriz de adyacencia ponderada, excluidas las diagonales, se utiliza como vector de características. Como la matriz de adyacencia ponderada es de tamaño k × k, el triángulo superior derecho tiene kI (1 ≤ Ik) entradas en su Ilanzar. Por lo tanto, la concatenación de todas las filas del triángulo en un vector de características conduce a una matriz de longitud ( left (< begin<*<20>> k 2 end> right) = mathop < sum> nolimits_^ k < izquierda ( right)> ), que se utiliza posteriormente para aprender un clasificador binario (Fig. 2c). Este vector de características captura la relación estadística entre muestras, que no se considera en los enfoques que se basan en medidas de similitud para determinar las relaciones estadísticas entre los niveles de un TF y el gen objetivo putativo. Por lo tanto, esta representación única de las relaciones entre muestras proporciona información adicional para reconstruir con precisión los GRN. Los vectores de características se forman en función de la distancia euclidiana, ya que es una métrica de distancia natural muy utilizada. Sin embargo, para fines de comparación, también aplicamos la distancia de Manhattan para calcular los pesos de los bordes y construir más las características. La distancia de Manhattan para un par de nodos (n_i = left ( <>>> ^ i, x_G ^ i> right) ) y (n_j = ( <>>> ^ j, x_G ^ j>) ) (Ij y 1 ≤ I, jk) viene dado por (w_m ( ) = | <(x _ << mathrm>> ^ i - x _ << mathrm>> ^ j)> | + | <(x_G ^ i - x_G ^ j)> | ).

Paso 3: clasificación SVM

SVM es un clasificador binario bien conocido de puntos que pertenecen a la clase 28 positiva o negativa. En GRADIS, la clase positiva de puntos viene dada por pares de TF y un objetivo confirmado, mientras que la clase negativa es proporcionada por pares de genes TF-no objetivo. El entrenamiento de la SVM luego utiliza vectores de características obtenidos del gráfico métrico euclidiano para el par de TF y gen. Además, empleamos los vectores de características obtenidos de la distancia de Manhattan para entrenar una SVM y comparar los resultados entre las dos métricas de distancia.

Por lo general, hay poca información disponible sobre la ausencia de interacciones reguladoras de genes entre TF y genes diana en conjuntos de datos del mundo real. Por lo tanto, no es sencillo entrenar a un clasificador para este problema específico debido a la falta de instancias negativas. Para superar este problema, GRADIS utiliza la siguiente estrategia de etiquetado para identificar miembros potenciales de la clase negativa: Naturalmente, las interacciones TF-gen previamente caracterizadas experimentalmente (p. Ej., Mediante ChIP-seq y otras tecnologías), incluidas en una red estándar de oro, comprenden la clase positiva de los datos de entrenamiento. Los pares de genes TF no caracterizados se dividen en varios subconjuntos de tamaño igual al de la clase positiva. En cada iteración, solo uno de estos subconjuntos se trata como la clase negativa, que se usa junto con la clase positiva para entrenar una nueva SVM específica de la iteración utilizando una validación cruzada de diez veces en la clase positiva y negativa seleccionada en la iteración. Todos los pares no caracterizados en los subconjuntos restantes se tratan a su vez como datos de prueba en esta iteración, que deben ser evaluados por este clasificador de SVM específico. Estas evaluaciones parciales de los clasificadores individuales entrenados en cada iteración finalmente se agregan para tomar una decisión final sobre nuestra elección de posibles instancias negativas.

La adopción de esta estrategia de etiquetado conduce a entrenar hasta ( frac << left | << mathrm> , < mathrm>> derecha | >> << izquierda | << mathrm> , < mathrm>> right | >> ) clasificadores SVM independientes. Inicialmente, se asigna una puntuación de cero a todos los pares de genes TF no caracterizados. La puntuación para un par de genes TF no caracterizados se actualiza posteriormente en cada iteración de la siguiente manera: el clasificador SVM específico de iteración entrenado clasifica cada par de genes TF no caracterizados en el conjunto de prueba como positivo o negativo. Si la predicción para un par es positiva, su puntuación se incrementa en uno, de lo contrario, la puntuación permanece sin cambios. Este procedimiento se repite en la siguiente iteración tomando otro subconjunto de los pares de genes TF no caracterizados como el conjunto negativo y clasificando los pares restantes. Eventualmente, cada par de genes TF no caracterizados terminará con una cierta puntuación obtenida a través de este proceso, lo que refleja la plausibilidad de una interacción existente entre estos genes. Intuitivamente, una puntuación final más baja para un par TF-gen indica una mayor probabilidad de que pertenezca a la clase negativa. La clase negativa para los datos de entrenamiento se construye luego seleccionando esos pares con una puntuación final de cero. El número de casos negativos encontrados con este enfoque es considerablemente mayor que el número de positivos.

Habiendo obtenido un conjunto de entrenamiento etiquetado asociado con los vectores de características explicados anteriormente, se puede entrenar una SVM para encontrar un hiperplano óptimo que separe las dos clases. El conjunto de entrenamiento consta de norte Pares de genes TF pag1, pag2,…, pagnorte, cada uno de los cuales pertenece a cualquiera de las dos clases positivas y negativas, indicadas respectivamente por +1 y −1. Una vez que el clasificador SVM está entrenado, puede predecir la etiqueta (clase) de cualquier par TF-gen no caracterizado pag. Este etiquetado lo realiza SVM en función de una función de puntuación de la forma (f left (p right) = mathop < sum> nolimits_^ n < alpha _iK left ( derecha)> ). los αI son multiplicadores de Lagrange, que están optimizados por SVM para imponer grandes puntuaciones positivas para los pares de genes en la clase +1 y grandes puntuaciones negativas para los pares en la clase -1 en el conjunto de entrenamiento. La función del kernel K(·, ·) Es un componente básico del SVM, que proporciona un mapeo implícito de puntos de datos en un espacio de alta dimensión, en el que se puede obtener el hiperplano óptimo. En GRADIS, el clasificador SVM se entrena con una función de kernel gaussiana (RBF). GRADIS se implementa en Matlab R2017b y está disponible en línea en https://github.com/MonaRazaghi/GRADIS. Para examinar hasta qué punto la elección del algoritmo de aprendizaje automático afecta el rendimiento de la reconstrucción GRN, también entrenamos RF 29 en vectores de características obtenidos del gráfico métrico euclidiano y comparamos sus resultados con los del SVM.

Análisis comparativo

Para evaluar el desempeño del enfoque propuesto, GRADIS, y compararlo con los enfoques rivales, usamos el área bajo la curva ROC (AUC) y el área bajo la curva de recuperación de precisión (AUPR 30) obtenida de métodos sintéticos y del mundo real. conjuntos de datos para los cuales se encuentran disponibles interacciones estándar de oro de los desafíos DREAM4 y DREAM5. Para asegurar la solidez de nuestros hallazgos y obtener medidas de AUC y AUPR altamente confiables, se realiza una validación cruzada de diez veces con diez repeticiones para los enfoques supervisados ​​(consulte la Tabla complementaria S4 para conocer los tamaños de los conjuntos de datos de entrenamiento y prueba). Como se indicó anteriormente, las clases positivas y negativas no están equilibradas, en el sentido de que hay considerablemente más casos negativos que positivos. Tal falta de equilibrio en el tamaño de las clases puede llevar a entrenar a un clasificador que esté sesgado hacia la clase más grande. Para evitar este problema en GRADIS, nos aseguramos de que cada pliegue en el que se entrena el clasificador SVM contenga el mismo número de instancias de ambas clases. Esto se logra considerando todas las instancias positivas en el conjunto de entrenamiento seleccionado (de la validación cruzada diez veces mayor) y muestreando el mismo número de instancias negativas uniformemente al azar.

Efectos del número de conglomerados

Un paso inicial de la implementación de GRADIS implica seleccionar el número de clústeres, k, para utilizar solo las muestras más informativas. Para medir la selección de un valor apropiado para k, primero investigamos el efecto de este parámetro en el rendimiento de GRADIS. Observamos que valores más altos de AUC generalmente se asocian con valores más altos de k para los tres conjuntos de datos del desafío DREAM5 (Fig. complementaria S1). Además, a medida que aumentamos el número de clústeres, k, el valor de AUC se acercó a su máximo en aproximadamente k = 50. Sin embargo, un mayor aumento en el valor de k, por encima de 50, no da como resultado una mejora notable en el valor del AUC (Fig. suplementaria S1).

Para ser justos en la comparación, también nos aseguramos de que el número de clústeres utilizados en GRADIS garantice el uso de un número similar de características que los enfoques basados ​​únicamente en los perfiles de expresión. Específicamente, para los datos sintéticos del desafío DREAM4, las 210 muestras se agrupan en k = 30 clústeres, lo que arroja 435 características para GRADIS. Esto es similar a las características 420 (= 2.210) utilizadas por los otros enfoques. Además, para los datos sintéticos del desafío DREAM5, las 805 muestras se agrupan en k = 50 clústeres, lo que arroja 1225 características para GRADIS.

Comparación de rendimiento con datos sintéticos

Primero comparamos el desempeño de GRADIS con el de los otros contendientes en conjuntos de datos sintéticos para los que se conocen instancias de interacciones tanto positivas como negativas. Con este fin, utilizamos seis enfoques no supervisados ​​de uso popular, CLR, ARACNE, GENIE3, iRafNet, mrnet y TIGRESS, y el enfoque supervisado SIRENE y un clasificador SVM basado en expresiones. Debido a la estrategia local explotada en SIRENE, para este enfoque solo entrenamos clasificadores locales para cada TF, junto con un valor correspondiente para AUC. Finalmente, usamos las AUC promedio en las comparaciones. Además, consideramos combinar la información de los enfoques no supervisados ​​siguiendo la estrategia sabia de las multitudes 6.

Como se muestra en la Tabla 1, GRADIS supera a todos los enfoques rivales basados ​​en el AUC promedio, sobre los diferentes clasificadores con un número equilibrado de instancias positivas y negativas, cuando se utilizan los datos sintéticos de los desafíos DREAM4 y DREAM5. Curiosamente, para todos los datos sintéticos, excepto para la Red 4 del desafío DREAM4, GRADIS también funciona mejor que la sabiduría de las multitudes que combina los hallazgos de CLR, ARACNE, GENIE3, iRafNet, mrnet y TIGRESS. Por lo tanto, llegamos a la conclusión de que las características utilizadas en GRADIS proporcionan una ventaja considerable a los otros enfoques computacionales. Dado que iRafNet se basa en RF, también estamos interesados ​​en investigar si el mejor rendimiento de GRADIS se debe a las diferencias entre los métodos utilizados para entrenar a los clasificadores (es decir, SVM frente a RF). Con este fin, comparamos el rendimiento de GRADIS con el de un clasificador de SVM basado en la expresión que emplea la expresión de TF y genes diana. Para todas las redes sintéticas, el AUC promedio de GRADIS es mayor que el del clasificador SVM basado en expresiones. Además, observamos que: (1) el límite superior de los intervalos de confianza para el AUC de GRADIS es consistentemente mayor que el del clasificador SVM basado en expresiones, y (2) el límite inferior de los intervalos de confianza para el AUC de GRADIS es al menos tan grande como el AUC promedio del clasificador SVM basado en expresiones en las diferentes redes. En conjunto, estos hallazgos demuestran la solidez del excelente desempeño de GRADIS.

Resultados similares son válidos para la comparación de los enfoques basados ​​en la estadística AUPR. GRADIS supera a todos los demás enfoques rivales y su combinación se basa en la sabiduría de las multitudes (Tabla complementaria S1). Para todas las redes, excepto la Red 2 del desafío DREAM4, GRADIS supera al clasificador SVM basado en expresiones.

Además, aplicamos la distancia de Manhattan para calcular los pesos de los bordes en la representación gráfica de nuestros datos y comparar los resultados con los de la distancia euclidiana. Los resultados muestran que los coeficientes de correlación entre la distancia de Manhattan y la distancia euclidiana varían de 0,96 a 0,99, según la prueba de Mantel 31. La alta correlación entre las dos métricas de distancia implica que la SVM con la distancia de Manhattan funciona de manera similar a la basada en la distancia euclidiana (Tabla complementaria S2). Finalmente, para evaluar el impacto de los algoritmos de clasificación, también entrenamos el clasificador de RF basado en un gráfico métrico euclidiano y comparamos su desempeño con el del clasificador SVM. Los resultados muestran que al utilizar las características basadas en gráficos, el clasificador SVM funciona mejor que los bosques aleatorios en la reconstrucción de GRN (Tabla complementaria S3).

Comparación de rendimiento con datos del mundo real

Los hallazgos de los conjuntos de datos sintéticos nos han motivado a explorar el rendimiento de GRADIS en conjuntos de datos de expresión del mundo real de E. coli y S. cerevisiae proporcionado en el desafío DREAM5. Aquí, primero aprendemos instancias de interacción negativa y las usamos para entrenar un clasificador global. Descubrimos que para las dos redes del mundo real en el desafío DREAM5, GRADIS supera a cada uno de los enfoques rivales, tanto individualmente como en su combinación basada en la sabiduría de la estrategia de multitudes (Tabla 1). Además, GRADIS supera aún más a la SVM basada en expresiones con respecto al AUC promedio, los intervalos de confianza no se superponen, lo que refuerza las afirmaciones sobre el mejor rendimiento de GRADIS. Resultados similares se mantienen con respecto al AUPR promedio (Tabla complementaria S1). Observamos que no se pudieron obtener resultados basados ​​en iRafNet, ya que este enfoque requiere datos de experimentos knockout o datos de interacción proteína-proteína, que no se proporcionan en el desafío DREAM5.

Comparación de enfoques locales y globales

Aunque GRADIS y SIRENE se basan en SVM, adoptan dos estrategias intrínsecamente diferentes para la inferencia de GRN, a saber, la global y la local, respectivamente. Por lo tanto, para proporcionar una evaluación justa, comparamos GRADIS y SIRENE siguiendo una perspectiva centrada en TF (es decir, local) y centrada en la red (es decir, global). La Fig. S2 complementaria presenta los resultados centrados en la red obtenidos de SIRENE, aplicados en cada uno de los dos conjuntos de datos del mundo real. Tanto las curvas ROC como PR en la Fig. Complementaria S2 indican que GRADIS supera a SIRENE desde una perspectiva basada en la red (global). Para comparar los dos enfoques desde la perspectiva centrada en FT (local), utilizamos los resultados de GRADIS para calcular el AUC para cada FT individual. Observamos que en este enfoque, algunos TF pueden no estar presentes en el conjunto de prueba, por lo que repetimos el análisis diez veces. Luego calculamos la distribución de los valores de AUC en función de los valores mínimo, máximo y medio de las diez repeticiones. Por último, comparamos el rendimiento de dos enfoques mediante diagramas de caja, como se muestra en la Fig. Complementaria S3. Los resultados de esta investigación local demuestran una vez más que GRADIS tiene un desempeño superior en comparación con SIRENE. Por ejemplo, encontramos que los valores medianos para las distribuciones de valores mínimos, medios y máximos de AUC sobre todos los TF son consistentemente mayores para GRADIS en los conjuntos de datos de E. coli y S. cerevisiae.

Efectos de determinar la clase negativa

En el esquema de puntuación mencionado anteriormente de la clasificación SVM, una puntuación más alta para un par es indicativo de una instancia de clase positiva, es decir, de una interacción reguladora. Para evaluar más a fondo la estrategia propuesta para determinar instancias de clases negativas, se seleccionan los pares no caracterizados que tienen menos probabilidades de ser instancias negativas, en función de una puntuación umbral determinada, y se examinan de forma cruzada con una base de datos verificada experimentalmente. Por ejemplo, para el E. coli conjunto de datos, 80 ( left (<= frac << left | << mathrm> , < mathrm>> derecha | >> << izquierda | << mathrm> , < mathrm>> right | >>> right) ) Los clasificadores SVM fueron entrenados para identificar pares que pueden servir como instancias negativas. Curiosamente, los resultados muestran que 49 (de 223,262) pares no caracterizados recibieron el puntaje máximo posible de 80. Los pares que recibieron un puntaje superior a 75 (7728 pares) fueron seleccionados y contra-examinados con RegulonDB. De los 7728 pares con una puntuación superior a 75, encontramos que 275 representan verdaderas interacciones gen-reguladoras. Para evaluar la importancia de este hallazgo, generamos una distribución nula de 1000 conjuntos de pares aleatorios no caracterizados del mismo tamaño (7728) y examinamos sus interacciones en RegulonDB. El número máximo de interacciones reguladoras verdaderas entre los 1000 conjuntos aleatorios es 63, que es considerablemente menor que 275. Esto indica además que los pares con puntuaciones altas se enriquecen significativamente en las interacciones reguladoras (PAG & lt 0,001).

Evaluar el desempeño de este esquema de puntuación para S. cerevisiae, probamos la misma estrategia en interacciones reguladoras con evidencia de unión al ADN de YEASTRACT. Aquí, los resultados muestran que 32 (de 56,281) pares no caracterizados reciben la máxima puntuación posible de 56. El número máximo de interacción reguladora verdadera entre los 1000 conjuntos aleatorios es 29, lo que respalda aún más la validez de la estrategia propuesta al proporcionar información sobre pares de genes TF no caracterizados, particularmente para aquellos con puntajes más altos (de 56).


INTRODUCCIÓN

Una red reguladora de genes en todo el genoma (GRN) consta de todas las interacciones entre el factor de transcripción (TF) y el gen objetivo que tienen lugar en un sistema biológico. La variación en la capacidad de respuesta de un gen objetivo a un TF, debido a la variación genética, el cambio en el entorno o una combinación de los mismos, puede afectar la expresión del gen objetivo. Por lo tanto, las predicciones computacionales de interacciones entre genes diana y TF basadas en datos de expresión génica (es decir, transcriptómica) están bien establecidas y se utilizan ampliamente en la biología de sistemas moderna (Haury, Mordelet, Vera-Licona y Vert, 2012 Huynh-Thu, Irrthum, Wehenkel , & Geurts, 2009 Marbach et al., 2012 Margolin et al., 2006 Meyer, Kontos, Lafitte y Bontempi, 2007 Mordelet & Vert 2008 Petralia, Wang, Yang y Tu, 2015).

The existing approaches for reconstruction of gene regulatory interactions based on transcriptomics data can be grouped into two categories, i.e., unsupervised and supervised (Maetschke, Madhamshettiwar, Davis, & Ragan, 2014 ). Unsupervised approaches are most prominently used due to the relatively simple formulation—they rely on application of statistical approaches that make use of the transcriptomics data and thresholding techniques (Omranian, Eloundou-Mbebi, Mueller-Roeber, & Nikoloski, 2016 ), without consideration of the accumulated knowledge on experimentally verified gene regulatory interactions (Fig. 1). In contrast, supervised approaches use knowledge of known gene regulatory interactions, in addition to transcriptomics profiles, to predict new gene regulatory interactions. A comprehensive comparative study with synthetic and experimentally obtained transcriptomics data sets has indicated the superiority of supervised over unsupervised approaches for GRN reconstruction (Maetschke et al., 2014 ).

The supervised approaches are based on the idea that if one TF is known to regulate a gene, then all TF-gene pairs with similar features are likely to interact as well. Therefore, supervised approaches necessitate that the expression data profiles for a TF-gene pair be first transformed into feature vectors and then used as input to a supervised learning method. The learning method consists of training a classifier, which is employed to identify whether or not a pair of genes is involved in a regulatory interaction based on the employed features. The key challenges of supervised learning of GRNs are the construction of features used in the learning process, as well as the availability of information that a TF does not have a particular gene as a target, which cannot be readily verified experimentally.

Supervised learning approaches for GRN reconstruction can be further grouped into local and global (Vert, 2010 ). In local approaches, a classifier is built to discriminate the target of each TF separately. In contrast, global approaches use all TF-target gene pairs to learn a classifier for gene regulatory interactions. The global approaches are better suited for practical applications, since the learned classifier can be used on any TF-gene pair and does not require considerable knowledge of gene regulatory interactions for each TF.

The existing supervised approach for GRN reconstruction, called SIRENE, is local—it builds a binary classifier based on a support vector machine (SVM) which, for each TF, distinguishes target from non-target genes (Mordelet & Vert, 2008 ). SIRENE overcomes the absence of knowledge that a TF does not directly interact with a given gene roughly, by randomly selecting such pairs. In the following protocols, we describe an improved approach for generation of non-interacting TF-gene pairs that can be used in conjunction with expression-based SVM to improve the prediction accuracy of gene regulatory interactions (Razaghi-Moghadam and Nikoloski, submitted). The code for the following protocols is available at https://github.com/MonaRazaghi/GRADIS/.

1: CONSTRUCTION OF FEATURES USED IN SUPERVISED LEARNING OF GENE REGULATORY INTERACTIONS

Supervised learning of gene regulatory interactions is based on features of the TF-gene pair to be classified. To this end, gene-expression profiles provide a plethora of data based on features that can be extracted. A trivial set of features can be obtained by concatenating the gene-expression profiles of the TF and gene in a given pair (Ni et al., 2016 ). However, such a representation does not consider the relationship between the expression of the putative target and TF in a given experiment. Here, we provide the means to extract transcriptomics features representative for a TF-gene pair.

Materiales

  • Expression of genes monitored over different developmental and environmental conditions (perturbation experiments) or over time (time-resolved experiments). Gene-expression values are usually represented in a table, Expnorte×pag, dónde norte denotes the number of genes, pag stands for the number of experiments (e.g., conditions or time points), and the entity Expyo, j, denotes the expression level of gene I in experiment j.

1. Scale the expression profiles of TFs and genes by their respective maximum expression values (Fig. 2).

The scaled expression values provide the coordinates for a point representation of a TF-gene pair in each experiment.

The following code snippet scales the expression profile of Exp (Equation 1):

(1)

2. Determine the Euclidean distance between every two experiments based on the point representation (Fig. 2).

The result is represented by a symmetric p × p matrix for every TF-gene pair.

3. Obtain the features of the TF-gene pair by the vectorized form of the resulting Euclidean distance matrix obtained from step 2 (Fig. 2).

Every TF-gene pair is presented by pag(pag −1)/2 features.

(2)

Steps 2 and 3 of Basic Protocol 1 are implemented in lines 98-146 of the code (https://github.com/MonaRazaghi/GRADIS/blob/master/GRADIS_neg.m). These lines determine the Euclidean distance for each TF-gene pair, and vectorize it to form the feature vector.

The number of features can be reduced by selection of representative experiments. This can be achieved by clustering the experiments and selecting the cluster representatives as those that are used in the feature extraction presented above.

2: LEARNING THE NON-INTERACTING TF-GENE PAIRS

Training a binary classifier requires access to two types of instances, called positive and negative, which in our case correspond to presence or absence of gene regulatory interactions for a given pair of TF and gene. Typically, there is little information available about the absence of gene regulatory interactions between TFs and target genes in real-world datasets. Hence, it is not straightforward to train a classifier, due to the lack of negative instances. We describe a detailed procedure for composing a list of negative instances given knowledge about positive instances, i.e., TF-target gene pairs along with their expression levels.

Materiales

Hardware

The approach can be executed on any computer (e.g., i7 processor and 16 GB RAM) with Windows 7 operating system

Software

The only software needed to run the code is Matlab R2017b

  • Expression-based features for TF-gene pairs based on the Basic Protocol 1
  • A list of pairs of interacting TFs and their target genes. These pairs are referred to as positive instances and are obtained from experimentally verified interactions with different technologies.
    • Positive instance can be obtained from different databases: for instance, DREAM5 challenge (Marbach et al., 2012), RegulonDB (Gama-Castro et al., 2016), Yeastract (Teixeira et al., 2018), and AGRIS (Yilmaz et al., 2011).
    • If TF-target gene interactions are not verified in the organism of interest, consider transfer of interactions according to homology from model organisms.

    1. Form the class of positive instances of the training data by collecting the available experimentally verified TF-gene interactions.

    2. Consider the remaining TF-gene pairs as uncharacterized, and divide them into subsets of size (almost) equal to that of the positive class (in step 1). Assume that there are k such subsets.

    3. Treat one of these subsets, I, 1 ≤ Ik, as a negative class and use it together with the positive class to train an SVM specific to subset I.

    4. Treat the uncharacterized TF-gene pairs in all but the I-th subset as test data and assess them by the built SVM classifier.

    5. Aggregate the individual classifiers for each of the k subsets to form the set of negative instances.

    For a given uncharacterized TF-gene pair, the aggregation amounts to counting the number of classifiers that classify the pair as positive. A lower count would correspond to a higher likelihood that the TF-gene pair is negative. The class of negative instances is composed of those TF-gene pairs whose count is zero.

    The implementation for Basic Protocol 2 can be found in the lines 151-189 of the code (https://github.com/MonaRazaghi/GRADIS/blob/master/GRADIS_neg.m).

    The number of negative instances found with this approach is considerably higher than the number of positive ones, resulting in an unbalanced learning problem, to be considered in Basic Protocol 3.

    3: LEARNING A CLASSIFIER FOR GENE REGULATORY INTERACTIONS

    Having obtained a labeled training set associated with the feature vectors (see Basic Protocol 1, above), an SVM can be trained to find an optimal hyperplane that separates the two classes. The training set consists of metro TF-gene pairs pag1, pag2, …, pagmetro, each of which belong to either of the two positive and negative classes, respectively denoted by +1 and −1. Following Basic Protocol 2, the negative class of TF-gene pairs is considerably bigger than the positive. Here we describe a protocol for overcoming this challenge.

    Materiales

    • Expression-based features for TF-gene pairs (see Basic Protocol 1)
    • Positive and negative classes of TF-gene pairs: the negative class is obtained based on Basic Protocol 2

    1. Form the class of positive instances of the training data by collecting the available experimentally verified TF-gene interactions.

    2. Form a class of negative instances of the same size as the class of positive instances by randomly sampling from the negative class instances provided.

    3. Train an SVM with the features and classes from steps 1 and 2.

    4. Predict the class of the uncharacterized TF-gene pairs based on the SVM.

    The implementation for Basic Protocol 3 can be found in lines 191-217 of the code (https://github.com/MonaRazaghi/GRADIS/blob/master/GRADIS_neg.m).

    Average performance and confidence intervals can be obtained by performing several samplings in step 2, above. We recommend performing at least 10 random samplings of negative instances.


    Liver gene regulatory networks: Contributing factors to nonalcoholic fatty liver disease

    Inês Cebola, Department of Metabolism, Digestion and Reproduction, Section of Genetics and Genomics, Imperial College London, London W12 0NN, UK.

    Contribution: Conceptualization, Data curation, Funding acquisition, Visualization, Writing - original draft, Writing - review & editing

    Department of Metabolism, Digestion and Reproduction, Section of Genetics and Genomics, Imperial College London, London, UK

    Inês Cebola, Department of Metabolism, Digestion and Reproduction, Section of Genetics and Genomics, Imperial College London, London W12 0NN, UK.

    Contribution: Conceptualization, Data curation, Funding acquisition, Visualization, Writing - original draft, Writing - review & editing

    Funding information: FNIH Accelerating Medicines Partnership Type 2 Diabetes, Grant/Award Number: RFP16

    Abstracto

    Metabolic diseases such as nonalcoholic fatty liver disease (NAFLD) result from complex interactions between intrinsic and extrinsic factors, including genetics and exposure to obesogenic environments. These risk factors converge in aberrant gene expression patterns in the liver, which are underlined by altered cis-regulatory networks. In homeostasis and in disease states, liver cis-regulatory networks are established by coordinated action of liver-enriched transcription factors (TFs), which define enhancer landscapes, activating broad gene programs with spatiotemporal resolution. Recent advances in DNA sequencing have dramatically expanded our ability to map active transcripts, enhancers and TF cistromes, and to define the 3D chromatin topology that contains these elements. Deployment of these technologies has allowed investigation of the molecular processes that regulate liver development and metabolic homeostasis. Moreover, genomic studies of NAFLD patients and NAFLD models have demonstrated that the liver undergoes pervasive regulatory rewiring in NAFLD, which is reflected by aberrant gene expression profiles. We have therefore achieved an unprecedented level of detail in the understanding of liver cis-regulatory networks, particularly in physiological conditions. Future studies should aim to map active regulatory elements with added levels of resolution, addressing how the chromatin landscapes of different cell lineages contribute to and are altered in NAFLD and NAFLD-associated metabolic states. Such efforts would provide additional clues into the molecular factors that trigger this disease.

    • Biological Mechanisms > Metabolism
    • Biological Mechanisms > Regulatory Biology
    • Laboratory Methods and Technologies > Genetic/Genomic Methods

    Abstracto

    Complex gene regulatory networks underlie liver homeostasis. NAFLD development is characterized by changes gene expression, which reflect pervasive rewiring of liver transcriptional networks by integration of aberrant intrinsic and extrinsic cues.


    How to typeset gene regulatory networks - Biology

    NOTE: Do not rearrange the provided files they are required to have a specific relative path to each other, so rearranging them will break the code. Feel free to place the overall folder wherever you wish however.

      : For visualizing/editting gene regulatory networks
  • Python 3.x : A python package for working in systems biology
  • Also, in order to use tellurium, you will have to have a good understanding the Antimony which is the format chemical models are passed to tellurium in.

    At the beginning of the game, players will all be given a partially complete gene regulatory network. This network includes a lot of feedback mechanisms and is heavily intertwined: gene products act as regulators on the other genes of the network. Below on the left is an example of a full network (using Biotapestry) and to the right the broken one which has a few connections missing.

    There are 5 types of regulation: Single repression, Single activation, double repression, double activation, or both a repressor AND an activator. These types of regulation follow the dynamics described in the equations below.

    In the network given to players, some of the regulators will be missing. Players will be given a set budget at the beginning of the game ($10,000 to $15,000). They will use this money to purchase experiments. It is their challenge to use this money wisely to collect the data they require to determine the missing connections in the network. Descriptions of the available experiments and their costs are given in the experiments.md file. For these experiments, players can specify both a perturbation (i.e. downregulating a specific gene) and a data collection type (i.e. collect RNA data vs protein data). This data will have noise and it will have error, as all experiments do. This data will come from the true network. Using Tellurium or some other software, students should simulate their current best guess of the true model/network and compare it with the data to try to improve it.

    Also provided is a list of assumptions the players can make about the network. The goal of the game is to guess which connections are missing as accurately as possible.

    In order to generate a model, you will run GetModel.py . I have created a helper file called make_model.py that makes this process easy. Open this file ( make_model.py ), and there will be some comments describing some options you have to set certain features of the model. When you are satisfied with these, run the script. You might have to run it multiple times to generate a model that is sufficiently interesting.

    This will create a biotapestry file and antimony file in your current working directory. Hold on to these. It will also create tmax.txt in the working directory. This file should not be edited or deleted.

    In order to break the model, i.e. remove connections, first open the BiotapestryEditor program. From there, click File > Import > Import Full Model Hierarchy from CSV and select the biotapestry CSV generated in the previous step. This will give you a visualization of the model, and from here select which connections to remove. Deleting the connections off the Biotapestry file will not work, as Biotapestry does not support this.

    As such, we have written our own code for removing/adding connections, found in change_biotapestry.py . I have written a helper file called break_model.py that includes instructions for breaking the model. This will output a new CSV of the form model_name_broken.csv , and you can view it in the BiotapestryEditor if you like.

    I recommend this to be the file you give to the students.

    Ordering Experimental Data

    To collect data orders from students, we have created a google form: BIOEN 498: Experiment Request Form.

    Update the team names on the google form if necessary, and when creating the score file (step 3 below) make sure these team names match those in the score file.

    Students can be given the following link to fill out the form. They will need to be logged into their UW Google account. For users outside UW, simply make a copy of this form and use that link instead. You will have to change the name of the form in the get_data.py file.

    1. Download csv from google forms
    2. Unzip csv into the same directory as run_experiments.py
      • NO clear the old experiment orders from the CSV, or modify it in any way. The code handles this for you. Just make sure you overwrite the old CSV.
      • if someone made a mistake ordering, simply manually refund them in the team_scores.csv that is generated. DO NOT DELETE THE OLD ORDER.
    3. Run get_data.py (make sure the parameters in this file are set before running! Descriptions in file.)
      • NOTE: the first time you run this, it will generate a CSV to keep track of how much money each team has. Open get_data.py and make sure the team names in top section match those on the google form.

    The students will then be sent an email from the email provided in get_data.py containing the data they have ordered, and an update on how much money they have remaining. If a student tries to order experiments they do not have the money for, they will receive no results. If the student does not have money for the order, it will not be carried out.

    • While playing the game, we generated a list of assumptions we had to make about the network. This list is stored in assumptions.md in the main folder. It might be worthwhile to provide this list, or a subset of it, to the students as I think it may help answer some common questions.
    • experiments.md stores the list of experiments, including their descriptions and costs.
    • The playing_game folder stores all the material we used when playing this game. This includes a lot of code we wrote for filtering through our broken model, estimating parameters, attempting to find missing connections, and whatnot. We also included a file called " what we think " where we documented our general strategy.

    Allows you to randomly generate a gene regulatory network that meets certain criteria. Has functions for converting this network to an antimony string or to a CSV format that Biotapestry can read. Returns a tuple ( antimony_string, biotapestry_string ) and can also has an option to export this information to files in the working directory Relevant functions:

    Contains the method convert_biotapestry_to_antimony which is a convenience method for converting between the two formats. Since biotapestry does not store parameter values, you must provide these manually.

    Allows you to run a model (generated using GetModel.py ) and generate noisy "experimental" data from it. There are additional outputs that are turned off by default. Relevant functions:

    Has methods for automatically adding and removing connections in a gene network from a Biotapestry CSV format. Convenient for breaking gene network, or for trying out new possible connections in attempt to fix the broken network. Relevant Functions:

    • add_biotapestry() = adds the given connections to model
    • remove_biotapestry() = removes the given connections from model

    Compares two biotapestry CSV formats and outputs their differences. Might be useful for assessing how well students captured the true network at end of quarter

    Given the csv from google forms, will parse through and run the correct experiments for each entry. Will update the team's money and send email with the csv of the experiment results to the student who filled the form.

    • assumptions.md = list of assumptions made about the true network when playing the game. We tried to capture all the information we felt the students might need to fairly play the game
    • experiments.md = list of available experiments and pertubations, as well as their costs

    Playing the Game Attempt folder

    Used to make sense of experimental data. This includes parameter estimation, and probing for possible missing connections.

    Plots current working model vs experimental data to help spot shortcomings in current model. Helps us manually decide which connections to consider, and which tests to order.

    • what we think.md = describes the strategy we used while playing the game
    • model_files = all the experimental data we bought

    Availability of data and materials

    Cichlid PWMs that support the findings of this study are available in a figshare repository [85].

    Datasets relevant to network reconstruction and their outputs are also available in figshare [86,87,88].

    Original, uncropped gel images of EMSA experiments that support the findings of this study are available in figshare [89].

    Datasets that are otherwise absent from this published article are available from the corresponding authors upon request.

    The source code to run motif prediction and network reconstruction from TFBS and TF-TG co-expression is freely available to all under the Creative Commons Attribution-ShareAlike licence (CC BY-SA) and under the standard GPL 3.0 licence from Github [90].

    Otherwise, all other scripts relevant to this published article are available from the corresponding authors on request.


    Información del autor

    Present address: Genentech, South San Francisco, CA, 94080, USA

    Afiliaciones

    Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Dong Won Kim, Kai Liu, Zoe Qianyi Wang, Yi Stephanie Zhang, Abhijith Bathini, Matthew P. Brown, Sonia Hao Lin, Parris Whitney Washington, Changyu Sun, Hong Wang & Seth Blackshaw

    Nina Ireland Laboratory of Developmental Neurobiology, Department of Psychiatry, UCSF Weill Institute for Neurosciences, University of California, San Francisco, CA, 94158, USA

    Susan Lindtner & John L. R. Rubenstein

    Center for Neuroscience, Korea Institute of Science and Technology (KIST), Seoul, 02792, Korea

    RIKEN Center for Brain Science, Laboratory for Molecular Mechanisms of Brain Development, 2-1 Hirosawa, Wako, Saitama, 351-0198, Japan

    Department of Ophthalmology, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Department of Neurology, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Center for Human Systems Biology, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Institute for Cell Engineering, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    Kavli Neuroscience Discovery Institute, Johns Hopkins University School of Medicine, Baltimore, MD, 21205, USA

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    También puede buscar este autor en PubMed Google Scholar

    Contribuciones

    S.B. concibió el estudio. D.W.K., K.L. and S.B. designed experiments. D.W.K., K.L., Z.Q.W., S.Z., A.B., M.P.B., S.H.L., P.W.W. and T.S. experimentos realizados. D.W.K., K.L., Z.Q.W., S.Z., P.W.W., C.S. and T.S. analyzed data. LICENCIADO EN DERECHO. and J.L.R. provided reagents. All authors contributed to writing the paper.

    Autor correspondiente


    Additional file 1: Figure S1.

    A schematic illustration on identification of MA-TAM signature and master regulators. Figura S2. MA-TAM target gene pathway enrichment. Figura S3. Global regulatory network of MA-TAM. Figura S4. Multi-color immunohistochemical images of MA-TAM encoding molecules. Figura S5. Effects of MARCO and CCL7 on mesenchymal markers. Figura S6. Effects of TAM-derived CM on GSC stemness in response to irradiation. Figure S7. Effects of anti-MARCO therapeutic antibodies. Figure S8. In vivo effects of MARCO high TAMs in PDX models. Figure S9. Clinical correlation of MA-TAM master regulators. Figure S10. Single cell analysis of MA-TAM signature. Figure S11. Transcriptome analysis of scTHI at single-cell resolution. Figure S12. Cytokine array-based characterization of MARCO high TAMs. Figure S13. Anatomical expression of MA-TAM signature.


    Supplementary Figure 1 Comparison of datasets simulated from synthetic networks by using BoolODE and GeneNetWeaver.

    Each row corresponds to the synthetic network indicated by the label on the left. (a) The network itself, with red edges representing inhibition and blue edges representing activation. (b) A 2D t-SNE visualization of one BoolODE-generated dataset for 2,000 cells. The color of each point indicates the simulation time: blue for earlier, green for intermediate, and yellow for later times. (c) Each colour corresponds to a different subset of cells obtained by using k-means clustering of the BoolODE-generated dataset, with k set to the number of expected steady states. (d) A 2-D t-SNE visualization of one GeneNetWeaver output.

    Supplementary Figure 2 Box plots of AUPRC values for synthetic networks.

    Each row corresponds to one of the six synthetic networks. Each column corresponds to an algorithm. Red, blue, yellow, purple and green box plots correspond to AUPRC values for 10 datasets with 100, 200, 500, 2,000, and 5,000 cells, respectively. The gray dotted line indicates the AUPRC value for a random predictor, which is equal to the network’s density. In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 3 Box plots of AUROC values for synthetic networks.

    Each row corresponds to one of the six synthetic networks. Each column corresponds to an algorithm. Red, blue, yellow, purple and green box plots correspond to AUROC values for 10 datasets with 100, 200, 500, 2,000, and 5,000 cells, respectively. The gray dotted line indicates the AUROC value for a random predictor (0.5). In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 4 Box plots of AUPRC values for curated models.

    Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to AUPRC values for 10 datasets with no dropouts, a dropout rate of q = 50, and a dropout rate of q = 70, respectively. The gray dotted line indicates the AUPRC value for a random predictor, i.e., the network density. In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 5 Box plots of AUROC values for curated models.

    Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to AUROC values for 10 datasets with no dropouts, a dropout rate of q = 50, and a dropout rate of q = 70, respectively. The gray dotted line indicates the AUROC value for a random predictor (0.5). In all boxplots, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 6 Box plots of early precision values for curated models.

    Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to early precision values for 10 datasets with no dropouts, a dropout rate of q = 50, and a dropout rate of q = 70, respectively. The gray dotted line indicates the early precision value for a random predictor (network density). In each boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

    Supplementary Figure 7 Scalability of GRN algorithms on experimental single-cell RNA-Seq datasets.

    Variation in running time and memory usage of GRN inference algorithms with respect to number of genes for three experimental single-cell RNA-Seq datasets. Each point represents the mean running time or memory across all three datasets and the shaded regions correspond to one standard deviation around the mean. Missing values indicate that the method either did not complete after one day or gave a runtime error. We did not consider SCNS since it took over a day on the 19-gene GSD Boolean model. We obtained these results on a computer with a 32-core 2.0GHz processor and 32GB of memory running Ubuntu 18.04.

    Supplementary Figure 8 Summary of EPR values for experimental single-cell RNA-Seq datasets with 500 and 1000 genes.

    Summary of EPR results for experimental single-cell RNA-seq datasets. The left half of the figure (500 genes) shows results for datasets composed of the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report EPR values. The right half (1000 genes) shows results for the 1000 most-varying genes. In both sections, algorithms are sorted by median EPR across the datasets (rows) for the 500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.

    Supplementary Figure 9 Summary of AUPRC ratio values for experimental single-cell RNA-Seq datasets with TFs + 500 and TFs + 1000 genes.

    Summary of AUPRC ratio results for experimental single-cell RNA-seq datasets. The left half of the figure (TFs+500 genes) shows results for datasets composed of all significantly-varying TFs and the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report AUPRC ratios. The right half (TFs+1000 genes) shows results for all significantly-varying TFs and the 1000 most-varying genes. In both sections, algorithms are sorted by median AUPRC ratio across the datasets (rows) for the TFs+500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.

    Supplementary Figure 10 Summary of AUPRC ratio values for experimental single-cell RNA-Seq datasets with 500 and 1000 genes.

    Summary of AUPRC ratio values for experimental single-cell RNA-seq datasets. The left half of the figure (500 genes) shows results for datasets composed of the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report AUPRC ratios. The right half (1000 genes) shows results for the 1000 most-varying genes. In both sections, algorithms are sorted by median AUPRC ratios across the datasets (rows) for the 500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.


    Ver el vídeo: Regulación de la Expresión Génica en Eucariotas 4 (Mayo 2022).


Comentarios:

  1. Jumah

    Me uno. Y lo he enfrentado.

  2. Yozshuzahn

    Wacker, es la frase simplemente excelente :)

  3. Gujas

    En mi opinión te equivocas. Escríbeme en PM, hablamos.

  4. Nguyen

    Le sugiero que vaya al sitio, que tiene muchos artículos sobre este tema.

  5. Meturato

    En confianza, le aconsejo que intente buscar en Google.com

  6. Sean

    Que mensaje tan entretenido



Escribe un mensaje