Secuencia conservada - Conserved sequence

Un alineamiento de secuencia múltiple de cinco proteínas de histona H1 de mamífero Las
secuencias son los aminoácidos de los residuos 120-180 de las proteínas. Los residuos que se conservan en todas las secuencias se resaltan en gris. Debajo de cada sitio (es decir, posición) de la alineación de la secuencia de proteínas hay una clave que indica los sitios conservados (*), los sitios con reemplazos conservadores (:), los sitios con reemplazos semiconservadores (.) Y los sitios con reemplazos no conservadores () .

En biología evolutiva , secuencias conservadas son idénticos o similares secuencias de ácidos nucleicos ( ADN y ARN ) o proteínas a través de especies ( ortólogos secuencias ), o dentro de un genoma ( paralogous secuencias ), o entre el donante y receptor taxones ( secuencias xenologous ). La conservación indica que una secuencia se ha mantenido por selección natural .

Una secuencia altamente conservada es aquella que se ha mantenido relativamente sin cambios muy atrás en el árbol filogenético y, por lo tanto, muy atrás en el tiempo geológico . Los ejemplos de secuencias altamente conservadas incluyen los componentes de ARN de los ribosomas presentes en todos los dominios de la vida, las secuencias de homeobox muy extendidas entre los eucariotas y el ARNtm en las bacterias . El estudio de la conservación de secuencias se solapa con los campos de la genómica , la proteómica , la biología evolutiva , la filogenética , la bioinformática y las matemáticas .

Historia

El descubrimiento del papel del ADN en la herencia y las observaciones de Frederick Sanger de la variación entre las insulinas animales en 1949 impulsaron a los primeros biólogos moleculares a estudiar la taxonomía desde una perspectiva molecular. Los estudios realizados en la década de 1960 utilizaron técnicas de hibridación de ADN y reactividad cruzada de proteínas para medir la similitud entre proteínas ortólogas conocidas , como la hemoglobina y el citocromo c . En 1965, Émile Zuckerkandl y Linus Pauling introdujeron el concepto de reloj molecular , proponiendo que se podrían usar tasas constantes de reemplazo de aminoácidos para estimar el tiempo desde que dos organismos divergieron . Si bien las filogenias iniciales coincidían estrechamente con el registro fósil , las observaciones de que algunos genes parecían evolucionar a diferentes ritmos llevaron al desarrollo de teorías de la evolución molecular . La comparación de Margaret Dayhoff de 1966 de las secuencias de ferrodoxina mostró que la selección natural actuaría para conservar y optimizar las secuencias de proteínas esenciales para la vida.

Mecanismos

Durante muchas generaciones, las secuencias de ácidos nucleicos en el genoma de un linaje evolutivo pueden cambiar gradualmente con el tiempo debido a mutaciones y deleciones aleatorias . Las secuencias también pueden recombinarse o eliminarse debido a reordenamientos cromosómicos . Las secuencias conservadas son secuencias que persisten en el genoma a pesar de tales fuerzas y tienen tasas de mutación más lentas que la tasa de mutación de fondo.

La conservación puede ocurrir en secuencias de ácidos nucleicos codificantes y no codificantes . Se cree que las secuencias de ADN altamente conservadas tienen valor funcional, aunque se comprende poco el papel de muchas secuencias de ADN no codificantes altamente conservadas. El grado en que se conserva una secuencia puede verse afectado por diferentes presiones de selección , su robustez a la mutación, el tamaño de la población y la deriva genética . Muchas secuencias funcionales también son modulares y contienen regiones que pueden estar sujetas a presiones de selección independientes , tales como dominios de proteínas .

Secuencia de codificación

En las secuencias codificantes, la secuencia de aminoácidos y ácidos nucleicos puede conservarse en diferentes grados, ya que la degeneración del código genético significa que las mutaciones sinónimas en una secuencia codificante no afectan la secuencia de aminoácidos de su producto proteico.

Las secuencias de aminoácidos se pueden conservar para mantener la estructura o función de una proteína o dominio. Las proteínas conservadas sufren menos reemplazos de aminoácidos , o es más probable que sustituyan aminoácidos con propiedades bioquímicas similares . Dentro de una secuencia, los aminoácidos que son importantes para el plegamiento , la estabilidad estructural o que forman un sitio de unión pueden estar más altamente conservados.

La secuencia de ácido nucleico de un gen que codifica una proteína también puede conservarse mediante otras presiones selectivas. El sesgo de uso de codones en algunos organismos puede restringir los tipos de mutaciones sinónimos en una secuencia. Las secuencias de ácido nucleico que causan una estructura secundaria en el ARNm de un gen codificante pueden seleccionarse en contra, ya que algunas estructuras pueden afectar negativamente a la traducción, o conservarse cuando el ARNm también actúa como un ARN funcional no codificante.

Sin codificación

Las secuencias no codificantes importantes para la regulación génica , como los sitios de unión o reconocimiento de ribosomas y factores de transcripción , pueden conservarse dentro de un genoma. Por ejemplo, el promotor de un gen u operón conservado también puede conservarse. Al igual que con las proteínas, también se pueden conservar los ácidos nucleicos que son importantes para la estructura y función del ARN no codificante (ncRNA). Sin embargo, la conservación de la secuencia en los ncRNA es generalmente deficiente en comparación con las secuencias que codifican proteínas, y los pares de bases que contribuyen a la estructura o función a menudo se conservan en su lugar.

Identificación

Las secuencias conservadas se identifican típicamente mediante enfoques bioinformáticos basados ​​en la alineación de secuencias . Los avances en la secuenciación de ADN de alto rendimiento y la espectrometría de masas de proteínas han aumentado sustancialmente la disponibilidad de secuencias de proteínas y genomas completos para la comparación desde principios de la década de 2000.

Búsqueda de homología

Las secuencias conservadas pueden identificarse mediante búsqueda de homología , utilizando herramientas como BLAST , HMMER , OrthologR e Infernal. Las herramientas de búsqueda de homología pueden tomar una secuencia de proteína o ácido nucleico individual como entrada, o utilizar modelos estadísticos generados a partir de múltiples alineaciones de secuencias de secuencias relacionadas conocidas. Los modelos estadísticos como los HMM de perfil y los modelos de covarianza de ARN, que también incorporan información estructural, pueden ser útiles cuando se buscan secuencias relacionadas más lejanamente. A continuación, las secuencias de entrada se alinean con una base de datos de secuencias de individuos relacionados u otras especies. A continuación, las alineaciones resultantes se puntúan basándose en el número de aminoácidos o bases coincidentes y en el número de espacios o deleciones generadas por la alineación. Pueden identificarse sustituciones conservadoras aceptables usando matrices de sustitución tales como PAM y BLOSUM . Se supone que las alineaciones de puntuación alta proceden de secuencias homólogas. La conservación de una secuencia puede inferirse mediante la detección de homólogos muy similares en un amplio rango filogenético.

Alineación de múltiples secuencias

Un logotipo de secuencia para el motivo de unión a LexA de bacterias grampositivas . Como la adenosina en la posición 5 está muy conservada, parece más grande que otros caracteres.

Pueden usarse múltiples alineamientos de secuencia para visualizar secuencias conservadas. El formato CLUSTAL incluye una clave de texto sin formato para anotar columnas conservadas de la alineación, que denota secuencia conservada (*), mutaciones conservadoras (:), mutaciones semiconservadoras (.) Y mutaciones no conservadoras () Los logotipos de secuencia también pueden mostrar secuencia conservada al representar las proporciones de caracteres en cada punto de la alineación por altura.

Alineación del genoma

Esta imagen del navegador ECR muestra el resultado de alinear diferentes genomas de vertebrados con el genoma humano en el gen OTX2 conservado . Arriba: anotaciones genéticas de exones e intrones del gen OTX2. Para cada genoma, se representa gráficamente la similitud de secuencia (%) en comparación con el genoma humano. Las pistas muestran los genomas del pez cebra , el perro , el pollo , la rana de garras occidentales , la zarigüeya , el ratón , el macaco rhesus y el chimpancé . Los picos muestran regiones de alta similitud de secuencia en todos los genomas, lo que demuestra que esta secuencia está muy conservada.

Las alineaciones del genoma completo (WGA) también pueden usarse para identificar regiones altamente conservadas entre especies. Actualmente, la precisión y escalabilidad de las herramientas WGA sigue siendo limitada debido a la complejidad computacional de lidiar con reordenamientos, regiones repetidas y el gran tamaño de muchos genomas eucariotas. Sin embargo, las WGA de 30 o más bacterias estrechamente relacionadas (procariotas) son ahora cada vez más factibles.

Sistemas de puntuación

Otros enfoques utilizan medidas de conservación basadas en pruebas estadísticas que intentan identificar secuencias que mutan de manera diferente a una tasa de mutación de fondo esperada (neutra).

El marco GERP (Genomic Evolutionary Rate Profiling) puntúa la conservación de secuencias genéticas en todas las especies. Este enfoque estima la tasa de mutación neutra en un conjunto de especies a partir de un alineamiento de secuencia múltiple y luego identifica las regiones de la secuencia que exhiben menos mutaciones de las esperadas. A continuación, se asignan puntuaciones a estas regiones basándose en la diferencia entre la tasa de mutación observada y la tasa de mutación de fondo esperada. Una puntuación alta de GERP indica entonces una secuencia muy conservada.

LIST (Local Identity and Shared Taxa) se basa en el supuesto de que las variaciones observadas en especies estrechamente relacionadas con el ser humano son más significativas cuando se evalúa la conservación en comparación con las de especies relacionadas lejanamente. Por lo tanto, LIST utiliza la identidad de alineación local alrededor de cada posición para identificar secuencias relevantes en la alineación de secuencia múltiple (MSA) y luego estima la conservación basándose en las distancias taxonómicas de estas secuencias al ser humano. A diferencia de otras herramientas, LIST ignora el recuento / frecuencia de variaciones en el MSA.

Aminode combina múltiples alineaciones con análisis filogenético para analizar cambios en proteínas homólogas y producir una gráfica que indique las tasas locales de cambios evolutivos. Este enfoque identifica las Regiones Evolutivamente Restringidas en una proteína, que son segmentos que están sujetos a selección purificadora y típicamente son críticos para la función normal de la proteína.

Otros enfoques como PhyloP y PhyloHMM incorporan métodos filogenéticos estadísticos para comparar distribuciones de probabilidad de tasas de sustitución, lo que permite la detección tanto de conservación como de mutación acelerada. Primero, se genera una distribución de probabilidad de fondo del número de sustituciones que se espera que ocurran para una columna en una alineación de secuencia múltiple, basada en un árbol filogenético . Las relaciones evolutivas estimadas entre las especies de interés se utilizan para calcular la importancia de cualquier sustitución (es decir, una sustitución entre dos especies estrechamente relacionadas puede ser menos probable que ocurra que otras lejanamente relacionadas y, por lo tanto, más significativa). Para detectar la conservación, se calcula una distribución de probabilidad para un subconjunto de la alineación de secuencia múltiple y se compara con la distribución de fondo mediante una prueba estadística, como una prueba de razón de verosimilitud o una prueba de puntuación . Los valores P generados a partir de la comparación de las dos distribuciones se utilizan luego para identificar las regiones conservadas. PhyloHMM utiliza modelos ocultos de Markov para generar distribuciones de probabilidad. El paquete de software PhyloP compara distribuciones de probabilidad utilizando una prueba de razón de verosimilitud o una prueba de puntuación , así como un sistema de puntuación similar al GERP.

Conservación extrema

Elementos ultraconservados

Los elementos ultraconservados o UCE son secuencias que son muy similares o idénticas en múltiples agrupaciones taxonómicas . Estos se descubrieron por primera vez en vertebrados y, posteriormente, se han identificado dentro de taxones muy diferentes. Si bien el origen y la función de las UCE no se conocen bien, se han utilizado para investigar divergencias profundas en amniotas , insectos y entre animales y plantas .

Genes universalmente conservados

Los genes más conservados son los que se pueden encontrar en todos los organismos. Estos consisten principalmente en los ncRNA y las proteínas necesarias para la transcripción y traducción , que se supone que se han conservado del último ancestro común universal de toda la vida.

Los genes o familias de genes que se han encontrado universalmente conservados incluyen factores de elongación de unión a GTP , metionina aminopeptidasa 2 , serina hidroximetiltransferasa y transportadores de ATP . Los componentes de la maquinaria de transcripción, como la ARN polimerasa y las helicasas , y de la maquinaria de traducción, como los ARN ribosomales , los ARNt y las proteínas ribosómicas también se conservan universalmente.

Aplicaciones

Filogenética y taxonomía

Los conjuntos de secuencias conservadas se utilizan a menudo para generar árboles filogenéticos , ya que se puede suponer que los organismos con secuencias similares están estrechamente relacionados. La elección de secuencias puede variar según el alcance taxonómico del estudio. Por ejemplo, los genes más altamente conservados, como el ARN 16S y otras secuencias ribosómicas, son útiles para reconstruir relaciones filogenéticas profundas e identificar filos bacterianos en estudios de metagenómica . Las secuencias que se conservan dentro de un clado pero que sufren algunas mutaciones, como los genes domésticos , se pueden utilizar para estudiar las relaciones entre especies. La región del espaciador interno transcrito (ITS), que se requiere para espaciar los genes de ARNr conservados pero que experimenta una rápida evolución, se usa comúnmente para clasificar hongos y cepas de bacterias de rápida evolución.

Investigación médica

Dado que las secuencias altamente conservadas a menudo tienen funciones biológicas importantes, pueden ser un punto de partida útil para identificar la causa de enfermedades genéticas . Muchos trastornos metabólicos congénitos y enfermedades de almacenamiento lisosómico son el resultado de cambios en genes conservados individuales, lo que resulta en enzimas faltantes o defectuosas que son la causa subyacente de los síntomas de la enfermedad. Las enfermedades genéticas se pueden predecir identificando secuencias que se conservan entre los seres humanos y los organismos de laboratorio, como ratones o moscas de la fruta , y estudiando los efectos de la eliminación de estos genes. Los estudios de asociación de todo el genoma también se pueden utilizar para identificar variaciones en secuencias conservadas asociadas con enfermedades o resultados de salud. En la enfermedad de Alzehimer se habían descubierto más de dos docenas de nuevos loci potenciales de susceptibilidad.

Anotación funcional

La identificación de secuencias conservadas se puede utilizar para descubrir y predecir secuencias funcionales tales como genes. Las secuencias conservadas con una función conocida, como los dominios de proteínas, también se pueden usar para predecir la función de una secuencia. Las bases de datos de dominios proteicos conservados como Pfam y Conserved Domain Database pueden usarse para anotar dominios funcionales en genes codificadores de proteínas predichos.

Ver también

Referencias