Notación de ácido nucleico - Nucleic acid notation

La notación de ácido nucleico actualmente en uso fue formalizada por primera vez por la Unión Internacional de Química Pura y Aplicada (IUPAC) en 1970. Esta notación universalmente aceptada utiliza los caracteres romanos G, C, A y T, para representar los cuatro nucleótidos que se encuentran comúnmente en Ácidos desoxirribonucleicos (ADN). Dado el papel en rápida expansión de la secuenciación genética, la síntesis y el análisis en biología, los investigadores se han visto obligados a desarrollar notaciones alternativas para respaldar aún más el análisis y la manipulación de datos genéticos. Estas notaciones generalmente aprovechan el tamaño, la forma y la simetría para lograr estos objetivos.

Notación IUPAC

Símbolos básicos degenerados de la IUPAC
Descripción Símbolo Bases representadas
Bases complementarias
No. A C GRAMO T
Adenina A 1 A T
Citosina C C GRAMO
Guanina GRAMO GRAMO C
Timina T T A
Uracil U U A
Débil W 2 A T W
Fuerte S C GRAMO S
A m ino METRO A C K
Ceto K GRAMO T METRO
Pu r ine R A GRAMO Y
P y rimidina Y C T R
No un B 3 C GRAMO T V
No c D A GRAMO T H
No es G H A C T D
No T V A C GRAMO B
A n base de uno y norte 4 A C GRAMO T norte
Cero Z 0 Z

Los símbolos base de la BBC en bioquímica son una representación IUPAC de una posición en una secuencia de ADN que puede tener múltiples alternativas posibles. Estos no deben confundirse con bases no canónicas porque cada secuencia particular tendrá de hecho una de las bases regulares. Estos se utilizan para codificar la secuencia de consenso de una población de secuencias alineadas y se utilizan, por ejemplo, en análisis filogenético para resumir en una secuencia múltiple o para búsquedas BLAST , aunque los símbolos degenerados IUPAC están enmascarados (ya que no están codificados).

Bajo el sistema IUPAC comúnmente utilizado, las nucleobases están representadas por las primeras letras de sus nombres químicos: guanina, citosina, adenina y timina. Esta taquigrafía también incluye once caracteres de "ambigüedad" asociados con cada combinación posible de las cuatro bases de ADN. Los caracteres de ambigüedad se diseñaron para codificar variaciones de posición con el fin de informar errores de secuenciación de ADN , secuencias de consenso o polimorfismos de un solo nucleótido . La notación IUPAC, incluidos los caracteres de ambigüedad y los mnemónicos sugeridos, se muestra en la Tabla 1.

A pesar de su aceptación amplia y casi universal, el sistema IUPAC tiene una serie de limitaciones, que se derivan de su dependencia del alfabeto romano. La escasa legibilidad de los caracteres romanos en mayúsculas, que se utilizan generalmente cuando se muestran datos genéticos, puede ser la principal de estas limitaciones. El valor de las proyecciones externas para distinguir letras está bien documentado. Sin embargo, estas proyecciones están ausentes de las letras mayúsculas, que en algunos casos solo se distinguen por sutiles señales internas. Tomemos, por ejemplo, las mayúsculas C y G utilizadas para representar citosina y guanina. Estos caracteres generalmente comprenden la mitad de los caracteres en una secuencia genética, pero se diferencian por una pequeña marca interna (según el tipo de letra). Sin embargo, estos caracteres romanos están disponibles en el conjunto de caracteres ASCII más utilizado en comunicaciones textuales, lo que refuerza la ubicuidad de este sistema.

Otra deficiencia de la notación IUPAC surge del hecho de que sus once caracteres de ambigüedad se han seleccionado de los caracteres restantes del alfabeto romano. Los autores de la notación se esforzaron por seleccionar caracteres ambiguos con mnemotécnicos lógicos. Por ejemplo, S se usa para representar la posibilidad de encontrar citosina o guanina en loci genéticos, los cuales forman fuertes interacciones de unión entre cadenas. Por el contrario, las interacciones BBC de timina y adenina están representadas por una W. Sin embargo, los mnemónicos convenientes no están tan fácilmente disponibles para los otros caracteres de ambigüedad mostrados en la Tabla 1. Esto ha hecho que los caracteres de ambigüedad sean difíciles de usar y puede explicar su aplicación limitada.

Notaciones alternativas visualmente mejoradas

Los problemas de legibilidad asociados con los datos genéticos codificados por la IUPAC han llevado a los biólogos a considerar estrategias alternativas para mostrar datos genéticos. Estos enfoques creativos para visualizar secuencias de ADN generalmente se han basado en el uso de símbolos distribuidos espacialmente y / o formas visualmente distintas para codificar secuencias de ácido nucleico largas. Se han intentado notaciones alternativas para las secuencias de nucleótidos, sin embargo, la captación general ha sido baja. Varios de estos enfoques se resumen a continuación.

Proyección de duela

La proyección de duela utiliza puntos distribuidos espacialmente para mejorar la legibilidad de las secuencias de ADN .

En 1986, Cowin et al. describió un método novedoso para visualizar la secuencia de ADN conocido como Stave Projection. Su estrategia consistía en codificar nucleótidos como círculos en una serie de barras horizontales similares a las notas de un pentagrama musical. Como se ilustra en la Figura 1, cada espacio en el pentagrama de cinco líneas correspondía a una de las cuatro bases de ADN. La distribución espacial de los círculos hizo que fuera mucho más fácil distinguir bases individuales y comparar secuencias genéticas que los datos codificados por IUPAC.

El orden de las bases (de arriba a abajo, G, A, T, C) se elige de modo que la hebra complementaria pueda leerse girando la proyección al revés.

Símbolos geométricos

Zimmerman y col. adoptó un enfoque diferente para visualizar datos genéticos. En lugar de depender de círculos distribuidos espacialmente para resaltar las características genéticas, explotaron cuatro símbolos geométricamente diversos que se encuentran en una fuente de computadora estándar para distinguir las cuatro bases. Los autores desarrollaron una macro simple de WordPerfect para traducir los caracteres IUPAC en símbolos visualmente más distintos.

Horizonte de ADN

Con la creciente disponibilidad de editores de fuentes, Jarvius y Landegren idearon un nuevo conjunto de símbolos genéticos, conocido como la fuente DNA Skyline, que utiliza bloques cada vez más altos para representar las diferentes bases de ADN. Si bien recuerda a la Stave Projection distribuida espacialmente por Cowin et al ., La fuente DNA Skyline es fácil de descargar y permite la traducción hacia y desde la notación IUPAC simplemente cambiando la fuente en la mayoría de las aplicaciones de procesamiento de texto estándar.

Notaciones ambigráficas

AmbiScript utiliza ambigramas para reflejar las simetrías del ADN y respaldar la manipulación y el análisis de datos genéticos.

Los ambigramas (símbolos que transmiten un significado diferente cuando se ven en una orientación diferente) se han diseñado para reflejar las simetrías estructurales que se encuentran en la doble hélice del ADN. Al asignar caracteres ambigráficos a bases complementarias (es decir, guanina: b, citosina: q, adenina: n y timina: u), es posible complementar las secuencias de ADN simplemente girando el texto 180 grados. Una notación de ácido nucleico ambigráfica también facilita la identificación de palíndromos genéticos, como los sitios de restricción de endonucleasas, como secciones de texto que se pueden rotar 180 grados sin cambiar la secuencia.

Un ejemplo de una notación de ácido nucleico ambigráfica es AmbiScript, una notación de ácido nucleico diseñada racionalmente que combina muchas de las características visuales y funcionales de sus predecesores. Su notación también utiliza caracteres desplazados espacialmente para facilitar la revisión visual y el análisis de datos genéticos. AmbiScript también se diseñó para indicar posiciones de nucleótidos ambiguas mediante símbolos compuestos. Esta estrategia tenía como objetivo ofrecer una solución más intuitiva al uso de caracteres ambiguos propuestos por primera vez por la IUPAC. Al igual que con las fuentes DNA Skyline de Jarvius y Landegren, las fuentes AmbiScript se pueden descargar y aplicar a datos de secuencia codificados por IUPAC.

Ver también

Referencias

  1. ^ a b Comisión IUPAC-IUB sobre nomenclatura bioquímica (1970). "Abreviaturas y símbolos de ácidos nucleicos, polinucleótidos y sus constituyentes". Bioquímica . 9 (20): 4022–4027. doi : 10.1021 / bi00822a023 .
  2. ^ a b Comité de Nomenclatura de la Unión Internacional de Bioquímica (NC-IUB) (1984). "Nomenclatura para bases incompletamente especificadas en secuencias de ácidos nucleicos" . Investigación de ácidos nucleicos . 13 (9): 3021-3030. doi : 10.1093 / nar / 13.9.3021 . PMC  341218 . PMID  2582368 .
  3. ^ a b Comité de Nomenclatura de la Unión Internacional de Bioquímica (NC-IUB) (1986). "Nomenclatura de bases incompletamente especificadas en secuencias de ácidos nucleicos. Recomendaciones 1984" . Proc. Natl. Acad. Sci. USA . 83 (1): 4–8. Código Bibliográfico : 1986PNAS ... 83 .... 4O . doi : 10.1073 / pnas.83.1.4 . PMC  322779 . PMID  2417239 .
  4. ^ Tinker, MA 1963. Legibilidad de impresión. Prensa de la Universidad Estatal de Iowa, Ames IA.
  5. ^ Cowin, JE; Jellis, CH; Rickwood, D. (1986). "Un nuevo método de representar secuencias de ADN que combina la facilidad de análisis visual con la legibilidad por máquina" . Investigación de ácidos nucleicos . 14 (1): 509-15. doi : 10.1093 / nar / 14.1.509 . PMC  339435 . PMID  3003680 .
  6. ^ Zimmerman, PA; Hechizo, ML; Rawls, J .; Unnasch, TR (1991). "Transformación de datos de secuencia de ADN en símbolos geométricos". BioTechniques . 11 (1): 50–52. PMID  1954017 .
  7. Jarvius, J .; Landegren, U. (2006). "DNA Skyline: fuentes para facilitar la inspección visual de secuencias de ácidos nucleicos" . BioTechniques . 40 (6): 740. doi : 10.2144 / 000112180 . PMID  16774117 .
  8. ^ Hofstadter, Douglas R. (1985). Temas metamágicos: cuestionando la esencia de la mente y el patrón . Nueva York: Basic Books. ISBN 978-0465045662.
  9. ^ Rozak, DA (2006). "Las ventajas prácticas y pedagógicas de una notación de ácido nucleico ambigráfica". Nucleósidos, nucleótidos y ácidos nucleicos . 25 (7): 807–813. doi : 10.1080 / 15257770600726109 . PMID  16898419 . S2CID  23600737 .
  10. ^ Rozak, David A .; Rozak, Anthony J. (2008). "Simplicidad, función y legibilidad en una notación de ácido nucleico ambigráfica mejorada" . BioTechniques . 44 (6): 811–813. doi : 10.2144 / 000112727 . PMID  18476835 .