Secuenciación de proteínas - Protein sequencing

Usando un secuenciador de proteínas y péptidos de Beckman-Spinco, 1970

La secuenciación de proteínas es el proceso práctico de determinar la secuencia de aminoácidos de la totalidad o parte de una proteína o péptido . Esto puede servir para identificar la proteína o caracterizar sus modificaciones postraduccionales . Normalmente, la secuenciación parcial de una proteína proporciona suficiente información (una o más etiquetas de secuencia) para identificarla con referencia a bases de datos de secuencias de proteínas derivadas de la traducción conceptual de genes .

Los dos métodos directos principales de secuenciación de proteínas son la espectrometría de masas y la degradación de Edman utilizando un secuenciador de proteínas (secuenciador). Los métodos de espectrometría de masas son ahora los más utilizados para la secuenciación e identificación de proteínas, pero la degradación de Edman sigue siendo una herramienta valiosa para caracterizar el N- terminal de una proteína .

Determinación de la composición de aminoácidos

A menudo es deseable conocer la composición de aminoácidos desordenada de una proteína antes de intentar encontrar la secuencia ordenada, ya que este conocimiento puede usarse para facilitar el descubrimiento de errores en el proceso de secuenciación o para distinguir entre resultados ambiguos. El conocimiento de la frecuencia de ciertos aminoácidos también puede usarse para elegir qué proteasa usar para la digestión de la proteína. También se puede determinar la incorporación errónea de niveles bajos de aminoácidos no estándar (por ejemplo, norleucina) en proteínas. Un método generalizado a menudo denominado análisis de aminoácidos para determinar la frecuencia de los aminoácidos es el siguiente:

  1. Hidrolizar una cantidad conocida de proteína en sus aminoácidos constituyentes.
  2. Separe y cuantifique los aminoácidos de alguna manera.

Hidrólisis

La hidrólisis se realiza calentando una muestra de la proteína en ácido clorhídrico 6 M a 100–110 ° C durante 24 horas o más. Las proteínas con muchos grupos hidrófobos voluminosos pueden requerir períodos de calentamiento más prolongados. Sin embargo, estas condiciones son tan vigorosas que algunos aminoácidos ( serina , treonina , tirosina , triptófano , glutamina y cisteína ) se degradan. Para evitar este problema, Biochemistry Online sugiere calentar muestras separadas durante diferentes momentos, analizar cada solución resultante y extrapolar al tiempo de hidrólisis cero. Rastall sugiere una variedad de reactivos para prevenir o reducir la degradación, como reactivos de tiol o fenol para proteger al triptófano y la tirosina del ataque del cloro y la cisteína preoxidante. También sugiere medir la cantidad de amoníaco desprendido para determinar el grado de hidrólisis de amida .

Separación y cuantificación

Los aminoácidos pueden separarse mediante cromatografía de intercambio iónico y luego derivatizarse para facilitar su detección. Más comúnmente, los aminoácidos se derivatizan y luego se resuelven mediante HPLC de fase inversa .

Un ejemplo de cromatografía de intercambio iónico lo da el NTRC usando poliestireno sulfonado como matriz, agregando los aminoácidos en solución ácida y pasando un tampón de pH en constante aumento a través de la columna. Los aminoácidos se eluyen cuando el pH alcanza sus respectivos puntos isoeléctricos . Una vez separados los aminoácidos, se determinan sus respectivas cantidades añadiendo un reactivo que formará un derivado coloreado. Si las cantidades de aminoácidos superan los 10 nmol, se puede utilizar ninhidrina para ello; da un color amarillo cuando reacciona con prolina y un púrpura vivo con otros aminoácidos. La concentración de aminoácidos es proporcional a la absorbancia de la solución resultante. Con cantidades muy pequeñas, hasta 10 pmol, se pueden formar derivados fluorescentes usando reactivos como el orto-ftaldehído (OPA) o la fluorescamina .

La derivatización previa a la columna puede utilizar el reactivo de Edman para producir un derivado que se detecta con luz ultravioleta. Se logra una mayor sensibilidad utilizando un reactivo que genera un derivado fluorescente. Los aminoácidos derivatizados se someten a cromatografía de fase inversa, normalmente usando una columna de sílice C8 o C18 y un gradiente de elución optimizado . Los aminoácidos eluidos se detectan usando un detector de UV o fluorescencia y las áreas de los picos se comparan con las de los estándares derivatizados para cuantificar cada aminoácido en la muestra.

Análisis de aminoácidos N -terminales

Método de Sanger de análisis de grupos terminales de péptidos: una derivatización del extremo N -terminal con reactivo de Sanger (DNFB), hidrólisis de ácido total B del péptido dinitrofenilo

Determinar qué aminoácido forma el extremo N de una cadena de péptidos es útil por dos razones: para ayudar a ordenar las secuencias de fragmentos de péptidos individuales en una cadena completa, y porque la primera ronda de degradación de Edman a menudo está contaminada por impurezas y, por lo tanto, no lo hace. no dan una determinación precisa del aminoácido N -terminal. A continuación, se muestra un método generalizado para el análisis de aminoácidos N -terminales:

  1. Reaccionar el péptido con un reactivo que marcará selectivamente el aminoácido terminal.
  2. Hidroliza la proteína.
  3. Determine el aminoácido por cromatografía y comparación con estándares.

Hay muchos reactivos diferentes que pueden usarse para marcar aminoácidos terminales. Todos reaccionan con grupos amina y, por lo tanto, también se unirán a grupos amina en las cadenas laterales de aminoácidos como la lisina; por esta razón, es necesario tener cuidado al interpretar los cromatogramas para asegurarse de que se elige el lugar correcto. Dos de los reactivos más comunes son el reactivo de Sanger ( 1-fluoro-2,4-dinitrobenceno ) y derivados de dansilo como el cloruro de dansilo . También se puede utilizar fenilisotiocianato , el reactivo para la degradación de Edman. Aquí se aplican las mismas preguntas que en la determinación de la composición de aminoácidos, con la excepción de que no se necesita tinción, ya que los reactivos producen derivados coloreados y solo se requiere un análisis cualitativo. Por lo tanto, no es necesario eluir el aminoácido de la columna de cromatografía, solo compararlo con un estándar. Otra consideración a tener en cuenta es que, dado que cualquier grupo amina habrá reaccionado con el reactivo de marcaje, no se puede utilizar la cromatografía de intercambio iónico y, en su lugar, se debería utilizar la cromatografía en capa fina o la cromatografía líquida de alta presión .

Análisis de aminoácidos C-terminales

El número de métodos disponibles para el análisis de aminoácidos C-terminal es mucho menor que el número de métodos disponibles de análisis N-terminal. El método más común es agregar carboxipeptidasas a una solución de la proteína, tomar muestras a intervalos regulares y determinar el aminoácido terminal analizando un gráfico de concentraciones de aminoácidos contra el tiempo. Este método será muy útil en el caso de polipéptidos y N terminales bloqueados por proteínas. La secuenciación C-terminal ayudaría enormemente a verificar las estructuras primarias de proteínas predichas a partir de secuencias de ADN y a detectar cualquier procesamiento postraduccional de productos génicos a partir de secuencias de codones conocidas.

Degradación de Edman

La degradación de Edman es una reacción muy importante para la secuenciación de proteínas, porque permite descubrir la composición ordenada de aminoácidos de una proteína. Los secuenciadores de Edman automatizados se utilizan ahora ampliamente y son capaces de secuenciar péptidos de hasta aproximadamente 50 aminoácidos de longitud. A continuación se muestra un esquema de reacción para secuenciar una proteína mediante la degradación de Edman; algunos de los pasos se detallan posteriormente.

  1. Romper los puentes disulfuro en la proteína con un agente reductor como 2-mercaptoetanol . Puede ser necesario un grupo protector como el ácido yodoacético para evitar que se vuelvan a formar los enlaces.
  2. Separar y purificar las cadenas individuales del complejo proteico, si hay más de una.
  3. Determina la composición de aminoácidos de cada cadena.
  4. Determina los aminoácidos terminales de cada cadena.
  5. Rompa cada cadena en fragmentos de menos de 50 aminoácidos de longitud.
  6. Separar y purificar los fragmentos.
  7. Determina la secuencia de cada fragmento.
  8. Repite con un patrón diferente de escote.
  9. Construya la secuencia de la proteína general.

Digestión en fragmentos de péptidos.

Los péptidos con una longitud superior a aproximadamente 50-70 aminoácidos no se pueden secuenciar de forma fiable mediante la degradación de Edman. Debido a esto, las cadenas de proteínas largas deben romperse en pequeños fragmentos que luego se pueden secuenciar individualmente. La digestión se realiza mediante endopeptidasas como la tripsina o pepsina o mediante reactivos químicos como el bromuro de cianógeno . Diferentes enzimas dan diferentes patrones de escisión y la superposición entre fragmentos puede usarse para construir una secuencia general.

Reacción

El péptido a secuenciar se adsorbe sobre una superficie sólida. Un sustrato común es la fibra de vidrio recubierta con polibreno , un polímero catiónico . El reactivo de Edman, fenilisotiocianato (PITC), se agrega al péptido adsorbido, junto con una solución tampón ligeramente básica de trimetilamina al 12% . Este reacciona con el grupo amina del aminoácido N-terminal.

A continuación, el aminoácido terminal puede separarse selectivamente mediante la adición de ácido anhidro . A continuación, el derivado se isomeriza para dar una feniltiohidantoína sustituida , que puede lavarse e identificarse mediante cromatografía, y el ciclo puede repetirse. La eficacia de cada paso es de aproximadamente el 98%, lo que permite determinar de forma fiable unos 50 aminoácidos.

Una máquina de secuenciación de proteínas Beckman-Coulter Porton LF3000G

Secuenciador de proteínas

Un secuenciador de proteínas es una máquina que realiza la degradación de Edman de forma automatizada. Se inmoviliza una muestra de la proteína o péptido en el recipiente de reacción del secuenciador de proteínas y se realiza la degradación de Edman. Cada ciclo libera y deriva un aminoácido del terminal N de la proteína o péptido y el derivado de aminoácido liberado se identifica luego por HPLC. El proceso de secuenciación se realiza de forma repetida para todo el polipéptido hasta que se establece la secuencia medible completa o durante un número predeterminado de ciclos.

Identificación por espectrometría de masas

La identificación de proteínas es el proceso de asignar un nombre a una proteína de interés (POI), en función de su secuencia de aminoácidos. Normalmente, sólo es necesario determinar experimentalmente una parte de la secuencia de la proteína para identificar la proteína con referencia a las bases de datos de secuencias de proteínas deducidas de las secuencias de ADN de sus genes. La caracterización de proteínas adicional puede incluir la confirmación de los extremos N y C reales del POI, determinación de variantes de secuencia e identificación de cualquier modificación postraduccional presente.

Digestos proteolíticos

Se describe un esquema general para la identificación de proteínas.

  1. El POI se aísla, normalmente mediante SDS-PAGE o cromatografía .
  2. El POI aislado puede modificarse químicamente para estabilizar residuos de cisteína (por ejemplo, S-amidometilación o S-carboximetilación).
  3. El POI se digiere con una proteasa específica para generar péptidos. La tripsina , que se escinde selectivamente en el lado C-terminal de los residuos de lisina o arginina, es la proteasa más utilizada. Sus ventajas incluyen i) la frecuencia de residuos de Lys y Arg en las proteínas, ii) la alta especificidad de la enzima, iii) la estabilidad de la enzima y iv) la idoneidad de los péptidos trípticos para la espectrometría de masas.
  4. Los péptidos pueden desalar para eliminar contaminantes ionizables y someterse a espectrometría de masas MALDI-TOF . La medición directa de las masas de los péptidos puede proporcionar información suficiente para identificar la proteína (ver Huella digital de masas de péptidos ) pero a menudo se usa una mayor fragmentación de los péptidos dentro del espectrómetro de masas para obtener información sobre las secuencias de los péptidos. Alternativamente, los péptidos se pueden desalar y separar mediante HPLC de fase inversa e introducir en un espectrómetro de masas a través de una fuente de ESI . LC-ESI-MS puede proporcionar más información que MALDI-MS para la identificación de proteínas, pero utiliza más tiempo instrumental.
  5. Dependiendo del tipo de espectrómetro de masas, la fragmentación de iones peptídicos puede ocurrir a través de una variedad de mecanismos como la disociación inducida por colisión (CID) o la desintegración posterior a la fuente (PSD). En cada caso, el patrón de fragmentos de iones de un péptido proporciona información sobre su secuencia.
  6. La información que incluye la masa medida de los iones de péptidos putativos y los de sus iones de fragmentos se compara luego con los valores de masa calculados de la proteólisis conceptual (in silico) y la fragmentación de bases de datos de secuencias de proteínas. Se encontrará una coincidencia exitosa si su puntaje excede un umbral basado en los parámetros de análisis. Incluso si la proteína real no está representada en la base de datos, el emparejamiento tolerante a errores permite la identificación putativa de una proteína basada en la similitud con proteínas homólogas . Hay una variedad de paquetes de software disponibles para realizar este análisis.
  7. Los paquetes de software generalmente generan un informe que muestra la identidad (código de acceso) de cada proteína identificada, su puntuación de coincidencia y proporcionan una medida de la fuerza relativa de la coincidencia cuando se identifican varias proteínas.
  8. A menudo se usa un diagrama de los péptidos emparejados en la secuencia de la proteína identificada para mostrar la cobertura de la secuencia (% de la proteína detectada como péptidos). Cuando se piensa que el POI es significativamente más pequeño que la proteína emparejada, el diagrama puede sugerir si el POI es un fragmento N- o C-terminal de la proteína identificada.

Secuenciación de novo

El patrón de fragmentación de un péptido permite la determinación directa de su secuencia por de novo secuenciación . Esta secuencia puede usarse para emparejar bases de datos de secuencias de proteínas o para investigar modificaciones post-traduccionales o químicas. Puede proporcionar evidencia adicional para las identificaciones de proteínas realizadas como se indicó anteriormente.

N- y C-terminales

Los péptidos emparejados durante la identificación de la proteína no incluyen necesariamente los extremos N o C previstos para la proteína emparejada. Esto puede resultar de que los péptidos N- o C-terminales sean difíciles de identificar por MS (por ejemplo, que sean demasiado cortos o demasiado largos), que se modifiquen postraduccionalmente (por ejemplo, acetilación N-terminal) o que difieran genuinamente de la predicción. Las modificaciones postraduccionales o los extremos truncados pueden identificarse mediante un examen más detenido de los datos (es decir, secuenciación de novo ). También puede ser útil una digestión repetida usando una proteasa de diferente especificidad.

Modificaciones postraduccionales

Aunque se puede usar una comparación detallada de los datos de MS con predicciones basadas en la secuencia de proteína conocida para definir modificaciones postraduccionales, también se pueden usar enfoques dirigidos a la adquisición de datos. Por ejemplo, el enriquecimiento específico de fosfopéptidos puede ayudar a identificar los sitios de fosforilación en una proteína. Los métodos alternativos de fragmentación de péptidos en el espectrómetro de masas, como ETD o ECD , pueden proporcionar información de secuencia complementaria.

Determinación de masa total

La masa total de la proteína es la suma de las masas de sus residuos de aminoácidos más la masa de una molécula de agua y se ajusta para cualquier modificación postraduccional. Aunque las proteínas se ionizan menos bien que los péptidos derivados de ellas, una proteína en solución puede someterse a ESI-MS y medir su masa con una precisión de 1 parte en 20.000 o mejor. Esto suele ser suficiente para confirmar los extremos (por lo tanto, que la masa medida de la proteína coincide con la predicha a partir de su secuencia) e inferir la presencia o ausencia de muchas modificaciones postraduccionales.

Limitaciones

La proteólisis no siempre produce un conjunto de péptidos fácilmente analizables que cubren la secuencia completa de POI. La fragmentación de péptidos en el espectrómetro de masas a menudo no produce iones correspondientes a la escisión en cada enlace peptídico. Por tanto, la secuencia deducida para cada péptido no es necesariamente completa. Los métodos estándar de fragmentación no distinguen entre residuos de leucina e isoleucina porque son isoméricos.

Debido a que la degradación de Edman procede del N-terminal de la proteína, no funcionará si el N-terminal se ha modificado químicamente (por ejemplo, mediante acetilación o formación de ácido piroglutámico). La degradación de Edman generalmente no es útil para determinar las posiciones de los puentes disulfuro. También requiere cantidades de péptidos de 1 picomol o más para obtener resultados discernibles, lo que lo hace menos sensible que la espectrometría de masas .

Predicción a partir de secuencias de ADN / ARN

En biología, las proteínas se producen por traducción de ARN mensajero (ARNm) con la secuencia de proteínas derivada de la secuencia de codones en el ARNm. El propio ARNm se forma mediante la transcripción de genes y puede modificarse aún más. Estos procesos se comprenden lo suficiente como para utilizar algoritmos informáticos para automatizar las predicciones de secuencias de proteínas a partir de secuencias de ADN, como las de proyectos de secuenciación de ADN del genoma completo, y han llevado a la generación de grandes bases de datos de secuencias de proteínas como UniProt . Las secuencias de proteínas predichas son un recurso importante para la identificación de proteínas mediante espectrometría de masas.

Históricamente, las secuencias de proteínas cortas (de 10 a 15 residuos) determinadas por la degradación de Edman se retrotraducían en secuencias de ADN que podían usarse como sondas o cebadores para aislar clones moleculares del gen correspondiente o ADN complementario. A continuación, se determinó la secuencia del ADN clonado y se utilizó para deducir la secuencia completa de aminoácidos de la proteína.

Herramientas de bioinformática

Existen herramientas bioinformáticas para ayudar con la interpretación de espectros de masas (ver Secuenciación de péptidos de novo ), para comparar o analizar secuencias de proteínas (ver Análisis de secuencias ) o buscar bases de datos utilizando secuencias de péptidos o proteínas (ver BLAST ).

Ver también

Referencias

Otras lecturas

  • Steen H, Mann M (septiembre de 2004). "El ABC (y XYZ) de la secuenciación de péptidos". Nature Reviews Biología celular molecular . 5 (9): 699–711. doi : 10.1038 / nrm1468 . PMID  15340378 .