Modelado de homología - Homology modeling

Modelo de homología de la proteína DHRS7B creado con el modelo suizo y renderizado con PyMOL

El modelado de homología , también conocido como modelado comparativo de proteínas, se refiere a la construcción de un modelo de resolución atómica de la proteína " diana " a partir de su secuencia de aminoácidos y una estructura tridimensional experimental de una proteína homóloga relacionada (la " plantilla "). El modelado de homología se basa en la identificación de una o más estructuras proteicas conocidas que probablemente se asemejen a la estructura de la secuencia de consulta y en la producción de una alineación que mapea residuos en la secuencia de consulta con residuos en la secuencia molde, se ha demostrado que las estructuras de proteínas están más conservadas que las secuencias de proteínas entre los homólogos, pero las secuencias que caen por debajo de un 20% de identidad de secuencia pueden tener una estructura muy diferente.

Las proteínas relacionadas evolutivamente tienen secuencias similares y las proteínas homólogas de origen natural tienen una estructura proteica similar. Se ha demostrado que la estructura de la proteína tridimensional está evolutivamente más conservada de lo que cabría esperar basándose únicamente en la conservación de la secuencia.

La alineación de la secuencia y la estructura de la plantilla se utilizan luego para producir un modelo estructural del objetivo. Debido a que las estructuras de las proteínas están más conservadas que las secuencias de ADN, los niveles detectables de similitud de secuencia generalmente implican una similitud estructural significativa.

La calidad del modelo de homología depende de la calidad de la alineación de la secuencia y la estructura de la plantilla. El enfoque puede complicarse por la presencia de huecos de alineación (comúnmente llamados indeles) que indican una región estructural presente en el objetivo pero no en la plantilla, y por huecos de estructura en la plantilla que surgen de una mala resolución en el procedimiento experimental (generalmente X -cristalografía de rayos ) que se utiliza para resolver la estructura. La calidad del modelo disminuye al disminuir la identidad de secuencia ; un modelo típico tiene una desviación cuadrática media de ~ 1–2 Å entre los átomos de C α emparejados con una identidad de secuencia del 70%, pero solo una concordancia de 2-4 Å con una identidad de secuencia del 25%. Sin embargo, los errores son significativamente mayores en las regiones de bucle, donde las secuencias de aminoácidos de las proteínas objetivo y molde pueden ser completamente diferentes.

Las regiones del modelo que se construyeron sin una plantilla, generalmente mediante modelado de bucle , son generalmente mucho menos precisas que el resto del modelo. Los errores en el empaque y la posición de la cadena lateral también aumentan con la disminución de la identidad, y se ha sugerido que las variaciones en estas configuraciones de empaque son una de las principales razones de la mala calidad del modelo con baja identidad. En conjunto, estos diversos errores de posición atómica son importantes e impiden el uso de modelos de homología para fines que requieren datos de resolución atómica, como el diseño de fármacos y las predicciones de interacción proteína-proteína ; incluso la estructura cuaternaria de una proteína puede ser difícil de predecir a partir de modelos de homología de su (s) subunidad (s). Sin embargo, los modelos de homología pueden ser útiles para llegar a conclusiones cualitativas sobre la bioquímica de la secuencia de consulta, especialmente para formular hipótesis sobre por qué se conservan ciertos residuos, lo que a su vez puede conducir a experimentos para probar esas hipótesis. Por ejemplo, la disposición espacial de los residuos conservados puede sugerir si un residuo particular se conserva para estabilizar el plegamiento, para participar en la unión de alguna molécula pequeña o para fomentar la asociación con otra proteína o ácido nucleico.

El modelado de homología puede producir modelos estructurales de alta calidad cuando el objetivo y la plantilla están estrechamente relacionados, lo que ha inspirado la formación de un consorcio de genómica estructural dedicado a la producción de estructuras experimentales representativas para todas las clases de pliegues de proteínas. Las principales inexactitudes en el modelado de homología, que empeoran con una menor identidad de secuencia , se derivan de errores en la alineación de secuencia inicial y de una selección inadecuada de la plantilla. Al igual que otros métodos de predicción de estructuras, la práctica actual en el modelado de homología se evalúa en un experimento bienal a gran escala conocido como Evaluación crítica de técnicas para la predicción de estructuras de proteínas, o CASP .

Motivo

El método de modelado de homología se basa en la observación de que la estructura terciaria de la proteína se conserva mejor que la secuencia de aminoácidos . Por tanto, incluso las proteínas que han divergido apreciablemente en la secuencia pero que aún comparten una similitud detectable también compartirán propiedades estructurales comunes, particularmente el pliegue general. Debido a que es difícil y requiere mucho tiempo obtener estructuras experimentales a partir de métodos como la cristalografía de rayos X y la RMN de proteínas para cada proteína de interés, el modelado de homología puede proporcionar modelos estructurales útiles para generar hipótesis sobre la función de una proteína y dirigir el trabajo experimental adicional.

Hay excepciones a la regla general de que las proteínas que comparten una identidad de secuencia significativa compartirán un pliegue. Por ejemplo, un conjunto de mutaciones elegidas con criterio de menos del 50% de una proteína puede hacer que la proteína adopte un pliegue completamente diferente. Sin embargo, es poco probable que se produzca un reordenamiento estructural tan masivo en la evolución , especialmente porque la proteína suele estar bajo la restricción de que debe plegarse correctamente y realizar su función en la célula. En consecuencia, la estructura aproximadamente plegada de una proteína (su "topología") se conserva durante más tiempo que su secuencia de aminoácidos y mucho más que la secuencia de ADN correspondiente; en otras palabras, dos proteínas pueden compartir un pliegue similar incluso si su relación evolutiva es tan distante que no se puede discernir de manera confiable. A modo de comparación, la función de una proteína se conserva mucho menos que la secuencia de la proteína, ya que se requieren relativamente pocos cambios en la secuencia de aminoácidos para asumir una función relacionada.

Pasos en la producción de modelos

El procedimiento de modelado de homología se puede dividir en cuatro pasos secuenciales: selección de la plantilla, alineación de la plantilla objetivo, construcción del modelo y evaluación del modelo. Los dos primeros pasos a menudo se realizan esencialmente juntos, ya que los métodos más comunes de identificación de plantillas se basan en la producción de alineaciones de secuencia; sin embargo, estas alineaciones pueden no tener la calidad suficiente porque las técnicas de búsqueda en la base de datos priorizan la velocidad sobre la calidad de la alineación. Estos procesos se pueden realizar de forma iterativa para mejorar la calidad del modelo final, aunque todavía se están desarrollando evaluaciones de calidad que no dependen de la verdadera estructura objetivo.

Optimizar la velocidad y precisión de estos pasos para su uso en la predicción de estructuras automatizadas a gran escala es un componente clave de las iniciativas de genómica estructural, en parte porque el volumen de datos resultante será demasiado grande para procesarlo manualmente y en parte porque el objetivo de la genómica estructural requiere proporcionar modelos de calidad razonable para los investigadores que no son expertos en predicción de estructuras.

Selección de plantilla y alineación de secuencia

El primer paso crítico en el modelado de homología es la identificación de la mejor estructura de plantilla, si es que hay alguna disponible. El método más simple de identificación de plantillas se basa en alineamientos de secuencia por pares en serie con la ayuda de técnicas de búsqueda en bases de datos como FASTA y BLAST . Los métodos más sensibles basados ​​en la alineación de secuencias múltiples , de los cuales PSI-BLAST es el ejemplo más común, actualizan iterativamente su matriz de puntuación específica de la posición para identificar sucesivamente homólogos relacionados más lejanamente. Se ha demostrado que esta familia de métodos produce un mayor número de plantillas potenciales e identifica mejores plantillas para secuencias que sólo tienen relaciones distantes con cualquier estructura resuelta. El enhebrado de proteínas , también conocido como reconocimiento de pliegues o alineación 3D-1D, también se puede usar como una técnica de búsqueda para identificar plantillas que se usarán en los métodos tradicionales de modelado de homología. Experimentos recientes de CASP indican que algunos métodos de enhebrado de proteínas como RaptorX son de hecho más sensibles que los métodos puramente basados ​​en secuencia (perfil) cuando solo están disponibles plantillas relacionadas lejanamente para las proteínas bajo predicción. Cuando se realiza una búsqueda BLAST, un primer enfoque confiable es identificar aciertos con un valor E suficientemente bajo , que se consideran lo suficientemente cercanos en la evolución para hacer un modelo de homología confiable. Otros factores pueden inclinar la balanza en casos marginales; por ejemplo, la plantilla puede tener una función similar a la de la secuencia de consulta, o puede pertenecer a un operón homólogo . Sin embargo, generalmente no se debe elegir una plantilla con un valor E deficiente , incluso si es la única disponible, ya que puede tener una estructura incorrecta, lo que lleva a la producción de un modelo equivocado. Un mejor enfoque es enviar la secuencia primaria a servidores de reconocimiento de pliegues o, mejor aún, metaservidores de consenso que mejoran los servidores de reconocimiento de pliegues individuales al identificar similitudes (consenso) entre predicciones independientes.

A menudo, estos enfoques identifican varias estructuras de plantillas candidatas. Aunque algunos métodos pueden generar modelos híbridos con mayor precisión a partir de varias plantillas, la mayoría de los métodos se basan en una única plantilla. Por lo tanto, elegir la mejor plantilla entre los candidatos es un paso clave y puede afectar significativamente la precisión final de la estructura. Esta elección está guiada por varios factores, como la similitud de las secuencias de la consulta y la plantilla, de sus funciones y de las estructuras secundarias de la consulta predicha y la plantilla observada . Quizás lo más importante es la cobertura de las regiones alineadas: la fracción de la estructura de la secuencia de consulta que se puede predecir a partir de la plantilla y la plausibilidad del modelo resultante. Por lo tanto, a veces se producen varios modelos de homología para una única secuencia de consulta, y el candidato más probable se elige solo en el paso final.

Es posible utilizar la alineación de secuencia generada por la técnica de búsqueda en la base de datos como base para la producción posterior del modelo; sin embargo, también se han explorado enfoques más sofisticados. Una propuesta genera un conjunto de alineaciones por pares definidas estocásticamente entre la secuencia objetivo y una única plantilla identificada como un medio de explorar el "espacio de alineación" en regiones de secuencia con baja similitud local. Alineaciones de "perfil-perfil" que primero generan un perfil de secuencia del objetivo y lo comparan sistemáticamente con los perfiles de secuencia de estructuras resueltas; Se cree que el granulado grueso inherente a la construcción del perfil reduce el ruido introducido por la deriva de secuencia en regiones no esenciales de la secuencia.

Generación de modelos

Dada una plantilla y una alineación, la información contenida en ella debe usarse para generar un modelo estructural tridimensional del objetivo, representado como un conjunto de coordenadas cartesianas para cada átomo de la proteína. Se han propuesto tres clases principales de métodos de generación de modelos.

Ensamblaje de fragmentos

El método original de modelado de homología se basó en el ensamblaje de un modelo completo a partir de fragmentos estructurales conservados identificados en estructuras resueltas estrechamente relacionadas. Por ejemplo, un estudio de modelado de serina proteasas en mamíferos identificó una clara distinción entre las regiones estructurales "centrales" conservadas en todas las estructuras experimentales de la clase y las regiones variables típicamente ubicadas en los bucles donde se localizaron la mayoría de las diferencias de secuencia. Por tanto, las proteínas no disueltas podrían modelarse construyendo primero el núcleo conservado y luego sustituyendo las regiones variables de otras proteínas en el conjunto de estructuras resueltas. Las implementaciones actuales de este método difieren principalmente en la forma en que tratan las regiones que no se conservan o que carecen de plantilla. Las regiones variables a menudo se construyen con la ayuda de bibliotecas de fragmentos .

Coincidencia de segmento

El método de emparejamiento de segmentos divide el objetivo en una serie de segmentos cortos, cada uno de los cuales se empareja con su propia plantilla ajustada del Protein Data Bank . Por tanto, la alineación de secuencias se realiza sobre segmentos en lugar de sobre toda la proteína. La selección de la plantilla para cada segmento se basa en la similitud de secuencia, las comparaciones de las coordenadas del carbono alfa y los conflictos estéricos predichos que surgen de los radios de van der Waals de los átomos divergentes entre el objetivo y la plantilla.

Satisfacción de las limitaciones espaciales

El método de modelado de homología actual más común se inspira en los cálculos necesarios para construir una estructura tridimensional a partir de datos generados por espectroscopía de RMN . Se utilizan una o más alineaciones de plantilla objetivo para construir un conjunto de criterios geométricos que luego se convierten en funciones de densidad de probabilidad para cada restricción. Las restricciones aplicadas a las principales proteínas coordenadas internas - backbone proteína distancias y ángulos diedros - sirven como base para una optimización global procedimiento que se utilizó originalmente gradiente conjugado minimización de la energía de forma iterativa refinar las posiciones de todos los átomos pesados en la proteína.

Este método se ha expandido drásticamente para aplicarse específicamente al modelado de bucles, que puede ser extremadamente difícil debido a la alta flexibilidad de los bucles en las proteínas en solución acuosa. Una expansión más reciente aplica el modelo de restricción espacial a mapas de densidad electrónica derivados de estudios de microscopía crioelectrónica , que proporcionan información de baja resolución que no suele ser suficiente en sí misma para generar modelos estructurales de resolución atómica. Para abordar el problema de las inexactitudes en la alineación inicial de la secuencia objetivo-plantilla, también se ha introducido un procedimiento iterativo para refinar la alineación sobre la base del ajuste estructural inicial. El software más comúnmente utilizado en el modelado basado en restricciones espaciales es MODELLER y se ha establecido una base de datos llamada ModBase para generar modelos confiables con él.

Modelado de bucle

Las regiones de la secuencia objetivo que no están alineadas con una plantilla se modelan mediante un modelo de bucle ; son los más susceptibles a errores de modelado importantes y ocurren con mayor frecuencia cuando el objetivo y la plantilla tienen una baja identidad de secuencia. Las coordenadas de las secciones no emparejadas determinadas por los programas de modelado de bucles son generalmente mucho menos precisas que las que se obtienen simplemente copiando las coordenadas de una estructura conocida, particularmente si el bucle tiene más de 10 residuos. Los primeros dos ángulos diedros de la cadena lateral (χ 1 y χ 2 ) generalmente se pueden estimar dentro de los 30 ° para una estructura de la columna vertebral precisa; sin embargo, los ángulos diedros posteriores que se encuentran en cadenas laterales más largas, como la lisina y la arginina, son notoriamente difíciles de predecir. Además, pequeños errores en χ 1 (y, en menor medida, en χ 2 ) pueden causar errores relativamente grandes en las posiciones de los átomos en el extremo de la cadena lateral; dichos átomos a menudo tienen una importancia funcional, particularmente cuando se encuentran cerca del sitio activo .

Evaluación del modelo

La evaluación de modelos de homología sin referencia a la verdadera estructura objetivo se realiza generalmente con dos métodos: potenciales estadísticos o cálculos de energía basados ​​en la física. Ambos métodos producen una estimación de la energía (o un análogo similar a la energía) para el modelo o modelos que se evalúan; Se necesitan criterios independientes para determinar los límites aceptables. Ninguno de los dos métodos se correlaciona excepcionalmente bien con la verdadera precisión estructural, especialmente en los tipos de proteínas subrepresentados en la AP , como las proteínas de membrana .

Los potenciales estadísticos son métodos empíricos basados ​​en las frecuencias de contacto residuo-residuo observadas entre proteínas de estructura conocida en el AP. Asignan una puntuación de probabilidad o energía a cada posible interacción por pares entre aminoácidos y combinan estas puntuaciones de interacción por pares en una única puntuación para todo el modelo. Algunos de estos métodos también pueden producir una evaluación de residuo por residuo que identifique las regiones con puntuación deficiente dentro del modelo, aunque el modelo puede tener una puntuación general razonable. Estos métodos enfatizan el núcleo hidrofóbico y los aminoácidos polares expuestos al solvente que a menudo se encuentran en las proteínas globulares . Ejemplos de potenciales estadísticos populares incluyen Prosa y DOPE . Los potenciales estadísticos son más eficientes computacionalmente que los cálculos de energía.

Los cálculos de energía basados ​​en la física tienen como objetivo capturar las interacciones interatómicas que son físicamente responsables de la estabilidad de las proteínas en solución, especialmente las interacciones de van der Waals y electrostáticas . Estos cálculos se realizan utilizando un campo de fuerza de mecánica molecular ; las proteínas son normalmente demasiado grandes incluso para cálculos semiempíricos basados ​​en la mecánica cuántica . El uso de estos métodos se basa en la hipótesis del paisaje energético del plegamiento de proteínas, que predice que el estado nativo de una proteína es también su energía mínima. Dichos métodos suelen emplear solvatación implícita , que proporciona una aproximación continua de un baño de disolvente para una única molécula de proteína sin necesidad de la representación explícita de moléculas de disolvente individuales. Un campo de fuerza construido específicamente para la evaluación del modelo se conoce como el campo de fuerza efectivo (EFF) y se basa en parámetros atómicos de CHARMM .

Se puede obtener un informe de validación de modelo muy extenso utilizando el software "What Check" de Radboud Universiteit Nijmegen , que es una opción del paquete de software "What If" de Radboud Universiteit Nijmegen ; produce un documento de muchas páginas con análisis extensos de casi 200 aspectos científicos y administrativos del modelo. "What Check" está disponible como servidor gratuito ; También se puede utilizar para validar estructuras de macromoléculas determinadas experimentalmente.

Un método más nuevo para la evaluación de modelos se basa en técnicas de aprendizaje automático , como las redes neuronales , que pueden entrenarse para evaluar la estructura directamente o para formar un consenso entre múltiples métodos estadísticos y basados ​​en energía. Los resultados que utilizaron la regresión de la máquina de vectores de soporte en un jurado de métodos de evaluación más tradicionales superaron a los métodos estadísticos, basados ​​en energía y de aprendizaje automático comunes.

Métodos de comparación estructural

La evaluación de la precisión de los modelos de homología es sencilla cuando se conoce la estructura experimental. El método más común de comparar dos estructuras de proteínas utiliza la métrica de la desviación cuadrática media (RMSD) para medir la distancia media entre los átomos correspondientes en las dos estructuras después de que se hayan superpuesto. Sin embargo, RMSD subestima la precisión de los modelos en los que el núcleo está esencialmente modelado correctamente, pero algunas regiones de bucle flexible son inexactas. Un método introducido para el experimento de evaluación de modelos CASP se conoce como prueba de distancia global (GDT) y mide el número total de átomos cuya distancia desde el modelo a la estructura experimental se encuentra por debajo de un cierto límite de distancia. Ambos métodos se pueden usar para cualquier subconjunto de átomos en la estructura, pero a menudo se aplican solo a los átomos de la cadena principal del carbono alfa o de la proteína para minimizar el ruido creado por estados rotámeros de cadena lateral mal modelados , que la mayoría de los métodos de modelado no están optimizados para predecir.

Benchmarking

Se han realizado varios esfuerzos de evaluación comparativa a gran escala para evaluar la calidad relativa de varios métodos de modelado de homología actuales. CASP es un experimento de predicción para toda la comunidad que se ejecuta cada dos años durante los meses de verano y desafía a los equipos de predicción a presentar modelos estructurales para una serie de secuencias cuyas estructuras se han resuelto recientemente de forma experimental pero aún no se han publicado. Su socio CAFASP se ha ejecutado en paralelo con CASP, pero evalúa solo los modelos producidos a través de servidores totalmente automatizados. Los experimentos en ejecución continua que no tienen "temporadas" de predicción se centran principalmente en la evaluación comparativa de los servidores web disponibles públicamente. LiveBench y EVA se ejecutan continuamente para evaluar el rendimiento de los servidores participantes en la predicción de estructuras liberadas inminentemente desde la PDB. CASP y CAFASP sirven principalmente como evaluaciones del estado del arte en modelación, mientras que las evaluaciones continuas buscan evaluar la calidad del modelo que obtendría un usuario no experto empleando herramientas disponibles públicamente.

Precisión

La precisión de las estructuras generadas por el modelado de homología depende en gran medida de la identidad de secuencia entre el objetivo y la plantilla. Por encima del 50% de identidad de secuencia, los modelos tienden a ser confiables, con solo errores menores en el empaquetamiento de la cadena lateral y el estado rotámero , y un RMSD general entre la estructura modelada y experimental que cae alrededor de 1 Å . Este error es comparable a la resolución típica de una estructura resuelta por RMN. En el rango de identidad del 30 al 50%, los errores pueden ser más graves y, a menudo, se encuentran en bucles. Por debajo del 30% de identidad, se producen errores graves, que a veces resultan en una predicción errónea del pliegue básico. Esta región de baja identidad se denomina a menudo la "zona crepuscular" dentro de la cual el modelado de homología es extremadamente difícil y para la que posiblemente sea menos adecuado que los métodos de reconocimiento de pliegues .

En identidades de secuencia alta, la fuente principal de error en el modelado de homología deriva de la elección de la plantilla o plantillas en las que se basa el modelo, mientras que las identidades más bajas exhiben errores graves en la alineación de secuencia que inhiben la producción de modelos de alta calidad. Se ha sugerido que el principal impedimento para la producción de modelos de calidad son las deficiencias en la alineación de secuencias, ya que las alineaciones estructurales "óptimas" entre dos proteínas de estructura conocida pueden utilizarse como entrada a los métodos de modelado actuales para producir reproducciones bastante precisas de la estructura experimental original.

Se han hecho intentos para mejorar la precisión de los modelos de homología construidos con métodos existentes sometiéndolos a simulación de dinámica molecular en un esfuerzo por mejorar su RMSD a la estructura experimental. Sin embargo, las parametrizaciones actuales del campo de fuerza pueden no ser lo suficientemente precisas para esta tarea, ya que los modelos de homología utilizados como estructuras de partida para la dinámica molecular tienden a producir estructuras ligeramente peores. Se han observado ligeras mejoras en los casos en los que se utilizaron restricciones importantes durante la simulación.

Fuentes de error

Las dos fuentes de error más comunes y a gran escala en el modelado de homología son la mala selección de la plantilla y las inexactitudes en la alineación de la secuencia objetivo-plantilla. Controlar estos dos factores mediante el uso de una alineación estructural , o una alineación de secuencia producida sobre la base de la comparación de dos estructuras resueltas, reduce drásticamente los errores en los modelos finales; estas alineaciones "estándar de oro" se pueden utilizar como entrada a los métodos de modelado actuales para producir reproducciones bastante precisas de la estructura experimental original. Los resultados del experimento CASP más reciente sugieren que los métodos de "consenso" que recopilan los resultados de múltiples búsquedas de reconocimiento y alineación aumentan la probabilidad de identificar la plantilla correcta; De manera similar, el uso de múltiples plantillas en el paso de construcción del modelo puede ser peor que el uso de la única plantilla correcta, pero mejor que el uso de una única subóptima. Los errores de alineación pueden minimizarse mediante el uso de una alineación múltiple incluso si se usa solo una plantilla, y mediante el refinamiento iterativo de las regiones locales de baja similitud. Una fuente menor de errores del modelo son los errores en la estructura de la plantilla. La base de datos PDBREPORT enumera varios millones de errores, en su mayoría muy pequeños pero ocasionalmente dramáticos, en estructuras experimentales (plantilla) que se han depositado en la AP .

Pueden surgir errores locales graves en modelos de homología en los que una mutación de inserción o deleción o un hueco en una estructura resuelta dan como resultado una región de secuencia diana para la que no existe una plantilla correspondiente. Este problema se puede minimizar mediante el uso de múltiples plantillas, pero el método se complica por las diferentes estructuras locales de las plantillas alrededor de la brecha y por la probabilidad de que una región faltante en una estructura experimental también falte en otras estructuras de la misma familia de proteínas. . Las regiones faltantes son más comunes en bucles donde una alta flexibilidad local aumenta la dificultad de resolver la región mediante métodos de determinación de estructura. Aunque el posicionamiento de los extremos de la región faltante proporciona alguna guía incluso con una sola plantilla, cuanto más largo es el espacio, más difícil es modelarlo. Los bucles de hasta aproximadamente 9 residuos se pueden modelar con precisión moderada en algunos casos si la alineación local es correcta. Las regiones más grandes a menudo se modelan individualmente utilizando técnicas de predicción de estructura ab initio , aunque este enfoque solo ha tenido un éxito aislado.

Los estados rotámeros de las cadenas laterales y su disposición de empaquetamiento interno también presentan dificultades en el modelado de homología, incluso en blancos para los que la estructura de la columna vertebral es relativamente fácil de predecir. Esto se debe en parte al hecho de que muchas cadenas laterales en estructuras cristalinas no están en su estado rotamerico "óptimo" como resultado de factores energéticos en el núcleo hidrofóbico y en el empaquetamiento de las moléculas individuales en un cristal de proteína. Un método para abordar este problema requiere buscar en una biblioteca rotámera para identificar combinaciones de estados de empaquetamiento localmente de baja energía. Se ha sugerido que una de las principales razones por las que el modelado de homología es tan difícil cuando la identidad de la secuencia objetivo-molde se encuentra por debajo del 30% es que tales proteínas tienen pliegues muy similares pero disposiciones de empaquetamiento de cadenas laterales muy divergentes.

Utilidad

Usos de los modelos estructurales incluyen la predicción de proteína-proteína interacción , de acoplamiento proteína-proteína , acoplamiento molecular , y la anotación funcional de genes identificados en de un organismo genoma . Incluso los modelos de homología de baja precisión pueden ser útiles para estos fines, porque sus inexactitudes tienden a ubicarse en los bucles en la superficie de la proteína, que normalmente son más variables incluso entre proteínas estrechamente relacionadas. Las regiones funcionales de la proteína, especialmente su sitio activo , tienden a estar más conservadas y, por lo tanto, modeladas con mayor precisión.

Los modelos de homología también se pueden utilizar para identificar diferencias sutiles entre proteínas relacionadas que no se han resuelto todas estructuralmente. Por ejemplo, el método se utilizó para identificar sitios de unión de cationes en la ATPasa Na + / K + y para proponer hipótesis sobre la afinidad de unión de diferentes ATPasas. Utilizados junto con simulaciones de dinámica molecular , los modelos de homología también pueden generar hipótesis sobre la cinética y la dinámica de una proteína, como en los estudios de la selectividad iónica de un canal de potasio . Se ha intentado el modelado automatizado a gran escala de todas las regiones codificantes de proteínas identificadas en un genoma para la levadura Saccharomyces cerevisiae , lo que ha dado como resultado casi 1000 modelos de calidad para proteínas cuyas estructuras aún no se habían determinado en el momento del estudio e identificando nuevas relaciones. entre 236 proteínas de levadura y otras estructuras previamente resueltas.

Ver también

Referencias