Base de datos estructural de Cambridge - Cambridge Structural Database
Contenido | |
---|---|
Descripción | |
Contacto | |
Centro de Investigación | Centro de datos cristalográficos de Cambridge |
Acceso | |
Formato de datos | .cif |
Sitio web | |
URL del servicio web | www |
Herramientas | |
Web | WebCSD |
Ser único |
El Cambridge Structural Database ( CSD ) es a la vez un repositorio y un recurso validado y curada para los datos estructurales tridimensionales de moléculas que contienen generalmente al menos de carbono y de hidrógeno , que comprende una amplia gama de orgánico , de metal-orgánicos y organometálicos moléculas. Las entradas específicas son complementarias a las otras bases de datos cristalográficas como el Protein Data Bank (PDB), la Base de Datos de Estructura de Cristal Inorgánico y el Centro Internacional de Datos de Difracción . Los datos, normalmente obtenidos por cristalografía de rayos X y con menos frecuencia por difracción de electrones o difracción de neutrones , y enviados por cristalógrafos y químicos de todo el mundo, son de libre acceso (depositados por los autores) en Internet a través del sitio web de la organización matriz del CSD ( CCDC, repositorio). El CSD es supervisado por la empresa incorporada sin fines de lucro llamada Cambridge Crystallographic Data Center , CCDC.
El CSD es un repositorio ampliamente utilizado para los científicos de estructuras cristalinas orgánicas y metalorgánicas de moléculas pequeñas. Las estructuras depositadas en Cambridge Crystallographic Data Center (CCDC) están disponibles públicamente para su descarga en el punto de publicación o con el consentimiento del depositante. También se enriquecen científicamente y se incluyen en la base de datos que utiliza el software que ofrece el centro. Los subconjuntos específicos del CSD también están disponibles gratuitamente para apoyar la enseñanza y otras actividades.
Historia
El CCDC surgió de las actividades del grupo de cristalografía dirigido por Olga Kennard OBE FRS en el Departamento de Química Orgánica, Inorgánica y Teórica de la Universidad de Cambridge . A partir de 1965, el grupo comenzó a recopilar datos bibliográficos, químicos y de estructura cristalina publicados para todas las moléculas pequeñas estudiadas por difracción de rayos X o neutrones . Con el rápido desarrollo de la informática en este momento, esta colección se codificó en forma electrónica y se conoció como Cambridge Structural Database (CSD).
El CSD fue una de las primeras bases de datos científicas numéricas que comenzó a operar en cualquier parte del mundo y recibió becas académicas de la Oficina de Información Científica y Técnica del Reino Unido y luego del Consejo de Investigación de Ciencia e Ingeniería del Reino Unido . Estos fondos, junto con las subvenciones de los Centros Nacionales Afiliados, permitieron el desarrollo del CSD y su software asociado durante las décadas de 1970 y 1980. Los primeros lanzamientos del CSD System a los Estados Unidos, Italia y Japón ocurrieron a principios de la década de 1970. A principios de la década de 1980, el sistema CSD se distribuía en más de 30 países. A partir de 2014, el Sistema CSD se distribuyó a académicos en 70 países.
Durante la década de 1980, el interés en el Sistema de CSD por parte de las empresas farmacéuticas y agroquímicas aumentó significativamente. Esto llevó al establecimiento del Cambridge Crystallographic Data Center (CCDC) como una compañía independiente en 1987, con el estatus legal de una institución benéfica sin fines de lucro, y con sus operaciones supervisadas por una junta internacional de gobernadores. El CCDC se mudó a un local construido especialmente en el sitio del Departamento de Química de la Universidad en 1992.
Kennard se retiró como director en 1997 y fue sucedido por David Hartley (1997-2002) y Frank Allen (2002-2008). Colin Groom fue nombrado director ejecutivo desde el 1 de octubre de 2008 hasta septiembre de 2017. Y, más recientemente, Juergen Harter fue nombrado director ejecutivo en junio de 2018.
Los productos de software de la CCDC se diversificaron para el uso de datos cristalográficos en aplicaciones en las ciencias de la vida y la cristalografía. Gran parte de este desarrollo y marketing de software lo lleva a cabo CCDC Software Limited (fundada en 1998), una subsidiaria de propiedad absoluta que compromete todos sus beneficios con la CCDC.
Aunque la CCDC es una organización autoadministrada, mantiene estrechos vínculos con la Universidad de Cambridge y es una institución universitaria asociada que está calificada para capacitar a estudiantes de posgrado para títulos superiores (PhD, MPhil).
La CCDC estableció aplicaciones de EE. UU. Y operaciones de soporte en EE. UU. En octubre de 2013, inicialmente en Rutgers, la Universidad Estatal de Nueva Jersey , donde comparte su ubicación con el banco de datos de proteínas RCSB.
Contenido
El CSD se actualiza con alrededor de 50.000 estructuras nuevas cada año y con mejoras en las entradas existentes. Las entradas (estructuras) en el repositorio se liberan para el acceso público tan pronto como la entrada correspondiente ha aparecido en la literatura científica revisada por pares. Mientras tanto, los datos también se pueden depositar y publicar directamente a través del CSD sin un artículo científico adjunto, lo que se conoce como Comunicación CSD .
Periódicamente, se informan estadísticas generales sobre la amplitud de las existencias de DCV, por ejemplo, el informe de enero de 2014. A enero de 2019, las estadísticas resumidas son las siguientes:
Consulta | estructuras | % de CSD |
---|---|---|
# Total de estructuras | 995,907 | 100,0 |
# de diferentes compuestos | 900,984 | - |
# de fuentes de literatura | 2.004 | - |
Estructuras orgánicas | 431,037 | 43,5 |
Metal de transición presente | 478.138 | 48,2 |
presencia de metales alcalinos o alcalinotérreos | 48,056 | 4.8 |
presente de metal del grupo principal | 101,948 | 10,3 |
Coordenadas 3D presentes | 937,809 | 94,6 |
Coordenadas sin errores | 926,422 | 98,81 |
Estudios de neutrones | 2,142 | 0,2 |
Estudios de difracción de polvo | 4.761 | 0,5 |
Temperatura baja / alta estudios | 503,368 | 50,8 |
Configuración absoluta determinada | 28,834 | 2.9 |
Trastorno presente en la estructura | 256,019 | 25,8 |
Estructuras polimórficas | 29,817 | 3,0 |
Factor R <0,100 | 935,419 | 94,4 |
Factor R <0,075 | 845,708 | 85,3 |
Factor R <0.050 | 553,042 | 55,8 |
Factor R <0.030 | 121,806 | 12,3 |
No. de átomos con coordenadas 3D | 85,791,623 | - |
A enero de 2019, las 25 principales revistas científicas en términos de publicación de estructuras en el repositorio del CSD fueron:
- 1. Se reportaron 73,070 estructuras en Inorg. Chem.
- 2. Se informaron 62.072 estructuras en Dalton & J. Chem. Soc., Dalton Trans.
- 3. Se reportaron 54.160 estructuras en Organometallics
- 4. Se informaron 48.967 estructuras en J. Am. Chem. Soc.
- 5. Se informaron 42.422 estructuras en Acta Crystallogr. Secta. mi
- 6. Se informaron 32.610 estructuras en Chem. EUR. J.
- 7. Se informaron 29.790 estructuras en J. Organomet. Chem.
- 8. Se informaron 29.640 estructuras en Angew. Chem. En t. Ed.
- 9. Se informaron 28.682 estructuras en Inorg. Chim. Acta
- 10. Se informaron 28.351 estructuras en Chem. Comun. Y J. Chem. Soc.
- 11. Se informaron 27.328 estructuras en CSD Communications
- 12. Se reportaron 26.774 estructuras en Acta Crystallogr. Secta. C
- 13. Se informaron 26.734 estructuras en Poliedro.
- 14. Se reportaron 24.045 estructuras en Eur. J. Inorg. Chem.
- 15. Se informaron 23.483 estructuras en J. Org. Chem.
- 16. 22286 estructuras fueron reportados en Cryst. Crecimiento Des.
- 17. Se informaron 22.011 estructuras en CrystEngComm
- 18. Se reportaron 15.985 estructuras en Organic Letters
- 19. 15424 estructuras fueron reportados en Z. Anorg. Allg. Chem.
- 20. Se reportaron 14,864 estructuras en Acta Crystallogr. Secta. B
- 21. Se reportaron 13.909 estructuras en Tetraedro. 8.597 estructuras fueron reportadas como Comunicación Privada al CSD
- 22. Se informaron 12.734 estructuras en J. Mol. Struct.
- 23. Se reportaron 11.234 estructuras en Tetrahedron Lett.
- 24. Se reportaron 9.150 estructuras en Eur. J. Org. Chem.
- 25. Se informaron 8789 estructuras en New Journal of Chemistry
Estas 25 revistas suman 704.541 de las 996.193 o el 70,7% de las estructuras del CSD.
Estos datos muestran que la mayoría de las estructuras están determinadas por difracción de rayos X, con menos del 1% de las estructuras determinadas por difracción de neutrones o difracción de polvo . El número de coordenadas sin errores se tomó como un porcentaje de estructuras para las que están presentes coordenadas 3D en el CSD.
La importancia de los archivos de factores de estructura, mencionados anteriormente, es que, para las estructuras CSD determinadas por difracción de rayos X que tienen un archivo de estructura, un cristalógrafo puede verificar la interpretación de las medidas observadas.
Tendencia de crecimiento
Históricamente, el número de estructuras en el CSD ha crecido a un ritmo aproximadamente exponencial pasando el hito de 25.000 estructuras en 1977, el hito de 50.000 estructuras en 1983, el hito de 125.000 estructuras en 1992, el hito de 250.000 estructuras en 2001, el hito de 500.000 estructuras en 2009, y el hito de 1,000,000 de estructuras el 8 de junio de 2019. La millonésima estructura agregada a CSD es la estructura cristalina de 1- (7,9-diacetil-11-metil-6H-azepino [1,2-a] indol- 6-il) propan-2-ona.
Número de estructuras publicadas por año | ||
Año | # publicado | Total |
---|---|---|
2018 | 53429 | 974,653 |
2017 | 55031 | 921.224 |
2016 | 54975 | 866,193 |
2015 | 53610 | 811,218 |
2014 | 50759 | 757,608 |
2013 | 48025 | 706,849 |
2012 | 45199 | 661,121 |
2011 | 43882 | 615,922 |
2010 | 41240 | 572,040 |
2009 | 40627 | 530,800 |
2008 | 36802 | 490,173 |
2007 | 36569 | 453,371 |
2006 | 34713 | 416,802 |
2005 | 31733 | 382,089 |
2004 | 27988 | 350,356 |
2003 | 26287 | 322,368 |
2002 | 24306 | 296.081 |
2001 | 21781 | 271,775 |
2000 | 19998 | 249.994 |
1999 | 18780 | 229.996 |
1998 | 17289 | 211,216 |
1997 | 15896 | 193,927 |
1996 | 15487 | 178.031 |
1995 | 13001 | 162,544 |
1994 | 12290 | 149,543 |
1993 | 12032 | 137,253 |
1992 | 10691 | 125,221 |
1991 | 9941 | 114,530 |
1990 | 8935 | 104.589 |
1989 | 7750 | 95,654 |
1988 | 7644 | 87,904 |
1987 | 7472 | 80,260 |
1986 | 6873 | 72,788 |
1985 | 6911 | 65,915 |
1984 | 6511 | 59,004 |
1983 | 5250 | 52 493 |
mil novecientos ochenta y dos | 5233 | 47,243 |
1981 | 4666 | 42,010 |
1980 | 4252 | 37,344 |
1979 | 3876 | 33,092 |
1978 | 3415 | 29,216 |
1977 | 3092 | 25,801 |
1976 | 2735 | 22,709 |
1975 | 2171 | 19,974 |
1974 | 2142 | 17.803 |
1973 | 1991 | 15,661 |
1972 | 1969 | 13,670 |
1971 | 1548 | 11,701 |
1970 | 1261 | 10.153 |
1969 | 1130 | 8.892 |
1968 | 975 | 7.762 |
1967 | 936 | 6.787 |
1966 | 683 | 5.851 |
1965 | 656 | 5.168 |
1923-1964 | 4512 | 4.512 |
Nota: los datos de 1923-1964 se agregan en la última línea de la tabla.
Formato de archivo
El formato de archivo principal para la deposición de estructuras CSD, adoptado alrededor de 1991, es el formato "Archivo de información cristalográfica" , CIF.
Los archivos CSD depositados se pueden descargar en formato CIF. Los archivos CSD validados y seleccionados se pueden exportar en una amplia gama de formatos, incluidos CIF, MOL, Mol2, PDB, SHELX y XMol, utilizando herramientas del sistema CSD.
La CCDC utiliza dos códigos diferentes para distinguir entre el conjunto de datos depositado y la entrada de CSD seleccionada. Por ejemplo, una ' Comunicación CSD ' específica de una molécula orgánica se depositó en la CCDC y se le asignó el número de depósito 'CCDC-991327'. Esto permite el acceso público gratuito a los datos depositados. A partir de los datos depositados, se extrae la información seleccionada para preparar la entrada de CSD validada y curada a la que se le asignó el código de referencia 'MITGUT'. Como parte del proceso de selección, CCDC también aplica un algoritmo, DeCIFer, para ayudar a los editores a asignar química a las estructuras cuando esas representaciones (por ejemplo, tipos de enlaces y asignaciones de cargos, etc.) faltan en los archivos CIF originales enviados. La entrada validada y curada se incluye en las distribuciones del Sistema CSD y WebCSD, con disponibilidad restringida a aquellos que hacen las contribuciones apropiadas.
Ver los datos
Cada conjunto de datos en CSD se puede ver y recuperar abiertamente utilizando el servicio de estructura de acceso gratuito. A través de este servicio basado en navegador web, los usuarios pueden ver el conjunto de datos en 2D y 3D, obtener información básica sobre la estructura y descargar el conjunto de datos depositado. Las funciones de búsqueda más avanzadas e información curada están disponibles a través del sistema CSD basado en suscripción .
Además de usar el sistema CSD , los archivos de estructura se pueden ver usando uno de varios programas de computadora de código abierto como Jmol . Algunos otros programas gratuitos, pero no de código abierto, incluyen MDL Chime , Pymol , UCSF Chimera , Rasmol , WINGX, el CCDC ofrece una versión gratuita de su programa de visualización Mercury .
A partir de 2015, Mercury de CCDC también proporciona la funcionalidad para generar archivos listos para imprimir en 3D a partir de estructuras en CSD.
Ver también
Referencias
enlaces externos
- Centro de datos cristalográficos de Cambridge (CCDC) : sitio principal de CSD