Stata - Stata

Stata
Stata logo med blue.png
Interfaz grande wwwsa.png
Stata 17 en Windows
Autor (es) original (es) William Gould
Desarrollador (es) StataCorp
Versión inicial 1985 ( 1985 )
Lanzamiento estable
17.0 / 20 de abril de 2021 ; hace 4 meses (20 de abril de 2021 )
Escrito en C
Sistema operativo Windows , macOS , Linux
Escribe análisis estadístico
Licencia Propiedad
Sitio web www .stata .com

Stata ( / s t t ə / , STAY -ta , alternativamente / s t æ t ə / , de vez en cuando estilizado como STATA) es una de propósito general estadístico paquete de software desarrollado por StataCorp para la manipulación de datos, visualización, estadísticas, y informes automatizados. Es utilizado por investigadores en muchos campos, incluidos la economía , la sociología , las ciencias políticas , la biomedicina y la epidemiología .

Stata fue desarrollada inicialmente por Computing Resource Center en California y la primera versión fue lanzada en 1985. En 1993, la compañía se mudó a College Station, TX y pasó a llamarse Stata Corporation, ahora conocida como StataCorp. Un lanzamiento importante en 2003 incluyó un nuevo sistema de gráficos y cuadros de diálogo para todos los comandos. Desde entonces, se ha lanzado una nueva versión una vez cada dos años. La versión actual es Stata 17, lanzada en abril de 2021.

Terminología y descripción técnica

Interfaz de usuario

Desde su creación, Stata siempre ha empleado una interfaz de línea de comandos integrada. A partir de la versión 8.0, Stata ha incluido una interfaz gráfica de usuario basada en el marco Qt que usa menús y cuadros de diálogo para dar acceso a muchos comandos integrados. El conjunto de datos se puede ver o editar en formato de hoja de cálculo. A partir de la versión 11, se pueden ejecutar otros comandos mientras se abre el navegador o el editor de datos.

Estructura y almacenamiento de datos

Hasta el lanzamiento de la versión 16, Stata solo podía abrir un único conjunto de datos a la vez. Stata permite flexibilidad para asignar tipos de datos a los datos. Su compresscomando reasigna automáticamente datos a tipos de datos que ocupan menos memoria sin pérdida de información. Stata utiliza tipos de almacenamiento de enteros que ocupan solo uno o dos bytes en lugar de cuatro, y la precisión simple (4 bytes) en lugar de la precisión doble (8 bytes) es el valor predeterminado para los números de punto flotante .

El formato de datos de Stata es siempre tabular . Stata se refiere a las columnas de datos tabulares como variables.

Compatibilidad de formato de datos

Stata puede importar datos en una variedad de formatos. Esto incluye formatos de datos ASCII (como CSV o formatos de banco de datos ) y formatos de hojas de cálculo (incluidos varios formatos de Excel ).

Los formatos de archivo patentados de Stata han cambiado con el tiempo, aunque no todas las versiones de Stata incluyen un nuevo formato de conjunto de datos. Cada versión de Stata puede leer todos los formatos de conjuntos de datos más antiguos y puede escribir tanto el formato de conjunto de datos actual como el más reciente, usando el saveoldcomando. Por lo tanto, la versión actual de Stata siempre puede abrir conjuntos de datos que se crearon con versiones anteriores, pero las versiones anteriores no pueden leer conjuntos de datos de formato más nuevo.

Stata puede leer y escribir conjuntos de datos en formato SAS XPORT de forma nativa, utilizando los comandos fdause y fdasave .

Algunas otras aplicaciones econométricas , incluido gretl , pueden importar directamente formatos de archivo Stata.

Historia

Orígenes

El desarrollo de Stata comenzó en 1984, inicialmente por William (Bill) Gould y luego por Sean Becketti. Originalmente, el software estaba destinado a competir con programas estadísticos para computadoras personales como SYSTAT y MicroTSP . Stata se escribió, entonces como ahora, en el lenguaje de programación C , inicialmente para PC que ejecutan el sistema operativo DOS . La primera versión fue lanzada en 1985 con 44 comandos.

Tabla: Comandos en Stata 1.0 y Stata 1.1
adjuntar dir en archivo trama carrete
bip hacer aporte consulta resumir
por soltar etiqueta regreso tabular
capturar borrar lista rebautizar prueba
confirmar Salida macro reemplazar escribe
convertir expandir unir correr usar
correlación formato modificar ahorrar
contar generar más colocar
describir ayuda archivar clasificar

Desarrollo

Ha habido 17 versiones principales de Stata entre 1985 y 2021, y actualizaciones adicionales de código y documentación entre las versiones principales. En sus primeros años, a veces se vendían conjuntos adicionales de programas Stata como "kits" o se distribuían como discos de soporte. Con el lanzamiento de Stata 6 en 1999, updatelos correos electrónicos comenzaron a entregarse a los usuarios a través de la web. La versión inicial de Stata fue para el sistema operativo DOS . Desde entonces, se han lanzado versiones de Stata para sistemas que ejecutan variantes de Unix como distribuciones de Linux , Windows y MacOS . Todos los archivos de Stata son independientes de la plataforma.

Se han agregado cientos de comandos a Stata en sus 36 años de historia. Ciertos desarrollos han demostrado ser particularmente importantes y continúan dando forma a la experiencia del usuario en la actualidad, incluida la extensibilidad , la independencia de la plataforma y la comunidad de usuarios activa .

Extensibilidad

El programcomando se implementó en Stata 1.2, lo que brinda a los usuarios la posibilidad de agregar sus propios comandos. ado-files siguió en Stata 2.1, lo que permite que un programa escrito por el usuario se cargue automáticamente en la memoria. Muchos archivos ado-escritos por usuarios se envían al [Archivo de componentes de software estadístico] alojado por Boston College. StataCorp agregó un ssccomando para permitir que los programas contribuidos por la comunidad se agreguen directamente dentro de Stata. Las ediciones más recientes de Stata permiten a los usuarios llamar scripts de Python y R usando comandos, así como también permiten que los IDE de Python como Jupyter Notebooks importen comandos de Stata.

Comunidad de usuarios

La comunidad activa de usuarios de Stata inició una serie de desarrollos importantes. El Boletín técnico de Stata , que a menudo contiene comandos creados por el usuario, se presentó en 1991 y se emitió seis veces al año. Fue relanzado en 2001 como el Stata Journal revisado por pares , una publicación trimestral que contiene descripciones de comandos contribuidos por la comunidad y consejos para el uso efectivo de Stata. En 1994, un listserv comenzó como un centro para que los usuarios resolvieran en colaboración problemas técnicos y de codificación; en 2014, se convirtió en un foro web. En 1995, Statacorp comenzó a organizar conferencias de usuarios y desarrolladores que se reúnen anualmente. StataCorp solo organiza la Conferencia anual de Stata que se lleva a cabo en los Estados Unidos. Otras reuniones de grupos de usuarios se llevan a cabo anualmente en los Estados Unidos (la Conferencia de Stata), el Reino Unido, Alemania e Italia, y con menos frecuencia en varios otros países. Los distribuidores locales de Stata organizan reuniones de grupos de usuarios en sus propios países.

Tabla: Lanzamientos y desarrollo de Stata
Versión Fecha de lanzamiento Seleccionar funciones nuevas o mejoradas
1.0 Enero de 1985
  • Versión inicial
  • Cuarenta y cuatro comandos
1.1 Febrero de 1985
  • Corrección de errores
1.2 Mayo de 1985
  • Nuevo sistema de menú
  • Mejor ayuda en línea
  • keep
1.3 Agosto de 1985
  • Stata / Gráficos
  • program
1.4 Agosto de 1986
  • Nueva documentación
  • Formateado infile
1,5 Febrero de 1987
  • anova
  • logit, probit
2.0 Junio ​​de 1988
  • Nuevos gráficos
  • Variables de cadena
  • Análisis de supervivencia: Cox y Kaplan-Meier
  • Regresión escalonada
2.1 Septiembre de 1990
  • Variables de bytes
  • Análisis factorial
  • ado-archivos
  • reshape
3,0 Marzo de 1992
  • logistic, ologit, oprobit, clogit,mlogit
  • tobit, cnreg, rreg, qreg, weibull,ereg
  • epitab
  • pweights
3.1 Agosto de 1993
  • mvreg, sureg, heckman, nlreg, areg,canon
  • nbreg
  • regresión lineal restringida
  • ml
  • codebook
4.0 Enero de 1995
  • xtreg
  • glm
5,0 Octubre de 1996
  • xtgee, xtprobit
  • prais, newey,intreg
  • comandos de estimación de encuestas
  • fracpoly
  • st extendido
6.0 Enero de 1999
  • consciente de la web
  • nuevo ml
  • operadores de series de tiempo
  • arima, arch
  • st reescrito
7.0 Diciembre de 2000
  • frailty
  • xtabond
  • análisis de conglomerados
  • nlogit
  • roc
  • SMCL
8.0 Enero de 2003
  • gráficos
  • GUI extendida, cuadros de diálogo disponibles para todos los comandos
  • manova
  • más encuesta
  • más series de tiempo (VAR, SVAR)
  • más internalización GLLAMM
8.1 Julio de 2003
  • actualizado ml
8.2 Octubre de 2003
  • cambios gráficos
9.0 Abril de 2005
  • lenguaje de programación mata matrix
  • características de la encuesta
  • modelos lineales mixtos
  • modelos probit multinominales
9.1 Septiembre de 2005
9.2 Abril de 2006
10.0 Junio ​​de 2007
  • editor de gráficos
  • modelos logísticos y de Poisson con componentes de error complejos y anidados
10.1 Agosto de 2008
11,0 Julio de 2009
  • variables de factor
  • margins comando postestimation
  • imputación múltiple
11,1 Junio ​​de 2010
11,2 Marzo de 2011
12,0 Julio de 2011
  • gestión automática de memoria
  • modelos de ecuaciones estructurales
12,1 Enero de 2012
13,0 Junio ​​del 2013
  • cuerdas largas
  • efectos del tratamiento
13,1 octubre 2013
14.0 Abril de 2015
  • soporte Unicode
  • análisis estadístico bayesiano
14,1 Octubre de 2015
14,2 Septiembre de 2016
15.0 Junio ​​de 2017
  • análisis de clases latentes
  • Documentos PDF y Word
  • transparencia u opacidad del color en los gráficos
15,1 Noviembre de 2017
16,0 Junio ​​de 2019
  • marcos (múltiples conjuntos de datos en la memoria)
  • regresión de lazo
  • informes automatizados
  • modelos de elección actualizados
16,1 Febrero de 2020
17.0 Abril de 2021
  • tablescomando actualizado
  • econometría bayesiana

Productos de software

Hay cuatro versiones de Stata: Stata / MP, Stata / SE, Stata / BE y Numerics de Stata. Mientras que Stata / MP permite el procesamiento paralelo integrado de ciertos comandos, Stata / SE y Stata / BE tienen cuellos de botella y limitan el uso a un solo núcleo. Stata / MP ejecuta ciertos comandos aproximadamente 2.4 veces más rápido, aproximadamente el 60% de la eficiencia máxima teórica, cuando se ejecutan procesos paralelos en cuatro núcleos de CPU en comparación con las versiones SE o BE. Numerics by Stata permite la integración web de los comandos de Stata.

Las versiones SE y BE difieren en la cantidad de memoria que pueden utilizar los conjuntos de datos. Aunque Stata / MP puede almacenar de 10 a 20 mil millones de observaciones y hasta 120,000 variables, Stata / SE y Stata / BE almacenan hasta 2,14 mil millones de observaciones y manejan 32,767 variables y 2,048 variables respectivamente. El número máximo de variables independientes en un modelo es 65.532 variables en Stata / MP, 10.998 variables en Stata / SE y 798 variables en Stata / BE.

Los precios y las licencias de Stata dependen del uso previsto: empresarial, gubernamental / sin fines de lucro, educación o estudiante. Las licencias de usuario único son renovables anualmente o perpetuas. Otros tipos de licencias incluyen una licencia única para uso por usuarios concurrentes, una licencia de sitio, un solo usuario por volumen para precios masivos o un laboratorio para estudiantes.

Código de ejemplo

El siguiente conjunto de comandos gira en torno a la gestión de datos simple.

sysuse auto                 // Open the included auto dataset
browse                      // Browse the dataset (opens the Data Editor window)

describe                    // Describes the dataset and associated variables
summarize                   // Summary information about numerical variables

codebook make foreign       // Summary information about the make (string) and foreign (numeric) variables

browse if missing(rep78)    // Browse only observations with missing data for variable rep78
list make if missing(rep78) // List makes of the cars with missing data for variable rep78

El siguiente conjunto de comandos pasa a la estadística descriptiva.

summarize price, detail          // Detailed summary statistics for variable price

tabulate foreign                 // One-way frequency table for variable foreign
tabulate rep78 foreign, row      // Two-way frequency table for variables rep78 and foreign

summarize mpg if foreign == 1    // Summary information about mpg if the car is foreign (the "==" sign tests for equality)
by foreign, sort: summarize mpg  // As above, but using the "by" prefix.
tabulate foreign, summarize(mpg) // As above, but using the tabulate command.

Una simple prueba de hipótesis:

ttest mpg, by(foreign) // T-test for difference in means for domestic vs. foreign cars

Graficar datos:

twoway (scatter mpg weight)                     // Scatter plot showing relationship between mpg and weight
twoway (scatter mpg weight), by(foreign, total) // Three graphs for domestic, foreign, and all cars

Regresión lineal:

generate wtsq = weight^2                      // Create a new variable for weight squared
regress mpg weight wtsq foreign, vce(robust)  // Linear regression of mpg on weight, wtsq, and foreign
predict mpghat                                // Create a new variable contained the predicted values of mpg
twoway (scatter mpg weight) (line mpghat weight, sort), by(foreign) // Graph data and fitted line
Gráficos de regresión del conjunto de datos automático en Stata 17

Ver también

Referencias

Otras lecturas

enlaces externos