4 Estadísticas descriptivas


Palabras clave: - Variable del indicador - Tendencia central - Marco de datos - Tabla de frecuencia - Desviación absoluta mediana

Antes de desarrollar cualquier modelo con un conjunto de datos o intentar extraer alguna inferencia a partir de un conjunto de datos, el usuario primero debe tener una idea de las características de los datos. Esto se puede lograr mediante los métodos de visualización de datos descritos en el Cap. 3 , así como a través de estadísticas descriptivas de la tendencia central y la dispersión de una variable, descritas en este capítulo. Idealmente, el usuario realizará ambas tareas, independientemente de si los resultados se convierten en parte del producto final publicado. Una recomendación tradicional para los analistas que estiman funciones como los modelos de regresión es que la primera tabla del artículo debe describir las estadísticas descriptivas de todas las variables de entrada y la variable de resultado. Si bien algunas revistas han dejado de utilizar el escaso espacio impreso en las tablas de estadísticas descriptivas, un buen analista de datos siempre creará esta tabla por sí mismo. Con frecuencia, esta información puede al menos incluirse en apéndices en línea, si no en la versión impresa del artículo.

A medida que trabajamos con estadísticas descriptivas, el ejemplo de trabajo en este capítulo serán datos centrados en políticas de LaLonde (1986) análisis de la Demostración Nacional de Trabajo Apoyado, un programa de la década de 1970 que ayudó a los desempleados de larga duración a encontrar trabajos en el sector privado y cubrió los costos laborales de su empleo durante un año. Las variables en este marco de datos son: - treated: Variable indicadora de si el participante recibió el tratamiento. - age: Medido en años. - education: Años de educación. - black: Variable indicadora de si el participante es afroamericano. - married: Variable indicadora de si el participante está casado. - nodegree: Variable indicadora de no poseer título de bachillerato. - re74: Ganancias reales en 1974. - re75: Ganancias reales en 1975. - re78: Ganancias reales en 1978. - hispanic: Variable indicadora de si el participante es hispano. - u74: Variable indicadora de desempleados en 1974. - u75: Variable indicadora de desempleados en 1975.