3 Visualización de datos


Palabras clave: - Marco de datos - Noticias televisivas - Paquete de celosía - Finanzas de salud - Función de gráfico

La presentación visual de datos y los resultados de los modelos se ha convertido en una pieza central del análisis político moderno. Muchas de las principales revistas de Ciencias Políticas, incluida la Revista Estadounidense de Ciencias Políticas, ahora solicitan gráficas en lugar de tablas siempre que ambas puedan transmitir la misma información. De hecho, Kastellec y Leoni (2007) argumentan que las gráficas transmiten resultados empíricos mejor que las tablas. Cleveland (1993) y Tufte (2001) escribió dos de los volúmenes principales que describen los elementos de una buena visualización cuantitativa, y Yau (2011) ha producido una versión más reciente de la representación gráfica. Básicamente, estos trabajos sirven como manuales de estilo para gráficos5. Más allá de las sugerencias que estos académicos ofrecen por el bien de los lectores, ver los propios datos visualmente transmite información sustancial sobre las características univariadas, bivariadas y multivariadas de los datos: ¿Una variable parece sesgada? ¿Parecen correlacionarse sustancialmente dos variables? ¿Cuál es la relación funcional adecuada entre variables? ¿Cómo cambia una variable en el espacio o en el tiempo? Responder estas preguntas por uno mismo como analista y por el lector en general puede elevar la calidad del análisis presentado a la disciplina.

En el límite de este movimiento gráfico en el análisis cuantitativo, R ofrece visualización de modelos y datos de última generación. Muchos de los programas estadísticos comerciales han intentado durante años ponerse al día con las capacidades gráficas de R . Este capítulo muestra estas capacidades, pasando primero a la función plot que está disponible automáticamente como parte del paquete base. En segundo lugar, analizamos algunos de los otros comandos de gráficos que se ofrecen en la biblioteca base. Finalmente, pasamos a la biblioteca lattice (o celosía), que permite al usuario crear Trellis Graphics, un marco de visualización desarrollado por Becker, Cleveland y otros para poner las sugerencias de Cleveland (1993) en la práctica. Aunque el espacio no lo permite aquí, también se anima a los usuarios a buscar los paquetes ggplot2, que ofrecen opciones de gráficos adicionales. Chang (2013), en particular, ofrece varios ejemplos de gráficos con ggplot2.

En este capítulo, trabajamos con dos conjuntos de datos de ejemplo. El primero es sobre el cabildeo en salud en los 50 estados estadounidenses, con un enfoque específico en la proporción de empresas de la industria financiera de la salud que están registradas para cabildear (Lowery et al. 2008). Una variable de predicción clave es el número total de firmas financieras de salud abiertas al público, que incluye organizaciones que brindan planes de salud, servicios comerciales, coaliciones de empleadores de salud y seguros. El conjunto de datos también incluye la tasa de participación de los grupos de presión por estado, o el número de grupos de presión como una proporción del número de empresas, no solo en el financiamiento de la salud sino para todas las empresas relacionadas con la salud y en otras seis subáreas. Estos son datos transversales del año 1997. La lista completa de variables es la siguiente:

  • stno: Índice numérico de 1 a 50 que ordena los estados alfabéticamente.
  • raneyfolded97: Índice de Ranney plegado de la competencia estatal bipartita en 19976.
  • healthagenda97: Número de proyectos de ley relacionados con la salud considerados por la legislatura estatal en 1997.
  • supplybusiness: Número de establecimientos de financiación sanitaria.
  • businesssupplysq: Número de establecimientos de financiación sanitaria al cuadrado.
  • partratebusness: Tasa de participación en el lobby para el financiamiento de la salud: número de registros como porcentaje del número de establecimientos.
  • predecirbuspartrate: Predicción de la tasa de participación en el financiamiento de la salud como función cuadrática del número de establecimientos de financiamiento de la salud. (Sin variables de control en la predicción).
  • partratetotalhealth: Tasa de participación en el lobby para toda la atención médica (incluidas siete subáreas).
  • partratedpc: Tasa de participación en el lobby para la atención directa al paciente.
  • partratepharmprod: Tasa de participación en el lobby de medicamentos y productos sanitarios.
  • partrateprofessionals: Tasa de participación de los profesionales de la salud en el lobby.
  • partrateadvo: Tasa de participación del lobby para la promoción de la salud.
  • partrategov: Tasa de participación en el lobby del gobierno local.
  • rnmedschoolpartrate: Tasa de participación de los grupos de presión para la educación sanitaria.

En segundo lugar, analizamos las de Peake y Eshbaugh-Soha (2008) datos sobre el número de noticias de televisión relacionadas con la política energética en un mes determinado. En este marco de datos, las variables son: - Date: Vector de caracteres del mes y año observado. - Energy: Número de historias relacionadas con la energía transmitidas en los noticieros de televisión nocturnos por mes. - Unemploy: La tasa de desempleo por mes. - Approval: Aprobación presidencial por mes. - oilc: Precio del petróleo por barril. - freeze1: Variable indicadora codificada con 1 durante los meses de agosto a noviembre de 1971, cuando se impusieron congelaciones de precios y salarios. Codificado 0 en caso contrario. - freeze2: Variable indicadora codificada con 1 durante los meses de junio a julio de 1973, cuando se impusieron los precios, salarios y congelaciones de precios. Codificado 0 en caso contrario. - embargo: Una variable indicadora codificada con 1 durante los meses de octubre de 1973 a marzo de 1974, durante el embargo petrolero árabe. Codificado 0 en caso contrario. - rehenes: Una variable indicadora codificada con 1 durante los meses de noviembre de 1979 a enero de 1981, durante la crisis de los rehenes en Irán. Codificado 0 en caso contrario. - Presidential speeches: Los indicadores adicionales se codifican como 1 durante el mes en que un presidente pronunció un discurso importante sobre política energética y 0 en caso contrario. Los indicadores de los discursos respectivos se denominan: rmn1173, rmn1173a, grf0175, grf575, grf575a, jec477, jec1177, jec479, grf0175s, jec479s y jec477s.


  1. Otras figuras históricas particularmente clave en el desarrollo de medidas gráficas incluyen Halley (1686), Juega limpio (1786/2005) y Tukey (1977). Beniger y Robyn presentan una historia más completa (1978).↩︎

  2. Nebraska y Carolina del Norte son observaciones faltantes del índice de Ranney.↩︎