El CIS y los datos abiertos.

Este post tiene dos objetivos:

1.- Quejarme de la licencia de los datos del CIS.

2.- Mostrar como importar los datos de las encuestas del CIS en R sin necesidad de utilizar SPSS.

Licencia de los ficheros del CIS.

Como algunos sabrán, el Centro de Investigaciones Socialógicas (CIS) es un organismo público que depende del Ministerio de la Presidencia y es el encargado de realizar estudios de opinión bastante jugosos para el mundo periodístico. Es el caso de las encuestas preelectorales, el indicador de confianza del consumidor o sus archiconocidos barómetros mensuales.

Sin embargo, su protagonismo en este post no se debe a lo bueno y perfecto que es, sino a la licencia de los datos que genera y distribuye. Mea culpa, leerse la letra pequeña y las condiciones de usos es una mala práctica, si fuese como mucha gente estoy seguro que ganaría en “calidad de vida”. El hecho es que tengo previsto escribir en el futuro sobre los datos de CIS, pero antes que llegue ese momento me gustaría explicar ahora cuales son las razones por las que esos artículos tendrán algunas particularidades.

Pues bien,  os presento la licencia de los datos CIS.

Licencia CIS

Copyright.

Soy más de copyleft pero eso es el mal menor. Además, si me da por hacer comentario sangrante sobre esta trivialidad (aunque no es estrictamente ninguna trivialidad) daré pie a que algunos digan que soy un pirata. Por otra parte, tampoco quiero llamar la atención en esto cuando lo mejor viene a continuación.

“no podrán ser reproducidos o transmitidos, total o parcialmente, en ninguna forma ni por ningún medio electrónico, mecánico o de otro tipo”

Esta la parte estrella, sencillamente dice que no se me ocurra publicar un dataset del CIS en este blog. Lo que haré es muy simple, referencia a los datos en la web del CIS y listo. Además, también deberé tener cuidado de no publicar bloques de registros, etc.

“no podrá hacerse uso comercial de los datos suministrados ni cederlos a terceros por cualesquiera procedimientos de difusión”

No me afecta, al menos para el uso que haré de los mismos, y lo de cederlos me imagino que lo cumpliré si acato el punto anterior.

Importar datos de las encuestas del CIS en R sin requerir el SPSS.

Como no podré publicar el dataset en ningún formato debido a la licencia del CIS, lo que haré a continuación es explicar una alternativa para importar esos datos a R u otro software que pueda leer los archivos .sav.

Los ficheros en cuestión se distribuyen en formato ASCII. Este tipo de archivo tiene la dificultad de que para que pueda ser leído es necesario especificar el ancho de la columnas. A diferencia del INE, nadie del CIS se ha tomado la bendita libertad/molestia de generar un documento con esa información, en cambio, se quedan tan anchos proporcionando un script para SPSS con el que se puede realizar la lectura de los datos.

Estos no es ciencia ficción. ¿Sabe el CIS cuánto cuestan las licencia del SPSS?

Como no tengo dinero para una licencia de SPSS y tampoco soy de los que le gusta hacerse pasar por pirata, esto era un escollo. Lo primero que vino a la mente fue intentar traducir el código de SPSS a R, lo cual supone un trabajo descomunal y aunque existen algunas librerías que implementan un intérprete de SPSS en R, al final opté por una alternativa mucho más limpia. Consiste simplemente en utilizar PSPP, una imitación de SPSS pero open source y gratuito.

Si descargáis los datos del barómetro de octubre de 2015, dentro del zip encontraréis entre otros dos ficheros muy importantes para este ejemplo. Ninguno de los dos tiene extensión pero uno de ellos tiene el prefijo DA y el otro prefijo ES. El que tiene el prefijo DA es el que contiene los datos y el otro es el script de importación.

Lo primero que hay que hacer es darle la extensión .sps al script de SPSS. Ej: ES3114.sps.

El paso siguiente es abrir el archivo anterior con PSPP y editar la ruta del archivo de datos, está en la primera línea. Por experiencia sugiero poner la ruta completa y no la relativa. Ej:

DATA LIST FILE= 'ruta/MD3114/DA3114'

Lo que sigue es ejecutar el script y ya tendríamos los datos en el PSPP.  Solo faltaría guardarlo directamente como un archivo .sav para que posteriormente pueda ser importado a R con la función read.spss de la librería foreign o cualquier otra.

Hasta otra …

Un pensamiento en “El CIS y los datos abiertos.

  1. Pingback: Existen dos clases de personas … | Café con datos

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *