El atractivo mundo de BigQuery y los datos abiertos

Antes de iniciar la descripción de este pequeño trabajo sobre datos abiertos y el poder de BigQuery, **quiero felicitar  a todos los involucrados en el proceso de liberación de datos, ya que el potencial de análisis que le dejan a la comunidad para análisis cruzados de información es invaluable. También a +Felipe Hoffa por su talento y por compartir su conocimiento con la comunidad. 

La idea de este análisis es tomar los datos 



Descargando los datos desde el portal de datos abiertos Presidencia de la Nación Mexico. http://datos.gob.mx

Para este análisis trabajaremos con los datasets de nacimientos del 2008-2013 (6 datasets en promedio csv de 1.3 GB)










Si queremos manipular rápidamente estos conjuntos de datos, lo ideal es usar el poder de Compute Engine y la conexión de estos equipo ultra rápida. 

Entonces desde una VM de Compute, descargo los archivos.






Comando:
wget http://www.dgis.salud.gob.mx/descargas/datosabiertos/sinac_2008.zip

Luego tendremos que utilizar la herramienta BQ para interactuar con BigQuery y hacer la carga de estos datos. Para realizar esta operación debemos utilizar un parámetro de load, pero dentro del formato de recepción no tenemos zip. Así que hacemos la conversión rápida.
  • unzip sinac_2008.zip
  • gzip SINAC_2008.csv
Ahora solo nos queda implementar el comando para hacer el load a BigQuery:

bq load --skip_leading_rows 1 mexico_open_data.sinac_2008 SINAC_2008.csv.gz "ENTIDAD_NACMAD","MUNICIPIO_NACMAD","FECH_NACM","ESTADO_CIVIL","ENTIDAD_RESMAD","MPO_RESMAD","LOC_RESMAD","NUMERO_EMBARAZOS","NACIDOS_MUERTOS","NACIDOS_VIVOS","SOBREVIVIENTES","ANTERIOR_NACIO","VIVE_AUN","ORDEN_NAC","ATENCION_PRENA","TRIMESTR_ATEN","CONSULTAS","SOBREVIVIO_PARTO","DERECHOHABIENCIA",....


Hice un corte del esquema para que no se tan compleja su lectura.




He realizado la carga de los 6 conjuntos de datos y luego los relacioné todos en un solo dataset. sinac_2008_2013

Ahora a divertirnos con las consultas!
Tenemos un conjunto de como 12.6 MM de filas y unos 6.9 GB.
Pregunta inicial:

¿Donde nacen los bebés con mayor talla de México por estado?

SELECT AVG(TALLAH), ENTIDAD_CERTIF
FROM
[mexico_open_data.sinac_2008_2013]
Group by 2
ORDER BY 1 DESC




¿Tu respuesta fue SINALOA? En solo unos segundos personalmente pude conocer mucho más de México.

Ahora les queda todo el poder de los datos en sus manos.. que otras preguntas podemos trabajar con este conjunto de datos?

Importante: Si quieren pueden consultar directamente sobre este conjunto de datos, desde BigQuery para optimizar el tiempo y demostrar que la comunidad en conjunto trabaja mejor!

Espero les sea de utilidad!
Creative Commons License
El atractivo mundo de BigQuery y los datos abiertos is licensed under a Creative Commons Attribution 4.0 International License.
Based on a work at nbortolotti.blogspot.com/2014/09/el-atractivo-mundo-de-bigquery-y-los.html.

Comentarios

Entradas más populares de este blog

Modelando relaciones en UML, un acercamiento a las Asociaciones

Utilizando Intents implícitos para crear actividades

Secuencias…Modelado indispensable