XmlCsvBigConvert Project, objetivo #Bigquery

Hace unos días tuve que afrontar un desafío para procesar una cierta cantidad de archivos y portarlos #BigQuery para luego ejecutar algunas consultas a estos conjuntos de datos masivos.

El objetivo proponía utilizar el raw data de stack exchange propuesto en este [link]. Ahi comenzaron los problemas, los archivos inicialmente utilizan 7z como modelo de compresión. Pero esto es simple de resolver, ahora en su interior tenemos archivos xml y como #BigQuery ingiere datos en json o csv, primera barrera. El trabajo con json en primera instancia parecía razonable pero el trabajo sobre el esquema es una tarea laboriosa. Entonces el paso fue directo para procesar desde xml a csv. Hay varias opciones, pero para archivos pequeños.. el desafío final es trabajar con archivos de más de 2GB hay opciones de archivo de más de 10 GB.

Entonces aquí inicia la historia de  XmlCsvBigConvert, proyecto open source, en modo herramienta de consola desarrollado en #python que propone la rápida transformación de xml a cvs para grandes archivos.

Cargando ....
Actualmente trabaja según el modelo de estos archivos[link] utilizando como paso de conversión atributos de uno de los nodos del xml[repetitivo]. Ahora es el momento de colaborar como comunidad! Aquí este el desarrollo completo inicial.

Licencia Creative Commons
XmlCsvBigConvert Project, objetivo #Bigquery por Nicolas Bortolotti se distribuye bajo una Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.

Comentarios

Entradas más populares de este blog

Modelando relaciones en UML, un acercamiento a las Asociaciones

Utilizando Intents implícitos para crear actividades

Secuencias…Modelado indispensable