En ANBAN tratamos de fomentar el compartir conocimiento y aprendizajes entre soci@s. Es por ello que hemos iniciado en este nuevo curso un nuevo formato de debates donde los miembros de la comunidad de ANBAN, pueden compartir en un espacio seguro y abierto todo aquello relacionado con este mundo que nos apasiona: el mundo del Big Data.
En esta primera sesión, celebrada el 14 de Septiembre, un grupo de compañeras y compañeros pudimos debatir acerca de un tema de gran relevancia como es el uso de Excel como herramienta para Data Analysts y Data Scientist. Durante la sesión, los diferentes participantes explicaron las alternativas que emplean al tradicional Excel, con las cuales pueden generar productos de datos de una forma efectiva, dando valor a sus clientes en sus respectivas empresas.
El debate estuvo moderado por uno de nuestros socios, Gustavo Martin Morcuende, Data Platform Lead Engineer en Adevinta Spain.
A continuación, los principales takeaways del debate:
Marta Regina Cano Jiménez, Business Intelligence Director en Grupo Caja de Ingenieros:
- Con el lenguaje de programación R podemos hacer prácticamente cualquier cosa que nos propongamos de forma muy sencilla. Desde extracciones de bases de datos como pueden ser PostgreSQL, hasta presentaciones y gráficos mediante R Shiny
Juan Enrique Martínez Navarro, Ingeniero en Eurocontrol:
- Mediante una herramienta muy sencilla pero muy potente como KNIME industrializó el proceso de extracción de datos de fuentes como Alfresco y su procesado para generar resultados en PostgreSQL
Jaime Martínez Verdú, Analista de Datos en ClimateTrade:
- Nos presentó el proceso de transformación que llevó a cabo en uno de sus proyectos donde pasaron de usar Access a PostgreSQL
- Nos introdujo en el mundo del data quality al contarnos cómo implementó validaciones de datos de entrada en Access
- Actualmente implementa soluciones en AWS y ya no usa Excel si no Metabase con PostgreSQL
- Con Metabase ha logrado grandes mejoras y ahora puede implementar alertas de forma sencilla para avisar cuando hay algún problema con los datos o los procesos
Rodrigo Tanco Serrano, Global Media Data Analyst en Havas Media Group:
- Explicó cómo usando R puede consumir datos procedentes de archivos, hacer las pertinentes transformaciones y con R Shiny generar insights de valor para sus clientes
- Marta y Rodrigo estuvieron de acuerdo en que R es un lenguaje muy potente y acelera en gran medida a los Data Analysts y Data Scientists a hacer bien su trabajo.
Juan José Fuentes Gomis, Senior Data Engineer en Europcar Mobility Group:
- Nos explicó cómo usar Apache Airflow como herramienta de scheduling
- También nos hizo una breve introducción sobre cómo usa Apache Beam en sus pipelines y cómo almacena los resultados en un Data Lake implementado en AWS S3 y en BigQuery
- Aprendimos que podemos usar QlikSense para generar dashboards con insights de gran utilidad.
Gustavo Martín Morcuende, Data Platform Lead Engineer en Adevinta Spain:
- Explicó a alto nivel las diferentes piezas que componen la Data Platform que él y su equipo han construido en Adevinta Spain
- Entre otras piezas encontramos fuentes de datos con eventos en Kafka y bases de datos, almacenamiento en un Lakehouse en AWS S3 y un Data Warehouse en AWS Redshift, herramientas de scheduling como Apache Airflow y diferentes clusters implementados en Databricks entre otros muchos componentes
¿Eres un apasionado del dato y quieres participar en este tipo de debates? Clicando el botón verde te contamos cómo hacerte socio.
Add a Comment