debates_anban_1

#DebateANBAN: desafíos y alternativas al uso de Excel como herramienta para Data Analysts y Data Scientists

En ANBAN tratamos de fomentar el compartir conocimiento y aprendizajes entre soci@s. Es por ello que hemos iniciado en este nuevo curso un nuevo formato de debates donde los miembros de la comunidad de ANBAN, pueden compartir en un espacio seguro y abierto todo aquello relacionado con este mundo que nos apasiona: el mundo del Big Data.

En esta primera sesión, celebrada el 14 de Septiembre, un grupo de compañeras y compañeros pudimos debatir acerca de un tema de gran relevancia como es el uso de Excel como herramienta para Data Analysts y Data Scientist. Durante la sesión, los diferentes participantes explicaron las alternativas que emplean al tradicional Excel, con las cuales pueden generar productos de datos de una forma efectiva, dando valor a sus clientes en sus respectivas empresas.

El debate estuvo moderado por uno de nuestros socios, Gustavo Martin Morcuende, Data Platform Lead Engineer en Adevinta Spain.

A continuación, los principales takeaways del debate:

Marta Regina Cano Jiménez, Business Intelligence Director en Grupo Caja de Ingenieros:

  • Con el lenguaje de programación R podemos hacer prácticamente cualquier cosa que nos propongamos de forma muy sencilla. Desde extracciones de bases de datos como pueden ser PostgreSQL, hasta presentaciones y gráficos mediante R Shiny

Juan Enrique Martínez Navarro, Ingeniero en Eurocontrol:

  •  Mediante una herramienta muy sencilla pero muy potente como KNIME industrializó el proceso de extracción de datos de fuentes como Alfresco y su procesado para generar resultados en PostgreSQL

Jaime Martínez Verdú, Analista de Datos en ClimateTrade:

  •  Nos presentó el proceso de transformación que llevó a cabo en uno de sus proyectos donde pasaron de usar Access a PostgreSQL
  • Nos introdujo en el mundo del data quality al contarnos cómo implementó validaciones de datos de entrada en Access
  • Actualmente implementa soluciones en AWS y ya no usa Excel si no Metabase con PostgreSQL
  • Con Metabase ha logrado grandes mejoras y ahora puede implementar alertas de forma sencilla para avisar cuando hay algún problema con los datos o los procesos

Rodrigo Tanco Serrano, Global Media Data Analyst en Havas Media Group:

  •  Explicó cómo usando R puede consumir datos procedentes de archivos, hacer las pertinentes transformaciones y con R Shiny generar insights de valor para sus clientes
  • Marta y Rodrigo estuvieron de acuerdo en que R es un lenguaje muy potente y acelera en gran medida a los Data Analysts y Data Scientists a hacer bien su trabajo.

Juan José Fuentes Gomis, Senior Data Engineer en Europcar Mobility Group:

  •  Nos explicó cómo usar Apache Airflow como herramienta de scheduling
  • También nos hizo una breve introducción sobre cómo usa Apache Beam en sus pipelines y cómo almacena los resultados en un Data Lake implementado en AWS S3 y en BigQuery
  •  Aprendimos que podemos usar QlikSense para generar dashboards con insights de gran utilidad.

Gustavo Martín Morcuende, Data Platform Lead Engineer en Adevinta Spain:

  • Explicó a alto nivel las diferentes piezas que componen la Data Platform que él y su equipo han construido en Adevinta Spain
  • Entre otras piezas encontramos fuentes de datos con eventos en Kafka y bases de datos, almacenamiento en un Lakehouse en AWS S3 y un Data Warehouse en AWS Redshift, herramientas de scheduling como Apache Airflow y diferentes clusters implementados en Databricks entre otros muchos componentes

¿Eres un apasionado del dato y quieres participar en este tipo de debates? Clicando el botón verde te contamos cómo hacerte socio.


Tags: No tags

Add a Comment

Your email address will not be published. Required fields are marked *