#DEBATEANBAN: DATA QUALITY, QUÉ ES Y CÓMO IMPLEMENTARLO

En una nueva edición de los debates de ANBAN, celebrada el 9 de noviembre, un grupo de socias y socios expertos en datos, se reunieron para discutir acerca de los desafíos que las empresas encaran a la hora de lograr que sus productos de datos tengan la máxima calidad. Muchas e interesantes ideas fueron compartidas durante las casi dos horas que duró el encuentro, desde gobernanza y cultura del dato, hasta herramientas para el cálculo de la calidad del dato.

En los próximos párrafos podrás encontrar un resumen, con algunos de los aspectos más interesantes debatidos durante el encuentro. En esta ocasión, el moderador fue Gustavo Martin Morcuende, Data Platform Lead Engineer en Adevinta Spain. 

Comenzó el debate Miguel Esteve, Responsable Business Intelligence en Hinojosa Packaging Group. Miguel planteó cuestiones acerca de quiénes son los responsables de la calidad del dato, y qué sucede cuando los propietarios de los datos no quieren hacerse responsables de dicha calidad.

Marta Regina Cano Jiménez, Business Intelligence Director en Grupo Caja de Ingenieros, expuso la necesidad de definir una gobernanza a través de la cual se defina quién es el propietario de los datos. Sin este primer paso, es difícil que los analistas de datos puedan generar fácilmente modelos. Para Marta, es importante que toda la empresa esté alineada en la estrategia data driven, desde el director hasta el último empleado. Marta comentó: “no hay herramienta mágica para lograr una buena calidad de datos, los productores de los datos deben generar la información correcta”.

Ravi Rojas, Big Data Engineer en Integra International Services, planteó la cuestión acerca de qué hacer cuando los datos a procesar no son correctos. Desde el punto de vista del gobierno del dato, ¿qué habría que hacer con los datos malformados? Expuso como solución, el almacenar los datos erróneos en una zona de staging o cuarentena donde posteriormente los propietarios de los datos puedan acceder para corregirlos. Además indicó la necesidad de crear KPIs que sirvan para medir si la calidad de los datos mejora con el tiempo. Entre otras herramientas, Ravi recomendó Pandas, Polars y PySpark.

Manuel S. Lemos Foncubierta, Full Stack Engineer en BeDisruptive, expuso la necesidad de inculcar la cultura del dato allá donde sea necesario dentro de la empresa. Es necesario ir directamente a hablar con los productores de los datos, y hacerles entender los costes asociados debidos a no generar unos datos con buena calidad. No tiene sentido tener un grupo de ingenieros encargados de limpiar los datos, deben ser los propietarios de los datos los que se encarguen de ello. También compartió un caso de uso real, donde los costes de limpiar los datos eran mucho mayores que los de generar los datos correctamente. Un poco de data literacy y cultura del dato por parte de los productores de los datos puede suponer un gran cambio.

Sofía González Arias, Data Engineer en NTT Data y Event Management Director y Asturias Lead en ANBAN, compartió otro caso real, donde debido a la baja calidad de los datos almacenados, se tuvieron que implementar algoritmos para poder corregir estos datos antes de procesarlos. En este caso, se vieron obligados a invertir gran cantidad de tiempo en corregir la información generada por los propietarios del dato. Tiempo que no pudo ser empleado en generar modelos y crear productos de datos de valor. Como herramientas a utilizar propuso PySpark y el lenguaje SQL.

Laura Marqués, Head of Corporate Data & Analytics en Adevinta Spain, identificó la necesidad de especificar las dimensiones que permitan medir los KPIs relacionados con la calidad del dato. Introdujo algunas de estas dimensiones: precisión, consistencia, integridad, unicidad y completud. Laura también nos dió algunas sugerencias sobre cómo lograr convencer a los productores de los datos acerca de la importancia de generar datos con buena calidad, en concreto indicó la importancia de calcular la cantidad de dinero perdido si no se toman las medidas oportunas. En palabras de Laura: “hay que trasladar los problemas generados a dinero”.  También indicó la necesidad de contar con las herramientas adecuadas para poder calcular esas dimensiones.

Cerró el debate Gustavo Martín Morcuende, recomendando como herramientas estándar Great Expectations, Soda Core y DBT. Además añadió la siguiente reflexión. Las empresas quieren sacar el máximo partido de sus datos pero para ello deben resolver previamente dos problemas. Un primer problema cultural: todos los datos producidos, tanto en el mundo operación como en el analítico, tienen que tener un propietario claro. Además los datos deben ser generados con una buena calidad. Por falta de cultura del dato, las empresas delegan toda la responsabilidad al mundo analítico. Un segundo problema tecnológico: en el mundo analítico, en muchas ocasiones se requiere un upskilling técnico que permita hacer uso de herramientas más cercanas al mundo del desarrollo software (como por ejemplo el uso de Python) que al mundo del Business Intelligence tradicional (puro SQL)

¿Eres un apasionado del dato y quieres participar en este tipo de debates? Aquí te contamos cómo hacerte socio:


Tags: No tags

Add a Comment

Your email address will not be published. Required fields are marked *