#DEBATEANBAN: DATA QUALITY, QUÉ ES Y CÓMO IMPLEMENTARLO

En una nueva edición de los debates de ANBAN, celebrada el 9 de noviembre, un grupo de socias y socios expertos en datos, se reunieron para discutir acerca de los desafíos que las empresas encaran a la hora de lograr que sus productos de datos tengan la máxima calidad. Muchas e interesantes ideas fueron compartidas durante las casi dos horas que duró el encuentro, desde gobernanza y cultura del dato, hasta herramientas para el cálculo de la calidad del dato.

En los próximos párrafos podrás encontrar un resumen, con algunos de los aspectos más interesantes debatidos durante el encuentro. En esta ocasión, el moderador fue Gustavo Martin Morcuende, Data Platform Lead Engineer en Adevinta Spain.

Comenzó el debate Miguel Esteve, Responsable Business Intelligence en Hinojosa Packaging Group. Miguel planteó cuestiones acerca de quiénes son los responsables de la calidad del dato, y qué sucede cuando los propietarios de los datos no quieren hacerse responsables de dicha calidad.

Marta Regina Cano Jiménez, Business Intelligence Director en Grupo Caja de Ingenieros, expuso la necesidad de definir una gobernanza a través de la cual se defina quién es el propietario de los datos. Sin este primer paso, es difícil que los analistas de datos puedan generar fácilmente modelos. Para Marta, es importante que toda la empresa esté alineada en la estrategia data driven, desde el director hasta el último empleado. Marta comentó: “no hay herramienta mágica para lograr una buena calidad de datos, los productores de los datos deben generar la información correcta”.

Ravi Rojas, Big Data Engineer en Integra International Services, planteó la cuestión acerca de qué hacer cuando los datos a procesar no son correctos. Desde el punto de vista del gobierno del dato, ¿qué habría que hacer con los datos malformados? Expuso como solución, el almacenar los datos erróneos en una zona de staging o cuarentena donde posteriormente los propietarios de los datos puedan acceder para corregirlos. Además indicó la necesidad de crear KPIs que sirvan para medir si la calidad de los datos mejora con el tiempo. Entre otras herramientas, Ravi recomendó Pandas, Polars y PySpark.

Manuel S. Lemos Foncubierta, Full Stack Engineer en BeDisruptive, expuso la necesidad de inculcar la cultura del dato allá donde sea necesario dentro de la empresa. Es necesario ir directamente a hablar con los productores de los datos, y hacerles entender los costes asociados debidos a no generar unos datos con buena calidad. No tiene sentido tener un grupo de ingenieros encargados de limpiar los datos, deben ser los propietarios de los datos los que se encarguen de ello. También compartió un caso de uso real, donde los costes de limpiar los datos eran mucho mayores que los de generar los datos correctamente. Un poco de data literacy y cultura del dato por parte de los productores de los datos puede suponer un gran cambio.

Sofía González Arias, Data Engineer en NTT Data y Event Management Director y Asturias Lead en ANBAN, compartió otro caso real, donde debido a la baja calidad de los datos almacenados, se tuvieron que implementar algoritmos para poder corregir estos datos antes de procesarlos. En este caso, se vieron obligados a invertir gran cantidad de tiempo en corregir la información generada por los propietarios del dato. Tiempo que no pudo ser empleado en generar modelos y crear productos de datos de valor. Como herramientas a utilizar propuso PySpark y el lenguaje SQL.

Laura Marqués, Head of Corporate Data & Analytics en Adevinta Spain, identificó la necesidad de especificar las dimensiones que permitan medir los KPIs relacionados con la calidad del dato. Introdujo algunas de estas dimensiones: precisión, consistencia, integridad, unicidad y completud. Laura también nos dió algunas sugerencias sobre cómo lograr convencer a los productores de los datos acerca de la importancia de generar datos con buena calidad, en concreto indicó la importancia de calcular la cantidad de dinero perdido si no se toman las medidas oportunas. En palabras de Laura: “hay que trasladar los problemas generados a dinero”. También indicó la necesidad de contar con las herramientas adecuadas para poder calcular esas dimensiones.

Cerró el debate Gustavo Martín Morcuende, recomendando como herramientas estándar Great Expectations, Soda Core y DBT. Además añadió la siguiente reflexión. Las empresas quieren sacar el máximo partido de sus datos pero para ello deben resolver previamente dos problemas. Un primer problema cultural: todos los datos producidos, tanto en el mundo operación como en el analítico, tienen que tener un propietario claro. Además los datos deben ser generados con una buena calidad. Por falta de cultura del dato, las empresas delegan toda la responsabilidad al mundo analítico. Un segundo problema tecnológico: en el mundo analítico, en muchas ocasiones se requiere un upskilling técnico que permita hacer uso de herramientas más cercanas al mundo del desarrollo software (como por ejemplo el uso de Python) que al mundo del Business Intelligence tradicional (puro SQL)

¿Eres un apasionado del dato y quieres participar en este tipo de debates? Aquí te contamos cómo hacerte socio:

¿Quieres hacerte socio?

Cookie	Duración	Descripción
_GRECAPTCHA	5 months 27 days	This cookie is set by Google. In addition to certain standard Google cookies, reCAPTCHA sets a necessary cookie (_GRECAPTCHA) when executed for the purpose of providing its risk analysis.
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-advertisement	1 year	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Advertisement".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
csrftoken	1 year	This cookie is associated with Django web development platform for python. Used to help protect the website against Cross-Site Request Forgery attacks
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
_gat	1 minute	This cookies is installed by Google Universal Analytics to throttle the request rate to limit the colllection of data on high traffic sites.
YSC	session	This cookies is set by Youtube and is used to track the views of embedded videos.

Cookie	Duración	Descripción
_ga	2 years	This cookie is installed by Google Analytics. The cookie is used to calculate visitor, session, campaign data and keep track of site usage for the site's analytics report. The cookies store information anonymously and assign a randomly generated number to identify unique visitors.
_gid	1 day	This cookie is installed by Google Analytics. The cookie is used to store information of how visitors use a website and helps in creating an analytics report of how the website is doing. The data collected including the number visitors, the source where they have come from, and the pages visted in an anonymous form.

Cookie	Duración	Descripción
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
test_cookie	15 minutes	This cookie is set by doubleclick.net. The purpose of the cookie is to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Duración	Descripción
CONSENT	16 years 9 months 3 days 6 hours 30 minutes	No description
G	1 year	No description
kampyle_userid	1 year	No description
kampyleSessionPageCounter	1 year	No description
kampyleUserSession	1 year	No description
kampyleUserSessionsCount	1 year	No description
mgref	1 year	No description

ANBAN

Add a Comment Cancelar la respuesta