Mario De Francisco de DAMA España y de Anjana Data desmitificará el concepto de DATAOps en su ponencia en el Data Management Summit 2020
El “claustro” de ponentes se cierra hoy con otro profesional que va a participar con su ponencia dentro del evento más importante del Data Management. Por primera vez un foro intenta enfocar el Data Management en su totalidad, desde la governance, pasando por la seguridad, el cloud, el machine learning, la virtualización de datos y mucho más. Hoy presentamos a Mario de Francisco Ruiz, CEO de Anjana Data y Responsable del Grupo de Trabajo de Gobierno del Dato y Metadatos de DAMA España.
Háblanos un poco de ti de tu trayectoria profesional
Soy maño, ingeniero y emprendedor. Estudié Teleco en la Universidad de Zaragoza y el último año de mi carrera lo pasé en Suecia donde descubrí los años de ventaja que nos llevan en muchas cosas, pero también todo lo bueno que tenemos en España y que no solemos valorar. Volví a Zaragoza y comencé mi carrera profesional en una start-up de telemedicina recién montada, en la cual, buscando adentrarme en el mundo de la bioingeniería que descubrí en Suecia, acabé sin saberlo encontrándome con mi primera experiencia real trabajando con datos. Junto con mi compi de batallas, nos pasamos un año desarrollando un algoritmo en Matlab basado en regresión logística que lograba predecir con bastante acierto la obesidad infantil en niños adolescentes sólo con unas pocas medidas antropométricas que se le debían tomar durante los 3 primeros años de vida. Dentro de esta start-up, poco a poco me fui moviendo hacia funciones más de desarrollo de negocio (sin dejar de lado la tecnología porque era lo nuestro) y descubrí que eso era realmente lo mío, así que, después del primer intento emprendedor fallido (la start-up acabó cerrando), me fui a Madrid a trabajar para una consultora multinacional. La consultoría de negocio (traje incluido), el sector financiero (hasta entonces había ido al cajero a sacar dinero y poco más), la tecnología (que siempre llevo conmigo) y los datos (los cuales tardé en descubrir que siempre habían estado presentes y que eran una de mis pasiones) ocuparon mi vida profesional durante los siguientes años en España y Argentina para, finalmente, llevarme donde estoy ahora. Actualmente, dirijo Anjana Data, una compañía española de reciente creación que constituimos hace poco más de un año entre unos cuantos locos de los datos, orientada totalmente a desarrollo de producto y con la que hemos lanzado al mercado nuestra propia solución de gobierno del dato, por ahora centrados en el mercado de Iberia y LatAm (y con la que, dicho sea de paso, estamos teniendo muchísimo éxito pese a nuestro breve recorrido como empresa independiente). Adicionalmente, la pasión por los datos y mi deseo de divulgar y compartir conocimientos y experiencias en torno a la estrategia, su gestión y su gobierno, me mueven continuamente a participar como ponente en eventos, escribir artículos, hacer webinars, colaborar con escuelas de negocios y asociaciones y, por último, pero no por ello menos importante, me han llevado también hasta DAMA España, donde colaboro como Responsable del Grupo de Trabajo de Gobierno del Dato y Metadatos.
Cuáles son tus retos, qué es lo que te gusta hacer con los datos
En mi Proyecto Fin de Carrera, descubrí que más del 80% del tiempo que dedica alguien que trabaja con datos a un proyecto de datos se va en tareas previas al trabajo con los algoritmos y a la obtención de modelos. La gran mayoría del PFC nos lo pasamos:
- Buscando datos: Tardamos meses en encontrar y que nos dieran acceso a un estudio longitudinal con más de 30 medidas de distintas índoles que se habían tomado a unos 400 niños aragoneses de forma sistemática desde su nacimiento hasta los 18 años. Y, además, también tuvimos que digitalizarlos porque los datos estaban recogidos a boli y papel en cientos de carpetas.
- Tratando de entender los datos: Hicimos un curso avanzado en medicina infantil y pasamos muchos días en el área de pediatría del Hospital Miguel Servet de Zaragoza leyendo artículos de algo que desconocíamos hasta la fecha.
- Analizando los datos: Sacar multitud de estadísticas (medias, medianas, varianzas, desviaciones, …) para sacar unas primeras conclusiones acerca de aquellos datos a los que nos íbamos a enfrentar.
- Limpiando datos: Pese al gran esfuerzo que supuso la realización de ese estudio para los médicos que lo llevaron a cabo, nos encontramos en no pocos casos con campos incompletos o vacíos, un número alto de outliers y valores incoherentes, tuvimos que rechazar registros completos, tuvimos que aplicar diferentes técnicas de extrapolación para inferir datos faltantes, etc.
- Preparando datos: A partir de los datasets con los que trabajábamos en Matlab, tuvimos que modelarlos en tablones enormes desnormalizados con un montón de nuevas variables calculadas a partir de las originales para que los algoritmos que íbamos a probar después pudieran hacer su magia en un supercomputador que había en la Universidad de Zaragoza.
Muchos meses después, dedicamos las últimas semanas afinando los parámetros de los diferentes algoritmos que nos iban arrojando modelos con mayor o menor acierto para así iterar millones de veces viendo cómo los modelos mejoraban o empeoraban según un montón de variables. Y, por último, quedarnos con el de mayor sensibilidad y especificidad, el que mejor se ajustaba a los datos y el que mayor explicación médica tenía.
Años después, descubrí que eso mismo que viví en un entorno totalmente diferente al que me encontré después, pasaba exactamente igual en las grandes multinacionales, incluso con los mejores científicos y analistas de datos, con las tecnologías más avanzadas y en entornos de alta exigencia regulatoria y normativa que tenían que responder por los datos que presentaban. Así que, poco a poco, fui encaminando mi carrera hacia lo que más me me gusta hacer con los datos: gobernarlos y gestionarlos para generar valor convirtiéndolos en un activo estratégico de las organizaciones. O, en mi caso actual, y ahí es donde está mi mayor reto, ofrecer a las organizaciones una solución tecnológica que les pueda ayudar a conseguirlo.
¿Piensas que las empresas tienen una cultura adecuada para gestionar los datos de forma diferente?
Creo que la era del dato, aunque se lleve hablando ya un tiempo de esto, simplemente acaba de empezar y, por lo tanto, queda mucho camino por recorrer. Las materias primas que pasan a ocupar un puesto relevante en nuestra sociedad global requieren de un tiempo para que la sociedad se adapte al nuevo status-quo y, en este caso, los datos además son un activo diferente… no son como el oro o el petróleo, sino que son algo mucho más poderoso y que, convertidos en información, pueden llegar a mover mucho con muy poco. Poco a poco todos empezamos a tomar conciencia de la importancia de los datos en nuestro día a día, empezando por los nuestros como individuos y esto, a su vez, va permeando en las empresas, porque al final, las empresas no son más que organizaciones de personas. Dicho esto, hay organizaciones que obtienen un valor (ya sea beneficio económico, social o político) muy grande a partir de los datos que gestionan y, por el otro lado, hay otras a las que les viene justo para tomar una decisión en base a un análisis cuantitativo de la información de la que disponen. A mi parecer, cuando hablamos de gestionar los datos de forma diferente, más que pensar en obtener un valor para las organizaciones, debemos pensar en si lo hacemos de forma ética, por lo que yo creo que el cambio cultural está ahí y considero que todavía nos queda mucho camino por recorrer.
¿Cuáles son los retos más importantes para los CIO, CDO, CTO en 2021?
- Servir de facilitadores del cambio para ayudar a sus organizaciones a adaptarse lo antes posible a la situación actual que ha traído consigo la pandemia, adoptar el agilismo como palanca de crecimiento, buscar nuevos modelos de negocio, e impulsar la digitalización, la innovación y la transformación hacia organizaciones data-driven
- Tender puentes entre Negocio y Tecnología, alineando los objetivos de los distintos niveles de la organización a los objetivos estratégicos y favoreciendo la colaboración, acercando el dato mucho más a quien lo consume y lo entiende para que pueda sacar las conclusiones correctas que lleven a decisiones acertadas en el menor tiempo posible
- Acabar con los silos de información y promover una cultura del dato colaborativa que favorezca la democratización de la información y su explotación de forma ética en entornos gobernados y automatizados
Las épocas de mayor crisis son las que traen consigo las mayores innovaciones y disrupciones y, en el momento que estamos viviendo, los datos son (si todavía no lo eran) la materia prima que toda organización debe cuidar desde su generación hasta su explotación para mantenerse viva o incluso para convertirse en diferencial, por lo que los CIO, CDO y CTO tienen que estar en primera línea junto con el resto de C-Level para dar el do de pecho.
¿De qué quieres hablar dentro del Data Management Summit?
Mi ponencia irá enfocada hacia un nuevo concepto que ha empezado a surgir no hace mucho y para el que todavía no hay un consenso común del todo, DataOps. Al final, como casi todo, se trata simplemente de un nombre nuevo que se le ha puesto a algo que lleva ya mucho tiempo entre nosotros y algo que debería de venir inherente con la tecnología y no es otra cosa que la automatización de los procesos a lo largo del ciclo de vida del dato.
Primero, trataré de desmitificar el concepto, tal y como acabo de hacer en estas primeras líneas, y después explicaré por qué el DataOps no deja de ser la evolución natural de la implantación y operativización de un Gobierno del Dato proactivo y preventivo integrado con la gestión de la demanda, lo cual sirve de palanca para una gestión efectiva y eficiente de los datos.
Por último, abordaré algún caso práctico de implementación de DataOps dando algunas pinceladas sobre cómo plantear una iniciativa de DataOps.
Desde el principio has apoyado el evento ¿Porque?
El DMS es un evento de profesionales del dato para profesionales del dato, un lugar donde se junta mucha materia gris con mucho conocimiento y experiencias en torno al mundo del dato en muy poco espacio (este año virtual) y del que te puedes llevar un montón de aprendizajes en la mochila en muy poco tiempo. Además, creo que lo que lo hace realmente diferencial es que no es una feria comercial llena de stands de proveedores ni un cortijo donde no hay cabida para perfiles diferentes sino que se trata de un evento participativo donde la calidad del contenido es muy alta y se cuida con mucho mimo y donde se abre a todo tipo de roles del mundo del dato sin restricciones más que las propias del aforo para facilitar la dinámica.