Los datos sintéticos: Un nuevo reto en el escenario de la gestión de datos
di Michele Iurillo (michele.iurillo@synergo.es)
Los datos sintéticos son datos generados artificialmente, o sea, información que no proviene de observaciones directas del entorno real, sino que se obtiene mediante técnicas computacionales avanzadas. Estos datos se generan a partir de algoritmos estadísticos y de aprendizaje automático, capaces de crear distribuciones y características similares a las observadas en conjuntos de datos reales, preservando patrones estadísticos clave sin contener información sensible o identificable.
El propósito principal de los datos sintéticos es servir en el desarrollo, prueba y validación de modelos, especialmente en entornos donde el acceso a datos reales es limitado o restringido por motivos de privacidad o seguridad. Su uso es frecuente en la validación de modelos matemáticos y en el entrenamiento de redes neuronales profundas para aplicaciones de aprendizaje profundo (deep learning). Mediante estos datos, los modelos pueden aprender patrones y relaciones complejas sin exponerse a datos reales, lo cual facilita la protección de la privacidad y la aceleración de los procesos de desarrollo y pruebas en sistemas de inteligencia artificial.
La ventaja del uso de datos sintéticos es que reduce las restricciones cuando se utilizan datos regulados o sensibles. Y crea las necesidades de datos según requisitos específicos que no pueden alcanzarse con datos auténticos. Los conjuntos de datos sintéticos suelen generarse para garantizar la calidad y probar el software pero pueden ser el inicio de nuevos escenarios a la hora de observar una realidad que realmente no existe.
La desventaja de los datos sintéticos son las incoherencias que se producen al intentar reproducir la complejidad de los datos originales y su incapacidad para sustituir directamente a los datos auténticos, ya que se siguen necesitando datos precisos para obtener resultados útiles. Pero pueden ser un punto de partida formidable para las pruebas de conceptos de los algoritmos, aunque no hay que olvidar su naturaleza “irreal”. Los científicos de datos tienes que coger con pinzas y evitar de traer conclusiones para evitar los tipos sesgos de “muestreo”.
Los datos reales vs datos sintéticos
Los datos reales se recogen o miden en el mundo real. Estos datos se crean en cada instante en que una persona utiliza un smartphone, un portátil o un ordenador, lleva un smartwatch, visita un sitio web o realiza una compra en línea.
Los datos sintéticos, por su parte, se generan en entornos digitales. Estos datos se fabrican de forma que imitan con éxito los datos reales en cuanto a propiedades básicas, excepto en la parte que no se ha obtenido de ningún evento del mundo real.
Utilizando las diversas técnicas de generación de datos sintéticos, se dispone fácilmente de los datos de entrenamiento necesarios para los modelos de aprendizaje automático, lo que hace que la opción de los datos sintéticos sea muy prometedora como alternativa a los datos reales. Sin embargo, no se puede afirmar con rotundidad que los datos sintéticos puedan dar respuesta a todos los problemas del mundo real. Esto no afecta a las importantes ventajas que ofrecen los datos sintéticos.
Retos y limitaciones del uso de datos sintéticos
Aunque los datos sintéticos ofrecen varias ventajas a las empresas con iniciativas de ciencia de datos, también tienen ciertas limitaciones:
Fiabilidad de los datos: Es un hecho bien conocido que cualquier modelo de aprendizaje automático/aprendizaje profundo es tan bueno como su fuente de datos. En este contexto, la calidad de los datos sintéticos está significativamente asociada a la calidad de los datos de entrada y del modelo utilizado para generar los datos. Es importante asegurarse de que no haya sesgos en los datos de origen, ya que, de lo contrario, podrían reflejarse muy bien en los datos sintéticos. Además, la calidad de los datos debe validarse y verificarse antes de utilizarlos para cualquier predicción.
Requiere experiencia, tiempo y esfuerzo: Aunque los datos sintéticos pueden ser más fáciles y baratos de producir que los datos reales, requieren un cierto nivel de experiencia, tiempo y esfuerzo.
Aceptación por parte de los usuarios: Los datos sintéticos son una noción nueva, y las personas que no han visto sus ventajas pueden no estar dispuestas a confiar en las predicciones basadas en ellos. Esto significa que primero hay que concienciar sobre el valor de los datos sintéticos para lograr una mayor aceptación por parte de los usuarios.
Replicación de valores atípicos: Los datos sintéticos sólo pueden parecerse a los datos del mundo real, no pueden ser un duplicado exacto. En consecuencia, es posible que los datos sintéticos no cubran algunos valores atípicos que existen en los datos auténticos. Los valores atípicos en los datos podrían ser más importantes que los datos normales.
Comprobación de calidad y control de resultados: El objetivo de crear datos sintéticos es imitar los datos del mundo real. La comprobación manual de los datos se vuelve crítica. En el caso de los conjuntos de datos complejos generados automáticamente mediante algoritmos, es imperativo garantizar la corrección de los datos antes de implementarlos en modelos de aprendizaje automático/aprendizaje profundo.
Retos y limitaciones del uso de datos sintéticos
Aquí algunos ejemplos del mundo real en los que los datos sintéticos se están utilizando activamente.
Sanidad: Las organizaciones sanitarias utilizan datos sintéticos para crear modelos y una variedad de pruebas de conjuntos de datos para condiciones que no tienen datos reales. En el campo de las imágenes médicas, se están utilizando datos sintéticos para entrenar modelos de IA, garantizando siempre la privacidad del paciente. Además, están empleando datos sintéticos para pronosticar y predecir tendencias de enfermedades.
Agricultura: Los datos sintéticos son útiles en aplicaciones de visión por ordenador que ayudan a predecir el rendimiento de los cultivos, la detección de enfermedades de los cultivos, la identificación de semillas/frutas/flores, los modelos de crecimiento de las plantas, etc.
Predicción de catástrofes y gestión de riesgos: Las organizaciones gubernamentales están utilizando datos sintéticos para predecir calamidades naturales para la prevención de desastres y la reducción de los riesgos.
Automoción y robótica: Las empresas utilizan datos sintéticos para simular y entrenar coches autoconducidos/vehículos autónomos, drones o robots.
Finance: Los bancos y las instituciones financieras pueden identificar y prevenir mejor el fraude en línea, ya que los científicos de datos pueden diseñar y desarrollar nuevos métodos eficaces de detección del fraude utilizando datos sintéticos.
Comercio electrónico: Las empresas se benefician de una gestión eficiente de almacenes e inventarios, así como de una mejora de la experiencia de compra en línea de los clientes, gracias a modelos avanzados de aprendizaje automático entrenados con datos sintéticos.
Fabricación: Las empresas se benefician de los datos sintéticos para el mantenimiento predictivo y el control de calidad.
Conclusiones
Los datos sintéticos nos abren nuevas posibilidades siempre que podamos entender que no son reales y su uso tiene que ser especialmente orientado al entrenamiento de los modelos. Es muy peligroso pensar que una gestión de estos datos pueda ser suficiente para entrenar los modelos, siempre tendremos que confrontarnos con datos reales y ver que el modelo funciona porque de esta forma evitaremos sesgos.
- Potencial para el desarrollo de IA y aprendizaje automático: Los datos sintéticos se han consolidado como una herramienta fundamental para el desarrollo y la mejora de modelos de aprendizaje automático, permitiendo entrenar y validar algoritmos en entornos controlados y con mayor volumen de datos, incluso cuando los datos reales son escasos o están restringidos.
- Protección de la privacidad y seguridad de los datos: Al no contener información real, los datos sintéticos permiten crear representaciones estadísticas de alto valor para pruebas y desarrollo sin comprometer la privacidad de los individuos ni la seguridad de la información confidencial. Esto abre oportunidades significativas para sectores sensibles, como la salud y las finanzas, donde el cumplimiento regulatorio es clave.
- Optimización de los recursos y reducción de costos: La generación de datos sintéticos puede ser más económica y eficiente que la recolección de datos reales, especialmente en sectores donde el acceso a datos de calidad es limitado. Al eliminar la necesidad de recopilar datos costosos o difíciles de obtener, las empresas pueden optimizar sus recursos y reducir costos asociados a la gestión y almacenamiento de datos reales.
- Desafíos en la representatividad y precisión de los datos generados: Aunque los datos sintéticos ofrecen múltiples ventajas, su uso implica desafíos. La fidelidad con la que se representan los patrones de los datos reales es crucial, ya que cualquier desviación podría afectar la precisión y la aplicabilidad de los modelos entrenados. Esto subraya la importancia de utilizar algoritmos avanzados y supervisión rigurosa en su generación.
- Impacto en la gobernanza y calidad de los datos: La inclusión de datos sintéticos en la gestión de datos requiere una revisión de las políticas de gobernanza y estándares de calidad. Las organizaciones deben establecer criterios claros para diferenciar, gestionar y auditar estos datos, asegurándose de que mantengan la utilidad y eviten sesgos no deseados en los modelos de análisis y predicción.
El uso de datos sintéticos en la gestión de datos representa un avance significativo, especialmente para sectores altamente regulados y con limitaciones de acceso a información real. No obstante, su adopción requiere un enfoque técnico y ético cuidadoso para maximizar sus beneficios y minimizar los riesgos de sesgo, garantizando su correcta integración en los sistemas de inteligencia artificial y aprendizaje automático.
Trataremos este argumento en unas de las mesas redondas del Data Management Summit 2025.
Articulos inspiradores: https://www.turing.com/kb/synthetic-data-generation-techniques#what-is-synthetic-data?
https://www.ibm.com/topics/synthetic-data
https://blogs.manageengine.com/espanol/2023/03/15/synthetic-data-para-que-sirve-html.html