Actúan como una capa intermedia que permite compartir entornos de desarrollo sin exponer directamente información clínica identificable

Datos sintéticos en biotecnología: la nueva infraestructura invisible de la innovación

Apertura pons — Los datos sintéticos están llamados a convertirse en una de las infraestructuras más valiosas de la biotecnología contemporánea.

Luis Ignacio Vicente, consejero Estratégico de PONS IP | miércoles, 8 de abril de 2026, 15:57

Los datos sintéticos están dejando de ser una curiosidad técnica para convertirse en una pieza estratégica de la economía digital. En esencia, son datos generados artificialmente mediante simulaciones, modelos estadísticos o algoritmos de inteligencia artificial, en lugar de ser capturados directamente del mundo real.

Aunque existen desde hace casi treinta años y han estado presentes en simuladores, videojuegos y entornos científicos, su importancia se ha disparado con el avance de la IA, la mayor capacidad de cómputo y la necesidad de entrenar modelos con grandes volúmenes de información de calidad. Desde PONS IP, estamos considerando que en 5-6 años la mayoría de los datos utilizados en IA serán generados artificialmente.

El punto de partida moderno de esta idea suele situarse en 1993, cuando Donald B. Rubin planteó la posibilidad de ‘inventar datos’ a partir de información conocida para resolver problemas estadísticos y de acceso a poblaciones difíciles de medir. Desde entonces, la lógica de los datos sintéticos ha evolucionado desde la academia hacia sectores intensivos en tecnología. Hoy ya se utilizan en banca, automoción, robótica, manufactura, salud y ciencia, lo que demuestra que no se trata de una hipótesis futurista, sino de una tecnología en fase de consolidación.

En biotecnología, este avance resulta especialmente relevante. A diferencia de otros ámbitos, el sector biotech trabaja con datos muy sensibles, costosos de obtener y difíciles de compartir: historiales clínicos, imágenes diagnósticas, biomarcadores, secuencias biológicas, datos de laboratorio o resultados de ensayos clínicos. Además, a menudo son conjuntos limitados, sesgados o fragmentados, porque proceden de cohortes pequeñas, contextos muy controlados o poblaciones difíciles de reclutar. Por eso, el valor de los datos sintéticos no reside solo en aumentar el volumen de información, sino en ampliar el acceso, reducir fricciones regulatorias y permitir experimentación controlada. Esta conclusión se apoya en la combinación de la utilidad reconocida de los datos sintéticos en salud y en el papel de la anonimización y la gestión del riesgo cuando hay datos personales de por medio.

Pons 2 — Resulta paradójico que, gracias a estos ‘datos inventados’, podamos tener una mejor comprensión de la Naturaleza y sus procesos.

Uno de sus grandes atractivos es precisamente la privacidad. En ámbitos donde los datos reales son personales o están sometidos a fuertes restricciones, la anonimización se ha vuelto una práctica frecuente, especialmente en datos estructurados como los que se usan en salud y finanzas. En ese contexto, la generación de datos sintéticos puede entenderse como un paso adicional: no se limita a ocultar identificadores, sino que crea un conjunto de datos nuevo que preserva patrones útiles sin exponer directamente a los individuos originales. Esto no elimina por completo el riesgo, pero sí puede reducirlo de forma importante si el proceso está bien diseñado y validado.

Para la biotecnología, esto es crucial. La colaboración entre hospitales, laboratorios, startups, farmacéuticas y centros de investigación suele verse frenada por barreras de confidencialidad, protección de datos y cumplimiento normativo. Los datos sintéticos pueden actuar como una capa intermedia que permita entrenar modelos, probar herramientas y compartir entornos de desarrollo sin exponer directamente información clínica identificable. Ya existen ejemplos en los que empresas de análisis de imágenes médicas utilizan datos sintéticos para entrenar sistemas de IA al mismo tiempo que protegen la privacidad del paciente. Un caso especialmente ilustrativo es el de Curai Health, que entrenó un modelo de diagnóstico con 400.000 pacientes simulados mediante GANs (Redes Generativas Antagónicas).

Las GANs son una de las técnicas más conocidas para este tipo de generación. Se basan en dos redes neuronales que compiten entre sí en una especie de juego de suma cero, y fueron presentadas en 2014 por Ian Goodfellow y sus coautores. Su capacidad para producir imágenes o registros que parecen auténticos a observadores humanos ha hecho que ganen tracción en múltiples sectores. En biotecnología, esto abre la puerta a crear imágenes sintéticas de tejidos, células, lesiones o patrones diagnósticos que sirvan para entrenar modelos de visión artificial sin depender exclusivamente de grandes bancos de imágenes reales.

La primera gran aplicación en biotech es, por tanto, la imagen biomédica. En radiología, patología digital, microscopía o análisis de imagen celular, uno de los problemas habituales es la escasez de ejemplos raros y la enorme dificultad de anotarlos correctamente. Los datos sintéticos ayudan a equilibrar clases, enriquecer el entrenamiento y acelerar la validación de algoritmos. También resultan útiles cuando el coste de capturar y etiquetar casos reales es muy alto. La experiencia en otros ámbitos de visión artificial ya muestra que los datos sintéticos pueden ser tan buenos, o incluso mejores, que los datos reales para entrenar determinados modelos, especialmente cuando se diseñan con precisión para cubrir los casos que más interesan.

La segunda gran aplicación está en los ensayos clínicos y la medicina de precisión. Los datos sintéticos no sustituyen la evidencia clínica real ni los requisitos regulatorios, pero pueden reforzar fases previas y complementarias: diseño de cohortes, simulación de escenarios, pruebas de robustez de algoritmos, validación interna de herramientas de apoyo o entrenamiento de sistemas de estratificación de pacientes. En un sector donde reclutar participantes es caro, lento y a veces inviable, poder trabajar con poblaciones artificiales que reproduzcan patrones clínicos plausibles tiene un valor operativo evidente. El ejemplo de los cientos de miles de pacientes simulados utilizados para entrenamiento diagnóstico ilustra bien este potencial.

Una tercera aplicación especialmente prometedora es la integración con gemelos digitales. En otros sectores ya se contempla la posibilidad de que un sistema representado digitalmente genere datos sintéticos de forma continua y simultánea a la generación de datos reales. Trasladado a la biotecnología, esto permite imaginar fermentadores, biorreactores, cultivos celulares, sensores de laboratorio o cadenas de producción bioindustrial conectados a réplicas digitales que ayuden a simular comportamientos, anticipar fallos y ensayar cambios antes de intervenir sobre el proceso real. En un entorno donde cada iteración experimental puede ser costosa, lenta o regulatoriamente sensible, este tipo de capacidad puede traducirse en grandes ganancias de eficiencia.

Además, los datos sintéticos resultan especialmente valiosos cuando el problema real presenta una gran diversidad de defectos o anomalías y obtener ejemplos suficientes es muy difícil. Esto ya se ha observado en ámbitos industriales donde capturar todos los fallos posibles y anotarlos con precisión exige mucha experiencia y un coste elevado. En biotecnología sucede algo parecido con eventos raros, respuestas atípicas, artefactos experimentales o señales de laboratorio poco frecuentes. Poder generar estos casos de manera controlada permite entrenar modelos más robustos y acelerar el desarrollo de sistemas de detección temprana.

Ahora bien, el entusiasmo debe ir acompañado de cautela. El principal límite sigue siendo la distancia entre simulación y realidad. Un sistema entrenado con datos artificiales puede rendir peor cuando se enfrenta a condiciones reales más complejas, ruidosas o cambiantes. En biotecnología, este problema es todavía más delicado porque los sistemas biológicos son variables por naturaleza: una célula no se comporta igual en todos los medios, un biomarcador puede cambiar entre poblaciones y un protocolo experimental puede alterar significativamente el resultado. Por eso, los datos sintéticos funcionan mejor como complemento estratégico que como sustituto absoluto. Su valor crece cuando se combinan con datos reales de alta calidad y con validación experimental sólida. Esta es una inferencia técnica consistente con el uso sectorial descrito en las fuentes y con el énfasis en supervisión y diligencia previa cuando se usan sistemas de IA.

Otro reto clave es la gobernanza. En PONS IP consideramos que cuando se emplean sistemas de IA que tratan datos personales o conocimiento sensible, no basta con confiar en la herramienta: hace falta una evaluación previa de riesgos, y en los supuestos de mayor impacto, una evaluación específica de protección de datos. También son relevantes las medidas técnicas, organizativas y legales para evitar fugas de información, usos no previstos o dependencias problemáticas de infraestructuras externas, especialmente en servicios basados en la nube. Esto tiene una traducción directa en biotecnología: no basta con generar datos sintéticos; hay que poder explicar cómo se generan, qué variables preservan, qué sesgos podrían arrastrar, dónde se almacenan, qué proveedor interviene y qué control humano existe sobre su uso.

Pons 4 — A diferencia de otros ámbitos, el sector biotech trabaja con datos muy sensibles, costosos de obtener y difíciles de compartir.

La supervisión humana también es un principio central. En cualquier entorno de alto valor —y la biotecnología lo es— no resulta razonable delegar por completo decisiones críticas en sistemas automáticos. El control humano permite detectar fallos, contextualizar resultados, corregir sesgos y descartar salidas erróneas. Aplicado a datos sintéticos, esto significa que su generación, curación y uso deben pasar por criterios científicos, regulatorios y éticos, no solo por métricas de rendimiento computacional.

A todo ello se suma una dimensión económica y competitiva cada vez más importante. Los datos sintéticos no solo son una herramienta técnica; también se están convirtiendo en un activo de negocio. Ya existen modelos basados en acceso premium a motores de generación, producción de datasets a medida, licencias exclusivas o no exclusivas, plataformas abiertas, y hasta “mercados digitales” en los que los conjuntos de datos se comercializan o sublicencian como activos intangibles. Esto es especialmente relevante para biotecnología, donde la ventaja competitiva depende cada vez más de la gestión de conocimiento, software, propiedad intelectual y capacidad de modelización.

Desde esa perspectiva, una empresa biotech no compite solo por tener los mejores laboratorios o los mejores científicos, también compite por sus motores de simulación, sus pipelines de generación de datos, sus herramientas de validación y sus bases sintéticas entrenadas para resolver problemas concretos. En este terreno, la propiedad intelectual desempeña un papel estratégico: pueden protegerse los algoritmos y modelos de IA utilizados para generar datos, el software que los implementa y, en determinados casos, los propios datasets sintéticos o su estructura como base de datos. Incluso cuando se usan herramientas de código abierto, entran en juego cuestiones de licencias, copyleft, compatibilidad con modelos SaaS e inseguridad jurídica en la interpretación de determinados marcos de uso.

A modo de conclusión, podemos indicar que los datos sintéticos están llamados a convertirse en una de las infraestructuras más valiosas de la biotecnología contemporánea. No reemplazan el experimento, la evidencia clínica ni la validación regulatoria, pero sí reducen cuellos de botella fundamentales: escasez de datos, costes de anotación, restricciones de privacidad, lentitud en el entrenamiento de modelos y dificultades para compartir información sensible. Su mayor promesa no consiste en fabricar una copia perfecta de la realidad, sino en crear entornos de prueba, entrenamiento y colaboración más seguros, escalables y útiles.

Resulta paradójico que, gracias a estos ‘datos inventados’, podamos tener una mejor comprensión de la Naturaleza y sus procesos. Una vez más, la combinación de aspectos tecnológicos, jurídicos, de gestión de la propiedad intelectual y de los modelos de negocio, nos marca el camino hacia innovación eficiente.

Luis Ignacio Vicente

Consejero Estratégico de PONS IP

----

Este artículo aparece publicado en el nº 568 de Automática e Instrumentación págs 48 a 50.

• “España cuenta con los ingredientes necesarios para desempeñar un papel relevante en la biotecnología industrial europea”

• La inteligencia artificial, la sostenibilidad y la biotecnología centran las predicciones de Eurecat para 2025

Sector Pons IP

Datos sintéticos en biotecnología: la nueva infraestructura invisible de la innovación

Comentarios

La automatización definida por software: el nuevo paradigma industrial impulsado por SIMATIC PCS neo

Redes de gas inteligentes: el papel de la digitalización en el despliegue del biometano

Los avances en robótica y automatización impulsan la competitividad industrial a nivel global

Alianza entre Agilox y ARITEX para desarrollar soluciones más eficientes en la industria

TD SYNNEX reúne al ecosistema tecnológico en Explora España 2026

Automática e Instrumentación organiza la Mesa Redonda ‘De la planta inteligente a la planta autónoma’ en Expoquimia

EXPOQUIMIA 2026: KERN & SOHN presenta los equipos de laboratorio conectados en red en el Pabellón P2

Monitorización inteligente de lodos con el radar IIoT

Entrevista a Sandra Infante, Directora de DES-Digital Enterprise Show

Empresas destacadas

REVISTA

Lo más leído