La Columna de CEA

Luis Payá Castelló (CEA): Visión por Computador y modelos de IA multimodales en sectores industriales

Luis Payá Castelló (CEA) | lunes, 6 de mayo de 2024, 13:21

La Visión por Computador es actualmente una disciplina consolidada y con numerosas aplicaciones en distintos ámbitos de la industria, dado que aúna diferentes tecnologías que permiten tanto la captura de imágenes como su procesamiento digital con objeto de extraer información de utilidad del entorno. Por este motivo, se ha convertido en una disciplina transversal de gran importancia en numerosos proyectos e implementaciones que requieren percepción e interpretación de un escenario determinado. Hoy en día disponemos de numerosos dispositivos para captar información visual del entorno, tales como las cámaras tradicionales de espectro visible, con numerosas aplicaciones de propósito general, y las cámaras capaces de capturar información a diferentes longitudes de onda, además de las visibles, como las cámaras multiespectrales o hiperespectrales, con aplicaciones en proyectos que requieran el análisis de la composición de los materiales de la escena u otras características de los mismos. Asimismo, también están disponibles diversas opciones para conseguir un campo de visión aumentado, tales como los sistemas omnidireccionales o las lentes ojo de pez, lo cual permite abarcar gran parte del entorno a interpretar y minimizar puntos ciegos en espacios intrincados.

Respecto al procesamiento de esta información, los algoritmos de aprendizaje profundo han revolucionado la Visión por Computador en los últimos años por su habilidad para aprender características a partir de conjuntos de datos de entrenamiento. Los modelos tradicionales utilizados en aplicaciones industriales son normalmente monomodales, es decir, trabajan con datos provenientes de una única fuente de información, por ejemplo, imágenes capturadas por un determinado tipo de dispositivo. Frente a ellos, los modelos multimodales surgen más recientemente como una herramienta que presenta un alto potencial para abordar problemas complejos y optimizar operaciones en numerosos sectores industriales. Estos modelos se caracterizan por su capacidad para tratar conjuntamente datos provenientes de diferentes fuentes de información, lo cual les dota de mayor robustez frente a datos incompletos o ruidosos, mayor precisión en la interpretación de las características del entorno y mayor capacidad de generalización a nuevas situaciones. Por ejemplo, se puede trabajar conjuntamente con datos capturados por otros sensores, aparte de los visuales, como sensores de profundidad, temperatura o humedad o incluso con otros tipos de datos como texto o audio.

Existen diversas opciones para el diseño de herramientas de aprendizaje profundo multimodales, de modo que integren la información de diferentes fuentes eficientemente. Entre ellas, podemos encontrar los mecanismos de fusión temprana, en los que las arquitecturas se diseñan de modo que la información proveniente de varias fuentes se combina en una etapa inicial del procesamiento, antes de que las características se propaguen por las capas posteriores del modelo; los mecanismos de fusión tardía, que implican la combinación en etapas avanzadas del modelo, una vez que las características de cada modalidad han sido procesadas de manera independiente por redes especializadas; y los modelos híbridos o jerárquicos, que fusionan la información a múltiples niveles, generando tanto características de bajo nivel como representaciones de alto nivel. Asimismo, cabe destacar las redes neuronales siamesas, que pueden permitir la comparación de entradas de diferentes fuentes; las arquitecturas basadas en transformers, gracias a los cuales se pueden procesar secuencias de entradas de diferentes tipos y detectar interacciones complejas entre ellas; y arquitecturas con mecanismos de atención, que pueden centrarse selectiva y dinámicamente en diferentes partes de los datos de entrada según su relevancia.

Estos modelos se pueden utilizar en sectores industriales para abordar desafíos cada vez más complejos, desde aplicaciones más tradicionales en ámbitos como el control de calidad o el mantenimiento predictivo (en las cuales la fusión de imágenes con otras fuentes de información, tales como lecturas de otros sensores, como temperatura o vibraciones, e incluso informes textuales o históricos de mantenimiento pueden optimizar la toma de decisiones) hasta otras aplicaciones más avanzadas, como la optimización de inventarios (combinando imágenes del almacén, datos numéricos o textuales de pedidos/suministros, o incluso datos textuales o gráficos sobre la predicción de la evolución del mercado), la interacción persona-máquina (que puede ser más natural si se analizan conjuntamente imágenes del proceso, gestos y órdenes orales dadas por la persona) o la navegación de vehículos autónomos o sistemas de apoyo a la conducción (mediante la integración, por ejemplo, de imágenes con nubes de puntos LiDAR o con datos capturados por RADAR, cuya sinergia permite una detección, localización y tracking más robustos de elementos en las escenas, lo cual puede conducir a una toma de decisiones mejorada y con mayor resiliencia a condiciones de trabajo cambiantes, como el nivel de iluminación).

El rápido avance de las tecnologías de adquisición y procesamiento de imágenes junto con otras fuentes de información hace necesario que los grupos de investigación desarrollen nuevos modelos y evalúen su desempeño y las ventajas e inconvenientes, considerando en todo momento su potencial transferencia a aplicaciones en sectores industriales. En este sentido, es necesario optimizar el proceso de entrenamiento para minimizar los requerimientos computacionales y de amplias bases de datos etiquetadas, que pueden ser muy costosos para ciertas industrias. También es necesario avanzar en la adaptabilidad de las herramientas a nuevos dominios no vistos durante el entrenamiento y en la comprensión del proceso de razonamiento que lleva a la herramienta a tomar sus decisiones a partir de los distintos datos de entrada. En este contexto, el grupo temático de Visión por Computador del Comité Español de Automática (CEA) agrupa a diversos grupos de investigación, que desarrollan proyectos que abordan los problemas relativos al reconocimiento e interpretación de entornos mediante modelos multimodales y que exploran diferentes variaciones y combinaciones de estas arquitecturas y mecanismos de atención y fusión para diseñar modelos que saquen el máximo provecho de cada uno de los tipos de información disponibles y su complementariedad. Estos proyectos de investigación incluyen aplicaciones tales como la navegación de vehículos autónomos, la manipulación de objetos, la seguridad y vigilancia de recintos, la monitorización de procesos industriales, agroalimentarios y de ecosistemas y el desarrollo de sistemas para apoyo a personas con discapacidad, entre otras.

En conclusión, la rápida evolución de las herramientas de aprendizaje profundo está permitiendo que la industria aborde nuevos retos y optimice procesos. Para ello, es crucial un proceso continuado de investigación, desarrollo e innovación que aborde los desafíos e inconvenientes actuales y desarrolle herramientas que extraigan el máximo potencial de los datos de entrada.

Luis Payá Castelló

Coordinador del Grupo Temático de Visión por Computador del Comité Español de Automática

Catedrático de Universidad

Instituto de Investigación en Ingeniería de Elche

Universidad Miguel Hernández de Elche

----

Este artículo aparece publicado en el nº 555 de Automática e Instrumentación págs. 10 y 11.

• La visión artificial incrementará un 42% el rendimiento en la industria

• Aprovechamiento de la visión artificial para lograr eficiencia, velocidad y flexibilidad en las operaciones de carga y descarga

Opinión CEA

Luis Payá Castelló (CEA): Visión por Computador y modelos de IA multimodales en sectores industriales

Comentarios

DES 2024 analizará la evolución del rol del CIO en la era digital

ABB abre una nueva fábrica energéticamente eficiente en Evergem (Bélgica)

igus amplía la gama de productos con garantía de 4 años

Infaimon cambia su denominación a Stemmer Imaging

Pilz aumenta un 7,3% su volumen de negocio en 2023

InnovMetric aumenta el uso de datos de medición 3D con menor coste con PolyWorks 2024

La Máquina-Herramienta crece más de un 22% en 2023 y alcanza una cifra récord de facturación

Rittal lleva su nueva plataforma de refrigeración modular al OCP Regional Summit de Lisboa

Fanuc muestra en Hispack sus novedades en automatización para el sector del envase y packaging

Empresas destacadas

REVISTA

Lo más leído