Antonio Torralba es profesor asociado del laboratorio de Ciencias de la Computación e Inteligencia Artificial, del Departamento de Ingeniería Eléctrica y Ciencias de la Computación, del Instituto de Tecnología de Massachusetts, en Estados Unidos.
Dice, para describir su trabajo: Mi investigación se centra en las áreas de la visión artificial, aprendizaje automático y la percepción visual humana. Estoy interesado en escenas y el reconocimiento de objetos, entre otras cosas. Escena y reconocimiento de objetos son dos tareas relacionadas en la visual, y generalmente se estudian por separado. Sin embargo, mediante el diseño de sistemas que resuelven estas tareas de una manera integrada, creo que es posible construir sistemas de reconocimiento más eficientes y robustos.
El periodista científico, Pere Estupinya, entrevistó a Antonio Torralba para saber más sobre la visión artificial, en ella se infieren los obstáculos que hay que salvar y las dificultades a atravesar. Antonio Torralba dice por ejemplo, en el futuro, cuando escribas "gato" en el buscador de imágenes de Google, no buscará fotografías por tags, sino por identificación de figuras de gatos en la imagen.
Dice también Torralba, "No tenemos que tener el cerebro como referencia, sino buscar maneras mejores de crear inteligencias diferentes. Si nuestro cerebro funciona como una máquina; si se trata “sólo” de un conjunto de piezas comunicándose entre sí, pudiendo interpretar lo que perciben nuestros sentidos, recordando o generando inteligencia… no parece imposible construir una máquina que también piense de manera inteligente. Sin embargo esta concepción se convirtió en una tarea difícil y llena de fracasos".
Pero enfocándonos en la visión artificial, campo al que esta abocado desde hace tiempo Antonio, la entrevista continúa en estos términos.
Usar la visión para percibir el mundo que nos rodea es algo que hacemos desde que nos despertamos y sin ningún esfuerzo aparente. Por eso, uno podría pensar que construir un sistema de visión artificial debería ser una tarea relativamente sencilla.
Pero, ¿por qué resulta tan difícil construir un sistema de visión artificial? Uno de los problemas que existen es que nuestra intuición sobre lo fácil que es “ver” es incorrecta. Nuestro sistema visual nos esconde los detalles de las operaciones que tiene que realizar para analizar el mundo visual. Pero podemos desenmascarar parte del proceso estudiando ilusiones visuales. Veamos un ejemplo.
Interpretar la escena o capturar imágenes
El sistema visual humano es mucho más que una cámara fotográfica. Para que quede realmente clara la diferencia entre los dos, podemos estudiar esta figura creada por el profesor del MIT Edward Adelson.
Si medimos con un fotómetro la cantidad de luz que sale de los cuadrados marcados con las letras A y B nos dirá que los niveles de gris de los 2 cuadrados son idénticos. ¡Pero, un momento! ¡Si A y B parecen muy distintos¡ Si no te crees que son iguales imprime el artículo y recorta los 2 cuadrados. Verás que al aislarlos, los cuadrados A y B se transforman y aparecen idénticos. ¿Qué ha pasado?
El sistema visual está “interpretando” la iluminación de la escena, mientras que el fotómetro sólo mide intensidad luminosa, sin interpretar. Nuestro sistema visual se da cuenta de que la razón por la que B aparece más oscuro en la imagen es debido a la sombra, y no al verdadero tono del cuadrado en el tablero.
El sistema visual elimina el efecto de la sombra y percibimos el cuadrado B como más claro que el cuadrado A aunque realmente en la imagen sean idénticos. Como vemos en este ejemplo, el sistema visual “ve” esta imagen de forma muy distinta a como lo hace un fotómetro. Y lo que también resulta interesante es que no podemos inhibir los mecanismos que usa el cerebro para interpretar la información visual, por mucho que nos empeñemos, ni aún sabiendo que los cuadrados A y B son idénticos podemos verlos como tales.
Esto resulta en medidas subjetivas que contradicen lo que ve un fotómetro incluso cuando se le pide a un observador que intente actuar como tal. Simplemente, no podemos ser fotómetros ni aunque lo intentemos. La interpretación automática de imágenes como la anterior suponen un gran desafío para la visión artificial y para la visión humana y no siempre la interpretación es correcta. Como resultado, algunas veces nos inventamos lo que vemos. Y más a menudo de lo que pensamos, fallamos.
Veamos el siguiente vídeo
Como el video tiene muy baja resolución, nuestro sistema visual se inventa parte de lo que vemos de forma automática, haciéndonos creer que reconocemos todos los objetos que vemos. Al mirar el video en la resolución original, podemos comprobar que muchos de los objetos que veíamos, no eran lo que pensábamos.
El reconocimiento de objetos
Entre los diferentes aspectos que tiene que resolver la visión, el reconocimiento de objetos es unos de los temas centrales de la investigación actual. Uno de los ejemplos más populares es la detección de caras, que podemos encontrar como opción en muchas cámaras digitales. La aparente simplicidad de la detección de caras esconde la complejidad de la investigación que fue necesaria, para conseguir una aplicación fiable y rápida. De hecho, el reconocimiento de objetos más generales como mesas, sillas, vasos, etc., aun está por resolver.
La dificultad reside en que, objetos como sillas, tienen una gran variabilidad en su apariencia, forma, color, y es difícil construir sistemas capaces de tener en cuenta todas esas variaciones. Parte de la investigación que llevamos a cabo en mi grupo en el MIT consiste en construir sistemas de visión capaces de reconocer muchos tipos de objetos.
Una de las dificultades en este tipo de investigación, y con la que podéis ayudarnos, es el conseguir suficientes datos para entrenar los sistemas de reconocimiento. Os explicaré a continuación cómo intentamos resolver este problema y cómo podéis ayudarnos.
Aunque es probable que ciertos aspectos de la visión humana sean innatos, la mayor parte de nuestras habilidades visuales las adquirimos durante la infancia mientras interaccionamos con el mundo. Un niño puede aprender la relación entre lo que ve y la forma de los objetos tocándolos, manipulándolos, golpeándolos, dejándolos caer y viendo lo que pasa, etc. También la presencia de un maestro es importante para asociar conceptos con información visual (no todos los objetos del mundo se dejan manipular como lo hace un jarrón… por ejemplo, un elefante).
Tradicionalmente se pensó que la forma de entrenar un sistema de visión artificial sería integrándolo con un robot. Sin embargo, construir un robot que se desplace y manipule objetos con la versatilidad y fiabilidad con la que lo hace una persona resultó ser mucho más complejo de lo que parecía inicialmente. Por esa razón la investigación en visión buscó formas alternativas para obtener datos de aprendizaje.
El auge de Internet proporcionó una nueva plataforma de trabajo. Un ejemplo de utilización de Internet para entrenar sistemas de visión es LabelMe desarrollado en nuestro equipo del MIT. Si visitáis la página Web del proyecto podréis ver cómo funciona y ayudar a anotar más imágenes. Las anotaciones introducidas en LabelMe se usan hoy en día por multitud de investigadores en todo el mundo.
Otro proyecto que ilustra el poder de Internet para recoger grandes cantidades de datos es nuestro Diccionario Visual. Esta aplicación es un mapa del lenguaje inglés ilustrándolo con imágenes. El Diccionario Visual muestra, en una sola página, más de 50.000 conceptos y ha sido creado usando Google y millones de imágenes disponibles en Internet.
Como las búsquedas en Google no siempre proporcionan las imágenes apropiadas, el usuario tiene la posibilidad de indicar que imágenes ilustran correcta o incorrectamente cada término. Esta información la utilizamos para entrenar un sistema de reconocimiento que aprenderá a diferenciar automáticamente que imágenes corresponden a cada concepto y mejorar así las imágenes presentadas al siguiente usuario. Es sencillo, cuanto más se use, mejor será la calidad de los resultados presentados.
Para terminar la entrevista habla de la situación actual de las investigaciones sobre visión artificial y lo hace en estos términos:
Al optimismo inocente de los 60 le siguió un periodo de pesimismo en los años 90, cuando nada funcionaba. Desde el año 2000 hemos entrado en un nuevo periodo de renovado optimismo, ya que se han encontrado soluciones eficaces para problemas complejos, y ahora el campo de la visión artificial vive un periodo excitante.
La visión artificial ha estado presente en ciertos ámbitos como el médico, el militar o el entorno industrial durante mucho tiempo. Pero ahora se abre camino para llegar al usuario típico como tú o yo. Algunos ejemplos actuales son aplicaciones relativamente sencillas, como la creación automática de imágenes panorámicas a partir de varias fotos, hasta sistemas más complejos, como la detección y reconocimiento de caras, sistemas de visión para videojuegos como el Kinect de Microsoft, sistemas de detección de peatones y vehículos, para la conducción asistida, o para búsqueda de información a partir de fotos como Google Goggles, que permite reconocer monumentos, o encontrar información sobre libros simplemente haciendo una foto de la portada, con la cámara de un teléfono.
En los próximos años, veremos como cada vez más y más sistemas de visión artificial se incorporarán a productos de consumo, desde nuestras aspiradoras hasta nuestros coches. Surgirán cámaras capaces de resolver tareas complejas, como decirnos la especie exacta del pájaro que estamos fotografiando, o si una seta es comestible o no, existirán gafas que podrían ayudar a gente con problemas de visión a leer cualquier texto y signos, o indicando si se puede cruzar la calle, hasta lavavajillas capaces de ordenar, por si solos, la vajilla en los armarios, rompiendo muy pocas cosas...
Es gigantesco el caudal de información que deben recopilar, y resulta excitante que nos inviten a participar, agregando imágenes y descripciones que faciliten la localización de un objeto determinado. Como puedes ver Internet no sólo es una fenomenal herramienta para encontrar información, también es un medio para hermanarnos en el logro de objetivos que nos beneficiaran a todos.
Esta entrevista la extraje de ElPaís.com.
No hay comentarios:
Publicar un comentario