En una sesión de fotos en una acogedora cafetería de San Francisco, los modelos tomaron posturas divertidas. Unos estaban tirados en almohadas, sus extremidades se desplegaban lánguidamente.
Al otro lado de la habitación, uno se paró, escultural, encima de una pequeña mesa blanca mientras otro se paseaba juguetonamente por una pasarela de madera.
Los fotógrafos capturaron sus movimientos, haciendo clic rápidamente desde diferentes direcciones y puntos de vista. Las fotos eran sensuales, otras de mal humor y, ocasionalmente, mostraban patas peludas.
Esto no fue una sesión de fotos ordinaria. Los sujetos fueron gatos con nombres como Passion, Shiloh, Buffy y Blinx, que viven en una cafetería llamada KitTea, donde los visitantes pueden pagar por tomar bebidas y comer bocadillos mientras se reúnen con felinos residentes y adoptables.
Los fotógrafos eran ingenieros de la compañía de robótica de consumo Anki, que capturaron a estos bichos mediante un trío de diminutos robots llamados Vector, creados especialmente para esta tarea.
La misión era tomar tantas fotos como fuera posible para ayudar a Vector a detectar a los felinos que viven con personas.
Los datos, como, por ejemplo, fotos de gatos lindos, son cruciales para construir inteligencia artificial. El proceso de recopilación es cada vez más importante a medida que dependemos de la inteligencia artificial para hacer un número cada vez mayor de cosas, desde ayudar a los autos que conducen por las calles hasta conseguir que los asistentes virtuales como Alexa respondan a las voces. Esto se debe a que para que la IA funcione bien, generalmente se debe capacitar primero en una gran cantidad de datos. Y no en cualquier tipo de datos, sino en información que refleje los tipos de tareas en las que trabajará la IA.
Vector, el robot
Vector, que cuesta 250 dólares y comenzó a enviarse en octubre, es un cruce entre un compañero y un ayudante del tamaño de un vaso de cerveza. Puede brindarte una actualización del clima, responder preguntas, tomarte una foto y jugar con el pequeño cubo de luz que lo acompaña. Es el último modelo de robot de Anki, que ha vendido 2 millones de robots hasta el momento.
Vector se basa en datos para descubrir cómo hacer todo tipo de cosas. Eso incluye usar su cámara frontal para reconocer a las personas y evitar chocar con objetos, o sus micrófonos para escuchar comandos humanos que comienzan con las palabras “Hey, Vector” y luego responden de manera apropiada.
Una cosa que Vector no puede hacer ahora es detectar mascotas. Andrew Stein, el ingeniero jefe de Visión Computacional de Anki y propietario de un gato, ve esto como un problema para un robot destinado a interactuar con el mundo que lo rodea, que en muchos hogares incluirá gatos o perros.
“Si es inteligente en cuanto a su entorno y responde a un gato de manera diferente a una taza de café que está sobre su mesa, entonces sabe lo que es un gato, y eso se siente diferente”, dijo Stein cuando, cerca, un Vector toma fotos a gatos que descansan en una alfombra.
Los ingenieros de Anki usan inteligencia artificial para enseñarle a Vector cómo hacer esto. Una parte clave (y, a veces, complicada) de hacer que esto funcione es la recopilación de datos; en este caso, los datos incluyen fotos de gatos sentados, golpeando, rascando y olfateando.
Gatos geniales
Pero hacer que Vector se dé cuenta de que un gato anda por su sala de estar no es tan simple como mostrarle al robot miles de fotos de gatos de bases de datos en línea existentes. Los ingenieros de Anki ya han utilizado decenas de miles de estas imágenes para entrenar una red neuronal, una especie de algoritmo de aprendizaje automático basado en la forma en que funcionan las neuronas en el cerebro, en la detección básica de gatos.
Pero Stein dijo que las imágenes en estas bases de datos son muy diferentes de cómo se ven los gatos desde el punto de vista de Vector, que podría estar muy por encima de un animal o justo delante de sus patas, y muy probablemente en el interior.
“La clave es obtener datos que sean representativos de lo que realmente verá cuando lo enviemos a los hogares de las personas”, dijo.
Stein cree que estas imágenes “sintonizarán” la red neuronal de Anki, que Vector puede usar para detectar mejor a los amigos peludos.
El enfoque tiene mucho sentido para Jason Corso, profesor asociado de la Universidad de Michigan que estudia Visión Computacional y Comprensión de Video. Si Anki solo usara conjuntos de datos existentes en la web, videos de YouTube o fotos de gatos en Flickr, sus datos tendrían todos los sesgos de cómo los humanos normalmente toman fotos de sus gatos, dijo.
Por ejemplo, si Corso tomó una foto de su gato, sería desde la altura de Corso. Es probable que Vector no esté mirando a los gatos desde esa altura. “De hecho, el robot necesita entender qué es un gato desde su propia perspectiva”, dijo.
Para tomar las fotos en KitTea, los empleados de Anki colocaron Vectores en el piso, en las mesas y en una pasarela delgada montada en la pared. Presionaron un botón en la espalda de Vector, que capturó cinco imágenes en sucesión. Una pequeña pantalla frontal mostraba al gato lo que el robot estaba disparando.
Durante varias horas, el equipo reunió más de 1.500 fotos de los gatos en la cafetería.
Anki quiere que Vector reconozca que un animal está cerca sin necesariamente ver la cara del animal, de manera similar a como el robot puede determinar actualmente que una persona está cerca simplemente al ver parte de su cuerpo.
Finalmente, Stein pretende que Vector identifique mascotas específicas en lugar de solo determinar que un gato o un perro está cerca. Entonces, quizás, podría reaccionar de manera diferente a diferentes animales, lo que tendría sentido, ya que algunos animales pueden querer verlo, mientras que otros pueden ser más asustadizos o simplemente desinteresados.
Esto funcionó con los gatos en el café. Algunos miraron con curiosidad al robot, mientras que otros se abalanzaron o lo empujaron. Muchos de ellos no parecían notar al robot en absoluto; solo querían quedarse dormidos.