SLAM: Bringing art to life through technology

vídeo https://ai.meta.com/Engineering/videos/10155689177097200/

en castellano:

SLAM: Dar vida al arte a través de la tecnología

fuente en ingles: https://ai.meta.com/blog/slam-bringing-art-to-life-through-technology/

“Para muchos, la tecnología parece inaccesible. Pero a través del arte, la tecnología se vuelve más humana e incluso un medio artístico por derecho propio”.

Estas son las palabras que la artista de San Francisco Heather Day escribió en una carta de propuesta a Facebook, donde esperaba combinar su arte con la tecnología de Realidad Aumentada (AR) de Facebook. Ella nunca envió la carta, pero en un giro fortuito, Facebook la contactó semanas después con una propuesta propia: un proyecto de arte AR para nuestra sede de Menlo Park.

Tanto la realidad virtual como la realidad aumentada han logrado avances impresionantes en los últimos 12 meses. Ahora son posibles nuevas experiencias, cosas que hace poco tiempo sólo se vivían en sueños.

Imagínese ver animales extintos o dragones pasear por su parque local. O abrir un portal en tu habitación y transformarla en un bullicioso paisaje urbano con las paredes repentinamente cubiertas de graffiti. Escenarios como estos ya no son fantasía ni ciencia ficción. Más bien, son ejemplos de lo que es posible (en su teléfono inteligente) gracias al poder de la realidad aumentada.

En sus términos más simples, la RA utiliza la tecnología para cambiar virtualmente la forma en que ves el mundo que te rodea. Facebook está haciendo esto ahora a través de una aplicación de cámara en su teléfono.

Para hacer esto, necesitamos construir un mapa del entorno circundante mientras se explora en tiempo real. Mientras hacemos eso, también necesitamos estimar con precisión la posición y orientación de la cámara de su teléfono con respecto a ese mapa. Esta capacidad de colocar y bloquear objetos digitales en relación con objetos del mundo real se conoce como localización y mapeo simultáneos (SLAM), y es un desafío continuo en la investigación de robótica y visión por computadora.

Historia de SLAM

Llegar al punto en el que podamos ejecutar SLAM en dispositivos móviles requirió más de 40 años de investigación. Las primeras técnicas SLAM se publicaron como artículos de investigación en la década de 1980 y se desarrollaron originalmente para la navegación de robots en entornos desconocidos.

En aquellos primeros días, SLAM aprovechaba sensores costosos o hechos a medida, como LIDAR, SONAR o cámaras estéreo. Pero con el avance tecnológico y la adopción de los teléfonos inteligentes modernos (casi todos los cuales ahora contienen al menos una cámara, además de un giroscopio y un acelerómetro), capacidades que solían estar restringidas a los especialistas ahora están disponibles para todos. Hoy en día, SLAM se utiliza no sólo para colocar objetos en una escena, sino también para una variedad de otras aplicaciones, incluidos automóviles autónomos, robots aspiradores y cirugía mínimamente invasiva.

SLAM móvil en Facebook

Nuestro equipo de Aprendizaje Automático Aplicado (AML), que toma los últimos avances en la investigación de IA y los convierte en infraestructura para nuevos productos, aprovechó el trabajo inicial realizado en Oculus en su grupo de Visión por Computadora para construir e implementar SLAM a escala. En el camino, hubo tres desafíos de ingeniería clave.

Un algoritmo adaptado a cada dispositivo

Nuestra biblioteca SLAM integra funciones de múltiples sistemas (ORB-SLAM, SVO y LSD SLAM), pero lo que realmente la distingue es la optimización del rendimiento de la biblioteca, hasta la última instrucción. Tener un sistema SLAM capaz de funcionar a 60 Hz en dispositivos móviles es difícil: cada 16 milisegundos, su teléfono tiene que capturar una imagen, encontrar cientos de puntos clave interesantes, relacionarlos con los mismos puntos del cuadro anterior y luego usar trigonometría. para determinar dónde está cada uno de estos puntos en el espacio 3D. Dado que están sucediendo tantas cosas, necesitábamos realizar muchas optimizaciones detalladas y repensar cómo funcionan estos algoritmos.

Además de eso, el desafío de implementar SLAM móvil en el ecosistema de Facebook es que nuestra comunidad utiliza una amplia gama de dispositivos móviles. Queremos admitir tantos de estos como sea posible, por lo que parte de nuestros esfuerzos son garantizar que nuestra implementación de SLAM sea compatible con versiones anteriores.

Puedes ver un ejemplo de esto en los requisitos para la calibración del dispositivo. Tanto los modelos de teléfonos iOS como los de Android tienen características únicas, pero Android es especialmente diverso y hay miles de modelos de dispositivos con diferentes capacidades de hardware. Cada modelo tiene una calibración de cámara diferente en cuanto a distancia focal, punto principal y parámetros de distorsión, de modo que podemos proyectar puntos 3D en el espacio de la cámara con una precisión de subpíxeles.

Además, los dispositivos móviles tienen cámaras con persiana enrollable con enfoque y exposición automáticos, que también deben tenerse en cuenta. A medida que la cámara enfoca cosas que están más cerca y más lejos, esta calibración cambia; también es necesario calibrar la IMU (unidad de medición inercial, que rastrea la aceleración y rotación del dispositivo); y los relojes de la cámara y la IMU deben estar sincronizados. Comenzamos con una calibración aproximada para cada modelo y la ajustamos para su dispositivo específico con el tiempo.

La búsqueda del tamaño binario

La aplicación de Facebook ya es una de las aplicaciones más complejas en las tiendas de aplicaciones de Android o iOS, y trabajamos constantemente para agregar nuevas funciones interesantes a la aplicación manteniendo su tamaño total lo más pequeño posible. La biblioteca SLAM original se desarrolló en Oculus, para un caso de uso diferente, y tenía un tamaño de aproximadamente 40 MB, ya que utilizaba múltiples bibliotecas grandes de código abierto. Extrajimos la funcionalidad SLAM mínima que permitiría nuestro trabajo y la refactorizamos para usar bibliotecas comunes de Facebook, lo que llevó el tamaño de la biblioteca a menos de 1 MB.

Implementar una experiencia creíble

Crear AR móvil convincente requiere algo más que aprovechar SLAM. Comenzamos a explorar nuestros primeros prototipos para colocar arte 3D sobre las superficies reconstruidas de SLAM en noviembre pasado y, desde entonces, comenzamos la investigación de UX sobre los gestos más intuitivos para colocar y reemplazar arte, cambiar arte y rotar/panorama/zoom arte después de que haya sido ya se ha colocado, para permitir a las personas encuadrar con precisión sus composiciones a través de sus dispositivos móviles. Exploramos cómo reconocer ubicaciones específicas para colocar contenido AR y analizar la geometría de la escena para hacer que los objetos virtuales se adhieran a las superficies reales.

Para crear una mejor experiencia de usuario, también necesitábamos tener en cuenta los modos de falla de nuestras tecnologías y desarrollar soluciones alternativas. Con ese fin, creamos la API WorldTracker, una interfaz general que combina SLAM con otros algoritmos de seguimiento para “colocar cosas en el mundo”. La versión actual de World Tracker realiza una transición entre SLAM y un rastreador basado en imágenes mejorado con giroscopio para ubicar cosas en el mundo, cuando SLAM no está seguro de su ubicación.

El primer proyecto de arte impulsado por AR de Facebook con Heather Day

Una vez creadas estas herramientas básicas, llegó el momento de trabajar con un artista para ayudarnos a aprender nuevas técnicas para hacer que la RA se sienta auténtica y parte de la vida cotidiana. Invitamos a Heather Day al campus de Menlo Park, donde se instalaría virtualmente su obra de arte. Cada vez que vertía pintura, hacía una pincelada, dibujaba un patrón o hacía cualquier otro tipo de marca, el equipo de AML capturaba esos movimientos con la cámara y los agregaba a una biblioteca digital.

El equipo de AML trabajó con Heather para determinar qué imágenes deberían entregarse a los animadores y qué movimientos deberían realizar en la instalación de realidad aumentada que vive y respira. En dos semanas, construyeron tecnología que reconocería la ubicación específica del arte y analizaría la geometría de la escena que hizo que la instalación virtual de Heather se adhiriera a superficies reales.Pausa

video

En nuestra conferencia de desarrolladores F8 de este año, la audiencia vio cómo el arte de Heather cobraba vida con ritmo mientras fluía desde las paredes hasta el suelo como una cascada. A través de la tecnología SLAM y su experiencia creativa, borramos los límites entre lo virtual y lo real (entre la ciencia y el arte) y en el proceso dimos una idea de cómo la tecnología y el arte pueden entrelazarse. Esta es nuestra visión de enriquecer la vida cotidiana con las posibilidades de la ecosfera virtual y digital.

Direcciones futuras

La RA nos ofrece infinitas formas de interactuar y experimentar el mundo. Si bien hemos llegado increíblemente lejos en la mejora de la tecnología AR, aún queda más por hacer. Nuestro siguiente paso es crear experiencias aún más geolocalizadas y persistentes, como la que construimos para la instalación de RA de Heather en Menlo Park. Más adelante, estamos explorando cómo combinar el poder de las redes neuronales profundas y Caffe2 para crear mapas SLAM más completos, manejar objetos dinámicos, agregar información semántica y crear experiencias AR persistentes profundamente integradas con el ecosistema de Facebook. Estamos emocionados de profundizar en estos conceptos y lo mantendremos informado sobre nuestro progreso.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *