Como a VR e AR da Meta podem se transformar por meio da IA

Como a VR e AR da Meta podem ser transformadas pela IA

Enquanto todos no setor de tecnologia anunciam IA em tudo e a Apple prepara seu primeiro headset de VR/AR para o próximo ano, as notícias mais recentes da Meta na conferência Connect, voltada para desenvolvedores, abrangem ambos os lados ao mesmo tempo. Em um sentido, os produtos anunciados foram diretos: um novo Quest 3 com gráficos aprimorados e óculos Ray-Ban aprimorados com câmera e áudio, que chegarão ainda este mês. A Meta também anunciou uma série de chatbots com IA orientados por personalidade e uma ferramenta de criação de imagens e adesivos chamada Emu, impulsionada por IA generativa.

Tenho acompanhado os movimentos da Meta em VR e AR desde antes da aquisição do Oculus pelo Facebook, e até visitei os laboratórios de pesquisa da Meta no ano passado para tentar descobrir para onde o futuro está indo. Mas no final de 2023, parece mais do que nunca que os produtos que reconhecemos como “VR” e “óculos inteligentes” estão se transformando. O Quest 3 tem funções de realidade mista semelhantes às do Apple Vision Pro, às vezes com a sensação de óculos de AR em formato de VR. Os óculos, no próximo ano, começarão a ter IA embarcada que reconhecerá objetos e traduzirá texto, agindo quase como versões sem tela do Google Glass ou algum tipo de protótipo inicial de óculos de AR. E ambos devem ser capazes de executar formas de IA conversacional do Google, e possivelmente muito mais, graças à última geração de chips mais poderosos da Qualcomm.

Assista a isso:

Para ter uma ideia melhor de como a Meta irá combinar VR, AR e IA, conversei com o CTO e chefe de produto da Meta, Andrew Bosworth, para perguntar sobre o futuro. E quanto ao dispositivo esperado da Samsung? Onde está o rastreamento ocular, que estava no Quest Pro, mas é uma função ausente no Quest 3? E o que acontece com o Beat Saber em realidade mista?

A seguinte conversa foi levemente editada para maior clareza e concisão.

Onde você vê a relação entre o Quest 3 da Meta, os óculos inteligentes e a IA?Bosworth: Se você desenhasse um diagrama de caixas e setas da arquitetura que temos imaginado para AR por muito tempo, uma das caixas seria como, IA…? (risos) É tão raro nessa indústria que uma tecnologia surge e resolve seu problema sem que você a busque ativamente. Mas é mais ou menos o que aconteceu [com a IA].

Se você me perguntasse e perguntasse ao [Cientista-Chefe do Meta Reality Labs] Michael Abrash, há dois anos, talvez até no ano passado, qual seria o maior risco para o funcionamento da AR… por mais difíceis que sejam essas telas, por mais difíceis que seja a renderização, seria a IA. Suas expectativas como humano de ter uma interface que possa ver o que você vê, ouvir o que você ouve, ter senso comum são altas. E nossa capacidade de fornecer senso comum é baixa. Esse é o problema.

Estamos muito animados com [essa nova IA da Meta]; ela realmente resolveu o problema para nós. Era um problema que achávamos que teríamos mais tempo para resolver. A IA sempre foi uma parte fundamental da nossa visão. A diferença é que agora podemos realmente colocá-la em prática.

Há algum tempo, a Meta vem prometendo óculos inteligentes com assistente de IA que pode ver o que você vê. Como essas etapas estão começando a acontecer nos Ray-Bans do próximo ano?Bosworth: No momento, os óculos, em termos de energia, precisam ser ativados. Com o tempo, chegaremos ao ponto em que teremos sensores com baixo consumo de energia que conseguirão detectar um evento que aciona um reconhecimento que ativa a IA, esse é realmente o sonho pelo qual estamos trabalhando. E estamos trabalhando nesses sensores, estamos trabalhando nessa detecção de eventos. Apenas não tínhamos uma ótima solução para o que chamamos anteriormente de ‘o condutor’, que é a coisa que decide… é um bom momento? Você e eu estamos conversando cara a cara, então provavelmente devemos remover interfaces [em um par de futuros óculos de AR]. Se minha esposa me manda mensagens sobre compras, mantenha isso fora. Mas se você me manda uma mensagem dizendo que as crianças estão doentes e precisam da minha ajuda imediatamente, mostre isso. Como fazer isso?

Aprendemos muito indo da geração 1 para a geração 2, ao chegar a esses óculos Ray-Ban Meta. Vemos progresso em duas frentes: no hardware, onde estamos melhorando iterativamente tanto a qualidade quanto o preço das coisas. E estamos resolvendo um dos problemas de software críticos que tínhamos com a IA.

Os chatbots de IA da Meta, com personalidades e rostos de celebridades, aparecerão nos aplicativos do Facebook e em VR no Quest 3, mas ainda não nos óculos inteligentes.

Scott Stein/CNET

Esses óculos de IA terão também personalidades, ou apenas serão um assistente geral?Bosworth: A IA da Meta é mais um modelo de agente. Então acredito que o futuro da IA seja provavelmente uma divisão entre agentes – essas coisas externas às quais você recorre, elas têm sua própria espécie de atmosfera, você vai até elas e se envolve com elas – versus o que vou chamar de assistente pessoal.

Óculos de realidade aumentada vão ver tudo o que eu vejo; eles vão ver todas as mensagens privadas que eu envio. Eles vão ver todos os sites que eu visito. E eu quero que eles façam isso porque isso vai ajudá-los a me ajudar, e isso vai ser ótimo. Eles precisam ser privados. Tipo, realmente privados. Sabe, assim, bem discretos.

Além disso, eles também podem, através de plugins, agendar compromissos para mim? Claro. Eles também podem responder a mensagens por mim? Claro, eu confio neles. Mas eles precisam ser meus. Meu agente privado, pessoal. E isso não é o assistente de IA da Meta. A IA da Meta é o seu agente de propósito geral. Um agente com o qual eu posso conversar – sabe, coisas em geral. É com isso que vamos começar aqui. O que eu acredito que vai acabar preenchendo a RA é uma versão muito pessoal disso. Que tenha, esperançosamente, uma memória estendida, tenha a capacidade de aprender e conhecer você … e uma quantidade incrível de discrição.

O Quest 3 parece ser um ponto de entrada para a realidade mista. Mas há muitas coisas que podem evoluir, como os aumentos, aqueles widgets [que você anunciou]. Como você vê o que o Quest 3 vai ser? Bosworth: As pessoas esquecem que quando o [Oculus] Rift foi lançado, ninguém sabia como fazer movimentação na realidade virtual. Ninguém sabia como fazer essas coisas básicas. Um jogo tropeçava em uma mecânica incrível. E então todos os jogos diziam: ‘imita isso’. Os consumidores aprendiam aquela mecânica. E agora eles a conhecem, e não é mais difícil.

Temos muitas ideias do porquê achamos que [realidade mista] é ótimo. Estamos fazendo muitas coisas. Eu não acho que conhecemos nem metade disso. Os desenvolvedores vão descobrir coisas novas e empolgantes. Existem partes da realidade mista que eu acho que estão mais desenvolvidas. Temos um jogo de invasão alienígena, First Encounters, onde os aliens atravessam as paredes. Nós entendemos isso no contexto dos jogos clássicos. Existem partes da realidade mista que são apenas versões legais de coisas que já entendemos bem. Isso tem valor, no primeiro dia. Então, há os aumentos: vamos descobrir.

Uma das razões pelas quais é tão importante para nós começar esse trabalho agora é que, eventualmente, isso se torna o ecossistema de RA ao longo do tempo. É um longo caminho daqui até lá, mas você não pode começar cedo o suficiente.

Em breve, haverá vários jogos prontos para o Quest 3, mas não o Beat Saber (ainda).

Scott Stein/CNET

Por que ainda não há o Beat Saber para a realidade mista [no Quest 3]? Porque isso parece ser a aplicação perfeita. A mesma coisa com o Supernatural, seu aplicativo de fitness. Bosworth: Nós chegamos a analisar internamente uma versão de Beat Saber em realidade mista. Foi mais difícil do que você imagina. Quando esses cubos começam a uma grande distância de você, quando você tem um fundo preto muito escuro, você consegue vê-los, e seu cérebro está realmente contando com isso mais do que você percebe. Quando você está em um ambiente movimentado e bem iluminado, pode ser muito difícil vê-los. Meu ponto é que é um daqueles jogos que você pensa: ah, isso é só arrastar e soltar … e então você faz isso, e pensa: na verdade, há muito mais sutileza e nuances nisso do que percebemos. Então, você continua trabalhando nisso. Novamente, a razão pela qual é tão importante colocar isso nas mãos dos desenvolvedores em breve é para que eles possam começar a fazer esse trabalho.

Você sente que está mais próximo de um ponto em que as pessoas não precisarão de controles o tempo todo? Você sente que esse hardware [Quest 3] pode ver mais dessa realização? Bosworth: Continuamos a pensar que isso é uma possibilidade, especialmente com tanto tempo sendo gasto em ambientes sociais. Mais da metade do tempo [na RV] é gasto em atividades sociais: parte disso são jogos sociais que usam controles, mas nem todos. Não é uma questão de ‘funciona?’ – obviamente, pode funcionar. Mas certamente há bastante conteúdo hoje que as pessoas desejam acessar e que requerem controles.

Se, em algum momento, você disser: ei, existe o suficiente que você pode fazer apenas com as mãos para ter um produto totalmente viável, em vez de fazer alguém voltar à loja para comprar os controles que eles desejam … estamos sempre de olho nisso como uma forma de disponibilizar os dispositivos para as pessoas de uma maneira útil com um preço mais baixo.

O Meta Quest 3 possui atualizações, mas não possui rastreamento ocular embutido.

John Kim/CNET

Eu gostaria de saber sua opinião sobre o rastreamento ocular, pois ele está presente no Quest Pro e também no Vision Pro e PlayStation VR 2 [mas não no Quest 3]. O que você acha, em termos de interface, sobre a posição atual da plataforma Quest? Bosworth: Provavelmente continuarei usando meu Quest Pro para minhas reuniões, pois adoro o rastreamento ocular e facial. Temos brincado com rastreamento ocular e olhar mais mãos como uma interface de entrada do usuário há anos. O rastreamento ocular adiciona custo e complexidade ao hardware. Estamos falando de pelo menos duas câmeras por olho para fazer isso bem, sem mencionar a iluminação interna. O Apple Vision Pro, que é um dispositivo incrível, possui iluminação interna, então a iluminação passa pela lente. Se você fizer isso pela lente, não poderá usar óculos. Daí a necessidade de inserções ópticas de prescrição.

No futuro, o rastreamento ocular eventualmente fará parte da plataforma principal; acho que é uma ótima ferramenta. Para nós, é sempre uma questão de custo-benefício. Qual é a troca? Para o consumidor médio que estamos tentando alcançar, ele achará que vale a pena adicionar esse peso extra, custo, impacto térmico e de bateria pelo benefício que ele traz?

Há muito foco em abertura e compatibilidade: parcerias da Microsoft, Office 365 e jogos em nuvem. Você vê mais oportunidades para isso se alinhando com alguns dos hardwares que estão chegando? Entre a Apple e o que a Samsung está desenvolvendo com o Google, idealmente, haverá maneiras de interagir entre eles. Bosworth: Estamos aqui há 10 anos na Connect, fazendo esse trabalho, colocando-o lá fora. Dezenas de milhões de unidades vendidas. Quantos milhões e milhões de dólares pagos a desenvolvedores, negócios construídos na plataforma. Todos os outros não têm milhões.

Não estou dizendo que é impossível. Certamente, queremos usar muitos padrões abertos. Open XR, Vulcan, glTF. Estamos trabalhando nos padrões há muito tempo e tentando fazer isso de forma transparente e fácil. Executamos um sistema operacional baseado em Android. Seria trivial para o Google ou outra pessoa trazer uma loja de aplicativos de apps 2D para a plataforma. Nem seria difícil. Ficaríamos felizes em tê-los. Espero que as pessoas apoiem o ecossistema. Elas só precisam pegar o telefone e nos ligar.

Os óculos da Meta podem tirar fotos e gravar vídeos, mas não vídeos espaciais. Um dia, talvez.

Meta

Os óculos Ray-Ban podem fazer vídeos espaciais? Bosworth: A primeira versão do Ray-Ban Stories tinha uma câmera em cada haste e era capaz de capturar em estéreo em termos de hardware. Nós nunca desenvolvemos o software. Não foi muito popular entre os consumidores. Fizemos alguns testes de usuário e imagens estereoscópicas, até mesmo no Facebook e Instagram, onde você pode reproduzir em estereoscopia de forma interessante e também no fone de ouvido. As pessoas simplesmente não estavam gastando tempo olhando para fotos estéreo. Então acabamos não desenvolvendo para economizar energia extra ao não alimentar a segunda câmera, para que a bateria dure mais e a captura seja menor. Substituímos a segunda câmera por um LED [nos novos modelos].

Tenho várias câmeras de realidade virtual. Passei um ano inteiro gravando, todas as semanas, um sábado científico com meu filho em RV e colocando na internet. Eu realmente tenho entusiasmo por isso como criador. Mal posso esperar para começar; as peças obviamente não estão no lugar hoje. Mas acho importante maximizar esses óculos pelo que eles são, entendendo que as pessoas que estão usando [esses óculos] não estão necessariamente tentando ser criadores de RV. As pessoas que estão tentando ser criadores de RV provavelmente têm ferramentas melhores para o trabalho.

Falando com Hugo Swart, da Qualcomm, sobre o chip do Quest 3 e dos óculos Ray-Ban, parece que há mais largura de banda para sensores para parear com coisas. Talvez relógios. Ele mencionou sensores vestíveis. O que você vê? Bosworth: Temos ambições enormes nesse espaço. Obviamente, fomos abertos com nossos desenvolvimentos em interfaces neurais. Atualmente, estamos focados no pulso. E acho que essas coisas precisam estar em outros lugares. Então há oportunidade lá. Realisticamente, como quase todos os nossos headsets, esses dispositivos têm limitações térmicas. Não estamos limitados em termos de chips, largura de banda, E/S de entrada, número de canais, número de conexões, isso não é o principal limitador. É muito importante: você não poderia ter o número de sensores que temos sem o tipo de chip XR. Mas, uma vez que você ultrapassa essa barreira, você está realmente limitado pela capacidade bruta de criar energia térmica no rosto. Portanto, esse é o principal obstáculo que temos.