Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
Equipe de pesquisa de IA da Apple desenvolveu um novo modelo que poderia avançar significativamente a forma como as máquinas percebem a profundidade, potencialmente transformando indústrias que vão desde a realidade aumentada até os veículos autônomos.
O sistema, chamado Profundidade Profissionalé capaz de gerar mapas de profundidade 3D detalhados a partir de imagens 2D únicas em uma fração de segundo – sem depender dos dados da câmera tradicionalmente necessários para fazer tais previsões.
A tecnologia, detalhada em um artigo de pesquisa intitulado “Depth Pro: Profundidade métrica monocular nítida em menos de um segundo”, é um grande avanço no campo da estimativa de profundidade monocular, um processo que usa apenas uma imagem para inferir a profundidade.
Isto poderia ter aplicações de longo alcance em setores onde a consciência espacial em tempo real é fundamental. Os criadores do modelo, liderados por Aleksei Bochkovskii e Vladlen Koltun, descrevem o Depth Pro como um dos sistemas mais rápidos e precisos do seu tipo.
A estimativa de profundidade monocular tem sido uma tarefa desafiadora, exigindo múltiplas imagens ou metadados, como distâncias focais, para avaliar a profundidade com precisão.
Mas o Depth Pro contorna esses requisitos, produzindo mapas de profundidade de alta resolução em apenas 0,3 segundos em uma GPU padrão. O modelo pode criar mapas de 2,25 megapixels com nitidez excepcional, capturando detalhes mínimos, como cabelo e vegetação, que muitas vezes são esquecidos por outros métodos.
“Essas características são possibilitadas por uma série de contribuições técnicas, incluindo um transformador de visão multiescala eficiente para previsão densa”, explicam os pesquisadores em seu artigo. Essa arquitetura permite que o modelo processe simultaneamente o contexto geral de uma imagem e seus detalhes mais sutis – um enorme salto em relação aos modelos mais lentos e menos precisos que vieram antes dele.
Profundidade métrica, aprendizado zero-shot
O que realmente diferencia o Depth Pro é sua capacidade de estimar a profundidade relativa e absoluta, um recurso chamado “profundidade métrica”.
Isto significa que o modelo pode fornecer medições do mundo real, o que é essencial para aplicações como realidade aumentada (AR), onde os objetos virtuais precisam ser colocados em locais precisos dentro de espaços físicos.
E o Depth Pro não requer treinamento extensivo em conjuntos de dados específicos de domínio para fazer previsões precisas – um recurso conhecido como “aprendizado zero-shot”. Isso torna o modelo altamente versátil. Ele pode ser aplicado a uma ampla gama de imagens, sem a necessidade de dados específicos da câmera normalmente necessários em modelos de estimativa de profundidade.
“O Depth Pro produz mapas de profundidade métrica com escala absoluta em imagens arbitrárias ‘na natureza’ sem exigir metadados, como intrínsecos da câmera”, explicam os autores. Esta flexibilidade abre um mundo de possibilidades, desde o aprimoramento das experiências de RA até a melhoria da capacidade dos veículos autônomos de detectar e navegar obstáculos.
Para aqueles curiosos em experimentar o Depth Pro em primeira mão, um demonstração ao vivo está disponível na plataforma Hugging Face.
Aplicações no mundo real: do comércio eletrônico aos veículos autônomos
Essa versatilidade tem implicações significativas para vários setores. No comércio eletrônico, por exemplo, o Depth Pro poderia permitir que os consumidores vissem como os móveis cabem em sua casa, simplesmente apontando a câmera do telefone para o ambiente. Na indústria automóvel, a capacidade de gerar mapas de profundidade de alta resolução em tempo real a partir de uma única câmara poderia melhorar a forma como os carros autónomos percecionam o seu ambiente, aumentando a navegação e a segurança.
“Idealmente, o método deveria produzir mapas de profundidade métrica neste regime de tiro zero para reproduzir com precisão formas de objetos, layouts de cena e escalas absolutas”, escrevem os pesquisadores, enfatizando o potencial do modelo para reduzir o tempo e o custo associados ao treinamento de modelos de IA mais convencionais. .
Enfrentando os desafios da estimativa de profundidade
Um dos desafios mais difíceis na estimativa de profundidade é lidar com o que é conhecido como “pixels voadores” – pixels que parecem flutuar no ar devido a erros no mapeamento de profundidade. O Depth Pro aborda esse problema de frente, tornando-o particularmente eficaz para aplicações como reconstrução 3D e ambientes virtuais, onde a precisão é fundamental.
Além disso, o Depth Pro é excelente no rastreamento de limites, superando os modelos anteriores no delineamento nítido de objetos e suas bordas. Os pesquisadores afirmam que ele supera outros sistemas “por um fator multiplicativo na precisão dos limites”, o que é fundamental para aplicações que exigem segmentação precisa de objetos, como fosqueamento de imagens e imagens médicas.
Código aberto e pronto para escalar
Em um movimento que poderia acelerar sua adoção, a Apple tornou o Depth Pro de código aberto. O código, junto com os pesos do modelo pré-treinados, é disponível no GitHubpermitindo que desenvolvedores e pesquisadores experimentem e refinem ainda mais a tecnologia. O repositório inclui tudo, desde a arquitetura do modelo até pontos de verificação pré-treinados, facilitando que outros desenvolvam o trabalho da Apple.
A equipe de pesquisa também está incentivando uma maior exploração do potencial do Depth Pro em áreas como robótica, manufatura e saúde. “Lançamos código e pesos em https://github.com/apple/ml-profundidade-pro”, escrevem os autores, sinalizando que isso é apenas o começo do modelo.
O que vem a seguir para a percepção de profundidade da IA
À medida que a inteligência artificial continua a ultrapassar os limites do que é possível, Profundidade Profissional estabelece um novo padrão em velocidade e precisão para estimativa de profundidade monocular. Sua capacidade de gerar mapas de profundidade de alta qualidade e em tempo real a partir de uma única imagem pode ter efeitos abrangentes em setores que dependem da consciência espacial.
Num mundo onde a IA é cada vez mais central na tomada de decisões e no desenvolvimento de produtos, Profundidade Profissional exemplifica como a pesquisa de ponta pode se traduzir em soluções práticas e reais. Seja melhorando a forma como as máquinas percebem o que está ao seu redor ou melhorando as experiências do consumidor, os usos potenciais para Profundidade Profissional são amplos e variados.
À medida que os pesquisadores concluem, “o Depth Pro supera dramaticamente todos os trabalhos anteriores no delineamento preciso dos limites dos objetos, incluindo estruturas finas como cabelo, pêlo e vegetação”. Com seu lançamento de código aberto, Profundidade Profissional poderá em breve tornar-se parte integrante de indústrias que vão desde a condução autónoma até à realidade aumentada, transformando a forma como as máquinas e as pessoas interagem com ambientes 3D.