Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
Os dados são o Santo Graal da IA. Desde startups ágeis até conglomerados globais, organizações de todo o mundo estão investindo bilhões de dólares para mobilizar conjuntos de dados para aplicações e sistemas de IA de alto desempenho.
Mas, mesmo depois de todo o esforço, a realidade é que o acesso e a utilização de dados de diferentes fontes e através de diversas modalidades – sejam texto, vídeo ou áudio – estão longe de ser perfeitos. O esforço envolve diferentes camadas de trabalho e integrações, o que muitas vezes leva a atrasos e à perda de oportunidades de negócios.
Entre na Califórnia Dados de abertura. Para enfrentar este desafio, a startup desenvolveu uma camada de dados unificada, ApertureDB, que combina o poder dos bancos de dados gráficos e vetoriais com o gerenciamento de dados multimodais. Isso ajuda as equipes de IA e de dados a lançar seus aplicativos no mercado com muito mais rapidez do que tradicionalmente possível. Hoje, a ApertureData anunciou US$ 8,25 milhões em financiamento inicial junto com o lançamento de uma versão nativa da nuvem de seu banco de dados de gráficos vetoriais.
“O ApertureDB pode reduzir a infraestrutura de dados e os tempos de preparação de conjuntos de dados em 6 a 12 meses, oferecendo um valor incrível para CTOs e CDOs que agora devem definir uma estratégia para uma implantação bem-sucedida de IA em um ambiente extremamente volátil com requisitos de dados conflitantes”, Vishakha Gupta, o fundador e CEO da ApertureData, disse ao VentureBeat. Ela observou que a oferta pode aumentar a produtividade das equipes de ciência de dados e ML que desenvolvem IA multimodal em dez vezes, em média.
O que o ApertureData traz para a mesa?
Muitas organizações consideram que o gerenciamento de sua pilha crescente de dados multimodais (terabytes de texto, imagens, áudio e vídeo diariamente) é um gargalo no aproveitamento da IA para obter ganhos de desempenho.
O problema não é a falta de dados (o volume de dados não estruturados só aumentou crescente), mas o ecossistema fragmentado de ferramentas necessárias para transformá-lo em IA avançada.
Atualmente, as equipes precisam ingerir dados de diferentes fontes e armazená-los em depósitos de nuvem – com metadados em constante evolução em arquivos ou bancos de dados. Em seguida, eles precisam escrever scripts personalizados para pesquisar, buscar ou talvez fazer algum pré-processamento das informações.
Uma vez concluído o trabalho inicial, eles precisam inserir bancos de dados gráficos e recursos de pesquisa e classificação de vetores para fornecer a experiência de IA generativa planejada. Isso complica a configuração, deixando as equipes lutando com tarefas significativas de integração e gerenciamento e, em última análise, atrasando os projetos por vários meses.
“As empresas esperam que sua camada de dados lhes permita gerenciar diferentes modalidades de dados, preparar dados facilmente para ML, facilitar o gerenciamento de conjuntos de dados, gerenciar anotações, rastrear informações de modelos e permitir que pesquisem e visualizem dados usando pesquisas multimodais. Infelizmente, a escolha atual para atingir cada um desses requisitos é uma solução integrada manualmente, onde eles precisam reunir armazenamentos em nuvem, bancos de dados, rótulos em vários formatos, bibliotecas de processamento exigentes (de visão) e bancos de dados vetoriais, para transferir entrada de dados multimodais para IA significativa. ou resultados analíticos”, explicou Gupta, que teve pela primeira vez vislumbres desse problema ao trabalhar com dados de visão na Intel.
Motivada por esse desafio, ela se uniu a Luis Remis, pesquisador pesquisador do Intel Labs, e iniciou o ApertureData para construir uma camada de dados que pudesse lidar com todas as tarefas de dados relacionadas à IA multimodal em um só lugar.
O produto resultante, ApertureDB, permite hoje que as empresas centralizem todos os conjuntos de dados relevantes – incluindo imagens grandes, vídeos, documentos, incorporações e seus metadados associados – para recuperação eficiente e tratamento de consultas. Ele armazena os dados, fornecendo uma visão uniforme do esquema aos usuários e, em seguida, fornece gráficos de conhecimento e recursos de pesquisa vetorial para uso posterior em todo o pipeline de IA, seja para construir um chatbot ou um sistema de pesquisa.
“Através de centenas de conversas, aprendemos que precisamos de um banco de dados que não apenas compreenda a complexidade do gerenciamento de dados multimodais, mas também entenda os requisitos de IA para facilitar a adoção e implantação das equipes de IA na produção. Foi isso que construímos com o ApertureDB”, acrescentou Gupta.
Como é diferente do que está no mercado?
Embora existam muitos bancos de dados focados em IA no mercado, o ApertureData espera criar um nicho para si mesmo, oferecendo um produto unificado que armazena e reconhece nativamente dados multimodais e combina facilmente o poder dos gráficos de conhecimento com a rápida pesquisa vetorial multimodal para casos de uso de IA. . Os usuários podem armazenar e aprofundar facilmente os relacionamentos entre seus conjuntos de dados e, em seguida, usar estruturas e ferramentas de IA de sua escolha para aplicativos direcionados.
“Nossa verdadeira concorrência é uma plataforma de dados construída internamente com uma combinação de ferramentas de dados como banco de dados relacional/gráfico, armazenamento em nuvem, bibliotecas de processamento de dados, banco de dados vetorial e scripts internos ou ferramentas de visualização para transformar diferentes modalidades de dados em insights úteis. Os titulares que normalmente substituímos são bancos de dados como Postgres, Weaviate, Qdrant, Milvus, Pinecone, MongoDB ou Neo4j – mas no contexto de casos de uso de IA multimodal ou generativa”, enfatizou Gupta.
A ApertureData afirma que seu banco de dados, em sua forma atual, pode facilmente aumentar a produtividade das equipes de ciência de dados e IA em uma média de 10x. Pode ser até 35 vezes mais rápido do que soluções díspares na mobilização de conjuntos de dados multimodais. Enquanto isso, especificamente em termos de pesquisa e classificação de vetores, é 2 a 4 vezes mais rápido do que os bancos de dados de vetores de código aberto existentes no mercado.
O CEO não divulgou os nomes exatos dos clientes, mas destacou que eles garantiram implantações de clientes selecionados da Fortune 100, incluindo um grande varejista de móveis domésticos, um grande fabricante e algumas startups de biotecnologia, varejo e IA de geração emergente.
“Em todas as nossas implantações, os benefícios comuns que ouvimos de nossos clientes são produtividade, escalabilidade e desempenho”, disse ela, observando que a empresa economizou US$ 2 milhões para um de seus clientes.
Como próximo passo, planeia continuar este trabalho expandindo a nova plataforma cloud para acomodar as classes emergentes de aplicações de IA, concentrando-se em integrações de ecossistemas para proporcionar uma experiência perfeita aos utilizadores e alargar as implementações de parceiros.