Junte-se aos nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a principal cobertura de IA. Mais informações
À medida que os sistemas de IA alcançam um desempenho sobre-humano em tarefas cada vez mais complexas, a indústria debate-se sobre se modelos maiores são sequer possíveis – ou se a inovação deve seguir um caminho diferente.
A abordagem geral para o desenvolvimento de grandes modelos de linguagem (LLMs) tem sido que quanto maior, melhor e que o desempenho aumenta com mais dados e mais poder de computação. No entanto, as discussões recentes nos meios de comunicação social centraram-se na forma como os LLM estão a aproximar-se dos seus limites. “A IA está atingindo uma parede?” A beira questionado enquanto Reuters relatado que “a OpenAI e outros estão procurando um novo caminho para uma IA mais inteligente, à medida que os métodos atuais enfrentam limitações.”
A questão é que a escala que impulsionou os avanços durante anos pode não se estender à próxima geração de modelos. O relatório sugere que o desenvolvimento de modelos de fronteira como o GPT-5, que ultrapassam os limites atuais da inteligência artificial, pode enfrentar problemas devido ao declínio dos ganhos de desempenho durante o pré-treinamento. Informação relatou sobre esses desafios na OpenAI e Bloomberg abordado notícias semelhantes no Google e na Anthropic.
Este problema levou a preocupações de que estes sistemas possam estar sujeitos à lei dos rendimentos decrescentes – onde cada unidade adicionada de factor de produção produz lucros progressivamente menores. À medida que os LLMs crescem, o custo de obtenção de dados de treinamento de alta qualidade e de escalonamento da infraestrutura aumenta exponencialmente, reduzindo o retorno sobre melhorias de desempenho para novos modelos. Este problema é agravado pela disponibilidade limitada de novos dados de alta qualidade, uma vez que grande parte da informação disponível já foi incorporada nos conjuntos de dados de formação existentes.
Isso não significa o fim dos ganhos de poder para a IA. Significa simplesmente que é necessária mais engenharia através da inovação na arquitectura de modelos, técnicas de optimização e utilização de dados para sustentar o progresso.
Lições da Lei de Moore
Um padrão semelhante de rendimentos decrescentes surgiu na indústria de semicondutores. Durante décadas, a indústria beneficiou da Lei de Moore, que previa que o número de transístores duplicaria a cada 18 a 24 meses, levando a melhorias drásticas no desempenho através de designs mais pequenos e mais eficientes. Mesmo isso acabou atingindo retornos decrescentes, começando em algum lugar entre 2005 e 2007 devido a Dimensionamento de Dennard – o princípio de que o encolhimento dos transistores também reduz o consumo de energia – quando atingem seus limites, o que alimentou as previsões a morte da Lei de Moore.
Analisei esse problema de perto quando trabalhei com a AMD de 2012-2022. Esse problema não significava que os semicondutores — e, por extensão, os processadores de computador — parassem de melhorar o desempenho de uma geração para a seguinte. Isso significou que as melhorias vieram de designs de chips, memória de alta largura de banda, switches ópticos, buffers maiores e arquiteturas de computação aceleradas, em vez de transistores cada vez menores.
Novas maneiras de progredir
Fenômenos semelhantes já são observados nos atuais LLMs. Modelos multimodais de IA, como GPT-4o, Claude 3.5 e Gemini 1.5, demonstraram o poder de integrar a compreensão de texto e imagem, permitindo o progresso em tarefas complexas, como análise de vídeo e legenda contextual de imagens. Mais ajustes nos algoritmos de treinamento e inferência levarão a maiores ganhos de desempenho. As tecnologias de agente que permitem aos LLMs executar tarefas de forma autónoma e coordenar-se perfeitamente com outros sistemas irão em breve expandir enormemente as suas aplicações práticas.
Futuros modelos inovadores podem surgir de um ou mais projetos de arquitetura híbrida de IA que combinam raciocínio simbólico com redes neurais. O modelo de raciocínio o1 da OpenAI já mostra o potencial de integração de modelos e extensão de desempenho. Embora só agora esteja emergindo de um estágio inicial de desenvolvimento, a computação quântica é promissora para acelerar o treinamento e a inferência de IA, abordando os atuais gargalos computacionais.
Parece improvável que este muro de escalada acabe com os ganhos futuros, à medida que a comunidade de investigação em IA continua a demonstrar a sua engenhosidade na superação de desafios e no desbloqueio de novas capacidades e melhorias de desempenho.
Na verdade, nem todos concordam que o muro exista. O CEO da OpenAI, Sam Altman, foi sucinto em sua opinião: “Não há parede”.
Falando em “Diário do CEO” podcast, ex-CEO do Google e coautor Gênese Eric Schmidt concordou com Altman em princípio, dizendo que não acredita que exista um muro de escalada – pelo menos não nos próximos cinco anos. “Em cinco anos, você terá mais duas ou três voltas na manivela desses LLMs.” Cada uma dessas manivelas parece ter o dobro, o triplo, o quádruplo da capacidade, então digamos que você gire uma manivela em todos esses sistemas e obtenha 50 ou 100 vezes a potência”, disse ele.
Os principais inovadores da IA continuam optimistas quanto ao ritmo do progresso, bem como ao potencial para novas metodologias. Este otimismo é evidente em entrevista recente sobre “Podcast de Lennycom o CPO Kevin Weil e o CPO da Anthropic Mike Krieger.
Nessa discussão, Krieger descreveu o que a OpenAI e a Anthropic estão trabalhando hoje “parece mágica”, mas reconheceu que em apenas 12 meses, “vamos olhar para trás e dizer: você acredita que usamos esse lixo? … É assim que o (desenvolvimento da IA) está indo rápido.”
É verdade – parece mágica, como experimentei recentemente ao usar o modo de voz avançado do OpenAI. Conversar com ‘Juniper’ foi completamente natural e contínuo, demonstrando como a IA está evoluindo para compreender e responder com emoção e nuances em conversas em tempo real.
Krieger também discute o recente modelo o1, referindo-se a ele como “uma nova forma de dimensionar a inteligência, e sentimos que estamos apenas no começo”. Ele acrescentou: “Os modelos ficarão mais inteligentes em um ritmo acelerado”.
Estes avanços previstos sugerem que, embora as abordagens tradicionais de expansão possam ou não enfrentar retornos decrescentes num futuro próximo, o campo da inteligência artificial está preparado para novos avanços através de novas metodologias e engenharia criativa.
A escala ainda importa?
Embora os desafios da expansão dominem grande parte do discurso atual sobre o LLM, estudos recentes sugerem que os modelos atuais já são capazes de resultados extraordinários, levantando a questão provocativa de saber se uma expansão mais equilibrada é importante.
E suposto estudo recente que o ChatGPT ajudaria os médicos a fazer diagnósticos quando surgirem casos complicados de pacientes. Um estudo conduzido com uma versão inicial do GPT-4 comparou as habilidades de diagnóstico do ChatGPT com as de médicos com e sem assistência de IA. O resultado surpreendente revelou que o ChatGPT sozinho superou significativamente ambos os grupos, incluindo médicos que utilizam assistência de IA. Existem várias razões, desde o facto de os médicos não compreenderem a melhor forma de utilizar um robô até à crença de que o seu conhecimento, experiência e intuição são inerentemente superiores.
Este não é o primeiro estudo a mostrar que os robôs têm melhor desempenho que os profissionais. VentureBeat relatou um estudo no início deste ano que mostrou que os LLMs podem realizar análises de demonstrações financeiras com uma precisão que rivaliza – e até excede – a dos analistas profissionais. Também utilizando o GPT-4, outro objetivo era prever o crescimento futuro dos lucros. O GPT-4 alcançou 60% de precisão na previsão da direção dos ganhos futuros, significativamente superior à faixa de 53-57% das estimativas dos analistas humanos.
Ambos os exemplos são baseados em modelos já desatualizados. Estes resultados sublinham que, mesmo sem novos avanços na escala, os LLMs existentes já são capazes de superar os especialistas em tarefas complexas, desafiando suposições sobre a necessidade de uma maior escala para alcançar resultados impressionantes.
Dimensionamento, habilidade ou ambos
Estes exemplos mostram que os atuais LLMs já são altamente capazes, mas a expansão por si só pode não ser o único caminho a seguir para a inovação futura. Mas com uma maior escala possível e outras técnicas emergentes que prometem melhorar o desempenho, o optimismo de Schmidt reflecte o ritmo rápido do progresso da IA, sugerindo que em apenas cinco anos os modelos poderão evoluir para polímatas, respondendo perfeitamente a questões complexas em muitas disciplinas.
Seja através da expansão, de competências ou de metodologias inteiramente novas, a próxima fronteira da inteligência artificial promete transformar não só a tecnologia em si, mas também o seu papel nas nossas vidas. O desafio que temos pela frente é garantir que o progresso continue a ser responsável, equitativo e impactante para todos.
Gary Grossman é vice-presidente executivo da prática de tecnologia da empresa Edelman e o líder global Edelman AI Center of Excellence.
Tomadores de decisões de dados
Bem-vindo à comunidade VentureBeat!
DataDecisionMakers é um lugar onde especialistas, incluindo profissionais de dados técnicos, podem compartilhar insights e inovações relacionadas aos dados.
Se você quiser ler sobre ideias de ponta e informações atuais, melhores práticas e o futuro dos dados e da tecnologia de dados, junte-se a nós no DataDecisionMakers.
Você pode até considerar contribuir com seu próprio artigo!
Leia mais em DataDecisionMakers
Source link