Junte-se aos nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a principal cobertura de IA. Mais informações
Complexo nova pesquisa de pesquisadores da Microsoft e parceiros acadêmicos mostra que os agentes de inteligência artificial que usam grandes modelos de linguagem (LLMs) são cada vez mais capazes de controlar interfaces gráficas de usuário (GUIs), potencialmente mudando a forma como as pessoas interagem com o software.
Essencialmente, a tecnologia dá aos sistemas de IA a capacidade de ver e manipular interfaces de computador da mesma forma que os humanos fazem – clicando em botões, preenchendo formulários e navegando entre aplicativos. Em vez de os usuários terem que aprender comandos de software complexos, esses “agentes GUI” podem interpretar solicitações de linguagem natural e executar as ações necessárias automaticamente.
“Esses agentes representam uma mudança de paradigma, permitindo que os usuários executem tarefas complexas e de várias etapas por meio de comandos de conversação simples”, pesquisadores escrever. “Seus aplicativos abrangem navegação na web, interações de aplicativos móveis e automação de desktop, oferecendo uma experiência de usuário transformadora que revoluciona a maneira como os indivíduos interagem com o software”.
Pense nele como um assistente executivo altamente qualificado que pode operar qualquer programa de software para você. Você simplesmente diz ao assistente o que deseja alcançar e ele cuida de todos os detalhes técnicos de como alcançá-lo.
A ascensão dos assistentes de negócios de IA está mudando tudo
As grandes empresas tecnológicas já estão a correr para incorporar estas capacidades nos seus produtos. da Microsoft Automatização de energia usa LLM para ajudar os usuários a criar fluxos de trabalho automatizados entre aplicativos. Empresas Assistente de inteligência artificial copiloto pode controlar diretamente o software com base em comandos de texto. O uso de computador antrópico para Claude permite que a IA interaja com interfaces da web e execute tarefas complexas. Diz-se que o Google está desenvolvendo Projeto Jarvisum sistema de inteligência artificial que usaria o navegador Chrome para realizar tarefas da web, como pesquisar, fazer compras e reservar viagens, embora esse recurso ainda esteja em desenvolvimento e não tenha sido lançado publicamente.
“O advento de grandes modelos de linguagem, especialmente modelos multimodais, inaugurou uma nova era de automação de GUI”, observa o artigo. “Eles demonstraram habilidades excepcionais em compreensão de linguagem natural, geração de código, generalização de tarefas e processamento visual.”
Isto representa potencial Oportunidade de mercado de US$ 68,9 bilhões até 2028, de acordo com analistas da BCC Research, à medida que as empresas procuram automatizar tarefas repetitivas e tornar o seu software acessível a utilizadores não técnicos. Espera-se que o mercado cresça de US$ 8,3 bilhões em 2022 para este valor a uma taxa composta de crescimento anual (CAGR) de 43,9% durante o período de previsão.
Impacto nos negócios: desafios e oportunidades na automação de IA
No entanto, ainda existem obstáculos significativos antes que a tecnologia se torne generalizada. Os pesquisadores identificam várias limitações importantes, incluindo preocupações com privacidade quando os agentes lidam com dados confidenciais, as limitações de poder computacional e a necessidade de melhor segurança e confiabilidade.
“Embora eficazes para fluxos de trabalho predefinidos, esses métodos não tinham a flexibilidade e a adaptabilidade necessárias para aplicações dinâmicas do mundo real”, afirma o artigo sobre abordagens de automação anteriores.
A equipa de investigação fornece um roteiro detalhado para enfrentar estes desafios, enfatizando a importância de desenvolver modelos mais eficientes que possam ser executados localmente em dispositivos, implementando medidas de segurança robustas e criando estruturas de avaliação padronizadas.
“Ao incorporar segurança e ações customizáveis, esses agentes garantem eficiência e segurança no processamento de comandos complexos”, observam os pesquisadores, destacando os avanços recentes na preparação da tecnologia para as empresas.
Para os líderes de tecnologia empresarial, o surgimento de agentes GUI habilitados para LLM representa uma oportunidade e uma consideração estratégica. Embora esta tecnologia prometa ganhos de produtividade significativos através da automação, as organizações terão de avaliar cuidadosamente as implicações de segurança e os requisitos de infraestrutura da implementação destes sistemas de IA.
“O campo dos agentes GUI está avançando em direção a arquiteturas multiagentes, capacidades multimodais, diversos conjuntos de ações e novas estratégias de tomada de decisão”, explica o artigo. “Essas inovações representam passos significativos em direção à criação de agentes inteligentes e adaptáveis, capazes de alto desempenho em ambientes diversos e dinâmicos”.
Especialistas do setor presumem que pelo menos até 2025 60% das grandes empresas testará alguma forma de agentes de automação GUI, potencialmente levando a enormes ganhos de eficiência, mas também levantando questões importantes sobre privacidade de dados e deslocamento de empregos.
Uma pesquisa abrangente sugere que estamos num ponto de inflexão em que as interfaces conversacionais de IA podem mudar fundamentalmente a forma como as pessoas interagem com o software – embora percebamos que esse potencial exigirá avanços contínuos tanto na tecnologia subjacente como nas práticas de implementação de negócios.
“Estes desenvolvimentos estabelecem as bases para agentes mais versáteis e poderosos, capazes de lidar com ambientes complexos e dinâmicos”, concluem os investigadores, apontando para um futuro onde os assistentes de inteligência artificial se tornarão parte integrante da forma como trabalhamos com computadores.
Source link