A Google anunciou um novo modelo Gemini capaz de navegar na Web e realizar acções de forma autónoma. O novo recurso chama-se 2.5 Computer Use e actua como um agente nos navegadores. O novo modelo incorpora as capacidades de compreensão visual e raciocínio do Gemini 2.5 Pro, ao mesmo tempo que é capaz de interagir com interfaces de utilizador. Desta forma, a IA compreenderá as informações na página, localizará dados e agirá da mesma forma que uma pessoa agiria. De acordo com a empresa, o objectivo é ir além do uso de interface de programação de aplicações (API) por Inteligência Artificial — muitas tarefas podem exigir que a IA responda à interface do utilizador, por isso é importante ter uma alternativa para isso. Os dados revelados pela empresa indicam que o modelo pode actuar como um agente de baixa latência, o que significa que pode operar mais rapidamente. O Gemini 2.5 Computer Use foi concebido para interagir com interfaces em páginas Web e realizar várias acções automaticamente. Alguns exemplos são: Pesquisar e digitar páginas da Web na barra de pesquisa; Mover o cursor do mouse em diferentes secções do site; Preencher formulários e iniciar sessão; Copiar e seleccionar textos. A Google afirma que o LLM está optimizado para funcionar em navegadores da Web, mas mostra sinais positivos para controlar interfaces de dispositivos móveis e ainda não foi optimizado para sistemas operacionais de computadores. O novo recurso pode ser usado para melhorar o própria Google Chrome, já que a empresa prometeu a chegada de agentes ao navegador no futuro. Por enquanto, o modelo funciona apenas para demonstrações. Fonte: Canaltech

Post a comment

Your email address will not be published.

Related Posts