A Agentic AI está transformando a forma como os usuários realizam seu trabalho. Após o sucesso do OpenClaw, a comunidade tem adotado novos frameworks agênticos de código aberto. O mais recente é o Hermes Agent, que ultrapassou 140.000 estrelas no GitHub em menos de três meses e, na semana passada, tornou-se o agente mais utilizado no mundo, de acordo com o OpenRouter.
Desenvolvido pela Nous Research, o Hermes foi projetado para oferecer confiabilidade e autoaperfeiçoamento — duas qualidades historicamente difíceis de alcançar em agentes. Independentemente de provider e modelo por concepção e otimizados para uso local ininterrupto, os PCs NVIDIA RTX, as workstations NVIDIA RTX PRO e o NVIDIA DGX Spark se tornam o hardware ideal para executá-lo em velocidade máxima, 24 horas por dia.
Os modelos Qwen 3.6, uma nova série de LLMs (large language models) de alto desempenho e pesos abertos da Alibaba, são ideais para rodar local agents como o Hermes. Os modelos Qwen 3.6 com 27B e 35B parâmetros superam seus antecessores de 120B e 400B parâmetros e rodam em GPUs NVIDIA RTX e DGX Spark para accelerated Agentic AI.
Hermes: local AI agent capacidades aceleradas
Assim como outros agentes populares, o Hermes se integra a aplicativos de mensagens, podendo acessar arquivos e aplicações locais e operando 24/7. No entanto, quatro capacidades se destacam e o diferenciam. Confira abaixo:
- Self-Evolving Skills: o Hermes escreve e aprimora suas próprias skills. Cada vez que o agente encontra uma tarefa complexa ou recebe feedback, ele salva o aprendizado como uma skill, permitindo que se adapte e evolua ao longo do tempo.
- Contained Sub-Agents: o Hermes trata subagentes como workers efêmeros e isolados, dedicados a uma subtarefa específica — com contexto e conjunto de ferramentas bem delimitados. Isso mantém a organização das tarefas em ordem, minimiza confusões para o agente e permite que o Hermes opere com janelas de contexto menores, o que é ideal para modelos locais.
- Reliability by design: a Nous Research seleciona e testa sob estresse cada skill, ferramenta e plug-in que acompanha o Hermes. O resultado: o Hermes simplesmente funciona — mesmo com modelos locais da classe de 30 bilhões de parâmetros — sem a necessidade de debugging constante que a maioria dos outros frameworks de agentes exige.
- Mesmo modelo, resultados melhores: comparações realizadas por desenvolvedores utilizando modelos idênticos em diferentes frameworks mostram consistentemente resultados superiores no Hermes. A diferença está no framework: o Hermes é uma camada de orquestração ativa, não um thin wrapper, viabilizando agentes persistentes no dispositivo em vez de execução tarefa a tarefa.
Tanto o agente Hermes quanto o LLM subjacente são projetados para rodar localmente — o que significa que a qualidade do hardware determina diretamente a qualidade da experiência do usuário. As GPUs NVIDIA RTX são desenvolvidas especificamente para esse tipo de workload.
Qwen 3.6: Inteligência de data center, localmente
Os mais recentes modelos Qwen 3.6 expandem a aclamada série Qwen 3.5 para entregar um novo salto para local AI agents. O novo modelo Qwen 3.6 35B roda em aproximadamente 20 GB de memória e supera modelos de 120 bilhões de parâmetros, que exigem mais de 70 GB de memória.
Além disso, o Qwen 3.6 27B é um novo modelo denso com mais parâmetros ativos — igualando a precisão de modelos de 400 bilhões de parâmetros como o Qwen 3.5 397B, sendo dezesseis vezes menor. Executado em GPUs RTX de última geração, o modelo conta com o poder computacional necessário para uma experiência ágil.
Esses modelos são ideais para local agents como o Hermes, e as GPUs NVIDIA e o DGX Spark representam a forma mais rápida de executá-los. Os Tensor Cores da NVIDIA aceleram a inferência de IA para oferecer maior throughput e menor latência — permitindo que o Hermes conclua uma tarefa de múltiplas etapas ou refine uma de suas próprias skills em segundos, não em minutos.
DGX Spark: O computador agentic sempre ligado
Agentes como o Hermes são projetados para operar continuamente — respondendo a solicitações, planejando tarefas de múltiplas etapas, executando de forma autônoma e se autoaperfeiçoando. O NVIDIA DGX Spark é o companheiro ideal — uma máquina compacta, eficiente e standalone, desenvolvida para workflows agênticos sustentados ao longo de todo o dia.
Com 128 GB de memória unificada e 1 petaflop de desempenho em IA, o NVIDIA DGX Spark pode executar modelos mixture-of-experts de 120 bilhões de parâmetros durante todo o dia. E o novo modelo Qwen 3.6 35B entrega inteligência equivalente em um footprint mais enxuto — rodando mais rápido e oferecendo ao usuário capacidade para executar workloads simultâneos.
Para maximizar desempenho e a facilidade de uso, consulte o playbook do Hermes para DGX Spark. Além disso, inscreva-se nas próximas sessões práticas da série “Build It Yourself” de agentic AI da NVIDIA para aprender a construir AI agents autônomos com NemoClaw e OpenShell.
O NVIDIA DGX Spark está disponível para encomenda junto aos parceiros de fabricação da NVIDIA. Visite o marketplace.
Como começar com o Hermes em hardware NVIDIA
Rodar o Hermes localmente em hardware NVIDIA é simples. Acesse o repositório do Hermes no GitHub para começar e combine-o com um modelo local e runtime de preferência. Execute o Hermes junto ao Qwen 3.6 via llama.cpp, LM Studio ou Ollama. O Hermes Agent já vem com suporte nativo ao LM Studio e ao Ollama, oferecendo o caminho mais direto para um local agent.
Seja para um entusiasta de local AI explorando a fronteira dos agentes pessoais, ou para um desenvolvedor construindo ferramentas locais para seus workflows, o Hermes em hardware NVIDIA oferece uma base única em capacidade e confiabilidade.
#ICYMI: Os últimos destaques do RTX AI Garage
GPUs NVIDIA RTX PRO entregam geração de tokens até 3x mais rápida ao rodar os modelos Qwen 3.6 com llama.cpp, oferecendo a responsividade em tempo real necessária para local AI, onde agentes podem lidar com tarefas de múltiplas etapas e refinar suas skills para manter os workflows sem interrupções.
Modelos Gemma 4 26B e 31B do Google já estão disponíveis como checkpoints NVFP4 para desempenho ainda mais rápido nas GPUs NVIDIA Blackwell. Combinados com os novos drafters Multi-Token Prediction do Google, é possível obter até 3x mais velocidade de inferência com qualidade de saída idêntica, permitindo que o raciocínio de nível frontier rode localmente em GPUs NVIDIA.
Mistral Medium versão 3.5 também foi lançado em abril, inclui atualizações de compatibilidade com llama.cpp e Ollama, possibilitando que usuários o executem em sistemas NVIDIA RTX PRO e DGX Spark.
NVIDIA introduziu recentemente o NVIDIA NemoClaw, uma stack de código aberto que otimiza experiências OpenClaw em dispositivos NVIDIA ao aumentar a segurança e oferecer suporte a modelos locais. O NemoClaw agora oferece suporte ao Windows Subsystem for Linux (WSL2), ampliando o acesso a entusiastas e desenvolvedores na plataforma da Microsoft.
Conecte-se à NVIDIA AI PC no Facebook, Instagram, TikTok e X — e mantenha-se informado assinando a newsletter RTX AI PC. Siga a NVIDIA Workstation no LinkedIn e no X.
Comentários
Postar um comentário