• AiDrop
  • Posts
  • 🤖 O tropeço da Meta

🤖 O tropeço da Meta

+ Casos de Uso: Tulane e antibióticos, Evolução das bactérias e mais...

logo aidrop

Hey, Droppers!

Na coluna ‘Ferrou’ de hoje: CEO do Shopify disse que não efetuará mais contratações até provar que a IA não consegue realizar algumas das tarefas. Tem mais: antes de pedir mais contratações, as equipes devem demonstrar como a IA pode ser usada para resolver os problemas atuais.

No drop de hoje, repetindo a palavra “tokens” trocentas vezes:

  • Llama 4: O tropeço da Meta

  • Gemini 2.5: preço é a cereja do bolo

  • Sakana: O primeiro artigo feito 100% por IA

  • Os Casos de Uso: Wearables, Tulane, Waymo, CecicomDigi, Psicoterapia

  • Me explique como se eu fosse uma criança: Parâmetros ativos X totais

Seu trabalho não será substituído por uma Inteligência Artificial, mas por alguém utilizando Inteligência Artificial. Quer ficar por dentro da década de avanços que rolam no universo de IA todas as semanas? Assina o AiDrop e te contamos tudo, sem tecniquês, todas as quintas-feiras no seu inbox.

O tropeço do Llama 4

meta, llama 4, benchmarks

A Meta começou a brincar de LLM lá em maio de 2022, antes mesmo de alguns dos grandes players do mercado. Desde então, entrou de cabeça na corrida e com os Llama 2 e 3 ajudou a estabelecer o que virou o “padrão ouro” dos modelos open source — numa época em que os chineses ainda nem tinham chegado na festa.

O grande nome da dinastia foi o Llama 3.1 405B — o primeiro modelo open source a bater de frente com o GPT-4 em performance. Recentemente, a versão 3.3 chegou sem grandes alterações, mas manteve pós-treinamento de qualidade e gerou expectativa para o Llama 4.

Diante da espera, no sábado à tarde a Meta anunciou o Llama 4 em três versões — todas usando Mixture of Experts e com números de encher os olhos:

Versão

Parâmetros (ativos / totais)

Experts

Janela de contexto

Scout

17 bi / 109 bi

16

10 mi de tokens

Maverick

17 bi / 400 bi

128

1 mi de tokens

Behemoth

288 bi / 2 tri

16

1 mi de tokens

Todas tiveram resultados impressionantes em benchmarks – com um deles, inclusive, chegando ao Top 2 no LM Arena. No mundo real? Virou polêmica. E foi aí que o Llama virou drama. 

Logo surgiram relatos de que o modelo não entregava nem perto do prometido. O burburinho foi tanto que o LM Arena foi a público para mostrar os resultados das batalhas. Na documentação: apenas respostas longas, mas de baixa qualidade.

A treta ganhou corpo e até o VP de GenAI da Meta precisou se posicionar publicamente, alegando variação de performance entre provedores. Mas até agora, segue tudo meio nebuloso.

Se tudo se ajustar como a Meta diz, pode ser que o Llama 4 melhore nos próximos dias e finalmente entregue o que prometeu. De outra forma, certamente será um prato cheio para as conversas em fóruns especializados e nos jantares dos rivais.

🤖 Casos de Uso

  • Cientistas desenvolveram um wearable para monitorar o coração com IA, detectando potenciais problemas com 90% de precisão.

  • Tulane criou um novo modelo de IA, que identifica com mais precisão mutações genéticas associadas à resistência a antibióticos.

  • Waymo alega que pode utilizar as câmeras de dentro dos seus taxis e treinar IAs generativas para vender anúncios.

  • CecicomDigi firmou um acordo com a Ericsson para usar IA na automação e otimização de sua rede 5G, para melhorar a eficiência e garantir mais qualidade.

  • Brasileira lidera projeto de Harvard que utiliza chatbots de IA para psicoterapia e visa prevenir depressão antes do diagnóstico clínico.

  • The Conversation publicou uma pesquisa em que utilizaram IA para apresentar a evolução das bactérias na terra.

trending

Trending:

Um novo teste de vídeo em IA generativa criou um episódio inteiro de Tom & Jerry em apenas 1-shot. E com ~alguma~ história.

Você pode assistir ao episódio aqui.

Preço: a cereja do bolo do Gemini 2.5 Pro

preço, concorrência, desempenho, gemini, google

O Gemini 2.5 Pro é motivo de orgulho para o Google – e todos os benchmarks dão razão à empresa. Pois saindo da fase “experimental” e entrando em “prévia”, o modelo vai ficando ainda melhor. Isso começa pelo fim do limite de 50 mensagens por dia e culmina no anúncio oficial do preço.

O Google já é famoso por permitir o uso de seus modelos de graça, mas suas APIs também não costumam ser caríssimas. Isso permite a integração dos usuários em aplicações sem elevar muito os custos (diferente de alguns concorrentes).

Esse novo modelo veio custando (em input/output por milhão de tokens) US$ 1,25 / US$ 10, mais barato que seus concorrentes principais:

  • GPT-4o: US$ 2,50 / US$ 10

  • Claude 3.7 Sonnet: US$ 3 / US$ 15

  • o1: US$ 15 / US$ 60

  • GPT-4.5: US$ 75 / US$ 150

  • o1-pro: US$ 150 / US$ 600

Vale dizer que todos esses modelos são focados em funções mais complexas, que incluem a criação e revisão de códigos com velocidade e precisão.

Hora do otimismo

O custo das APIs de modelos de IA tende a cair com o tempo — e o histórico recente prova isso, pois vimos uma redução de 240x em apenas dois anos.

Mas nem tanto

As novas tarifas dos EUA podem encarecer datacenters – e o custo disso deve ser repassado para os consumidores em um futuro próximo.

Com resultados promissores, o Gemini 2.5 Pro mostra que o Google está disposto a tirar o atraso no mercado de IA generativa. E para isso, aposta em ganhar tração no mercado e agradar investidores pelo volume de uso, e não somente por margens de lucro agressivas.

dropinho professor

Me explique como se eu fosse uma criança:

Parâmetros ativos e Parâmetros totais

Em modelos mais avançados, como os que usam Mixture of Experts (MoE), o sistema escolhe dinamicamente quais partes do modelo ativar a cada pergunta — o que torna tudo mais eficiente. Assim:

  • Parâmetros totais = todas as “peças” de conhecimento que o modelo tem à disposição.

  • Parâmetros ativos = só as que estão realmente em uso naquele momento.

A cada tarefa, o modelo chama só os especialistas certos pra resolver o problema — em vez de botar todo mundo pra trabalhar ao mesmo tempo.

🤖 Novidades em IA

  • Runway apresentou o Gen-4 Turbo, a versão acelerada do seu mais novo modelo de vídeos, criando agora vídeos incríveis de 10s em apenas 30s.

  • Google trouxe o modo multimodal para o Gemini Live, com compartilhamento de tela em tempo real, interpretação de imagens e mais.

  • Eleven Labs criou o seu próprio servidor MCP e agora você pode integrar ao Claude ou Cursor, para, por exemplo, pedir uma pizza com um prompt.

  • Microsoft utilizou seu modelo Muse e criou uma demo jogável do Quake II, com ambientação 3D, interface e tudo mais.

  • Indique o AiDrop para seus amigos e ganhe prêmios do Drops.

O primeiro artigo científico 100% feito por IA

ciência, machine learning, estudo acadêmico, sakana

Quase oito meses depois do lançamento, o AI Scientist, da Sakana AI conquista seu primeiro grande feito: teve um paper 100% gerado por ele aceito na ICLR 2025 – uma das conferências mais importantes de machine learning do mundo.

Sim: da hipótese ao artigo final, nenhum humano tocou no processo. E essa proeza veio com a nova versão do sistema, o AI Scientist-V2, que trouxe três avanços importantes:

  • Adeus templates humanos: escreve código do zero, sem ajuda pré-formatada.

  • Busca em árvore agêntica: uma abordagem mais inteligente pra testar hipóteses.

  • VLMs integrados: usa visão computacional no comando da revisão de gráficos e figuras.

A metodologia se apoia em um processo de quatro estágios de experimentação:

  1. Investigação preliminar: desenvolve um protótipo mínimo viável para testar a viabilidade da ideia

  2. Ajuste de hiperparâmetros: refina o modelo com otimização de parâmetros como taxa de aprendizado, número de épocas, etc.

  3. Execução da agenda de pesquisa: realiza os experimentos principais baseados na hipótese proposta.

  4. Testes de remoção: verifica o quanto cada parte do experimento é importante, retirando um elemento de cada vez e observando o impacto nos resultados.

Tudo muito promissor, mas há algumas limitações claras, como falta de justificativas teóricas mais sólidas, dependência de dados sintéticos e uma certa superficialidade nos artigos para padrões de conferência.

Mesmo assim, trata-se de um avanço considerável e um indicativo de que os auxiliares de IA devem ganhar mais espaço em pesquisas acadêmicas. Quem sabe em um futuro próximo não teremos o AI Scientist da Sakana dividindo o laboratório com o Co-Scientist do Google?

cAIxa da Semana

  • Copilot: o assistente da Microsoft, está de cara nova.

  • Undetectable.wtf: humanize seus textos gerados por IA.

  • DigiDish: receitas feitas por IA diretamente no seu celular.

  • Meta.AI: teste o chatbot da Meta e tire suas próprias conclusões.

  • Groq: uma das plataformas de inferência de IA mais rápidas.

MEME

meme-llamas

O que achou da edição de hoje?

Faça Login ou Inscrever-se para participar de pesquisas.

DROPS

Elevando o QI da internet no Brasil, uma newsletter por vez. Nós filtramos tudo de mais importante e relevante que aconteceu no mercado para te entregar uma dieta de informação saudável, rápida e inteligente, diretamente no seu inbox. Dê tchau as assinaturas pagas, banners indesejados, pop-ups intrometidos. É free e forever will be.

Antes de ir embora… arraste este e-mail para sua lista prioritária, assim você não perde nenhum drop e nós não travamos na alfândega da web caixa de spam. Ah, pode nos responder também, lemos tudinho.

Reply

or to participate.