- AiDrop
- Posts
- 🤖 O Chip Mais Rápido do Mundo
🤖 O Chip Mais Rápido do Mundo
+ os casos de uso do Google, Nvidia, OpenAI e mais...
Hey, Droppers!
Na coluna ‘Ferrou’ de hoje: criaram um bot de IA open source que se candidatou automaticamente para 1.000 vagas de emprego, em 24 horas, gerando 50 entrevistas. Enquanto os departamentos de recrutamento e seleção apertam os cintos, aqui está o código do Github para o Bot.
No drop de hoje, repetindo a palavra IA 57x:
Cerebras: o chip de IA mais rápido do mundo
GameNGen: criando video games em tempo real
LM Studio 0.3.1: rodando modelos localmente
Os Casos de Uso: AINU, NEURii, CogVideo, Google, Nvidia, Claude, OAI, Klarna, CoreWeave, DisTrO.
Prompt Like a Pro: Investindo com o GPT
Clube da Luta: GPT-4o (08-08-24) no topo do ranking
Seu trabalho não será substituído por uma Inteligência Artificial, mas por alguém utilizando Inteligência Artificial. Quer ficar por dentro da década de avanços que rolam no universo de IA todas as semanas? Assina o AiDrop e te contamos tudo, sem tecniquês, todas as quintas-feiras no seu inbox.
O chip de IA mais rápido do mundo chegou!
cerebras, chip, wafer scale engines, groq, nvidia
O tempo que você levará para ler esta frase é o tempo que o Cerebras leva para digitar ~1.350 tokens. Essa é a velocidade do chip mais rápido já criado até hoje em tokens por segundo (T/s), superando a performance dos ex-líderes no Llama 3.1 70b:
1° lugar: Cerebras com 450 T/s
2° lugar: Groq com 250 T/s
3° lugar: Together.ai com 86 T/s
A velocidade de inferência é inversamente proporcional ao tamanho e complexidade dos modelos. Via de regra, quanto maior, menos veloz. Portanto, o desempenho pode variar segundo o LLM sendo utilizado, por ex:
Llama 3.1 8b: Cerebras faz 1.800 T/s
Llama 3.1 70b: Cerebras faz 450 T/s
PSC: 1 token equivale a aproximadamente ¾ de uma palavra. Os 450 tokens que o Cerebras gera são ~300 palavras por segundo, amassando os outros chips de inferência para LLMs.
Os valores são arredondados já que tokens não correspondem exatamente a letras ou sílabas; são pedaços de texto definidos por um algoritmo de tokenização.
A frase 'O AiDrop é a melhor Newsletter de IA.' tem 37 letras e o Llama 3.1 considera cerca de 11 tokens, enquanto o GPT-4o considera 10.
Essa divisão acontece antes do texto ser entendido pelo modelo de IA e cada modelo o faz da sua própria maneira.
→ O que esse chip fez de diferente dos outros?
A arquitetura Wafer Scale Engines (WSE) utiliza um chip de tamanho consideravelmente maior, alocando uma largura de banda de 21 PB/s (1 PB = 1.000 TB). Em comparação com outros chips, ele é diferente das NPUs, LPUs (Groq) ou GPUs (H100, RTX), sendo projetado diretamente para acelerar tarefas de IA.
As larguras de banda possuem uma diferença de ~4.400x do WSE para o H100, o que pode ocasionar um certo tremelique na concorrência (cof cof $NVDA que, não à toa, investe 75% do orçamento em P&D).
Falando em velocidade, olha a rapidez dessa belezinha no Llama 3.1 8B →
🤖 Casos de Uso
AINU, a nova ferramenta de IA que pode diferenciar células cancerígenas de normais e detectar estágios iniciais de infecção viral ao analisar imagens de núcleos celulares.
NEURii, é o estudo de IA que usou +1.6milhões de exames cerebrais para desenvolver ferramentas para previsão e diagnóstico precoce de demência.
CogVideo anunciou seus modelos de geração de vídeos open-source em 2B e 5B, podendo gerar vídeos de até 6s localmente com menos de 10GB VRAM.
Google lançou três modelos experimentais: Gemini 1.5 Pro, Flash, e Flash-8B na versão 27-08-24.
Nvidia apresentou a nova versão X5 do seu modelo de linguagem multimodal Eagle, que faz um mix de diversos modelos para o seu fine-tuning.
NVIDIA lançou o NIM Agent Blueprints – um catálogo de fluxos de trabalho de IA personalizáveis para que as empresas criem e implantem rapidamente seus próprios aplicativos genAI
Claude disponibilizou os Artifacts nas versões de iOS e Android, agora permitindo a interação com aplicações criadas na versão mobile.
OpenAI diz estar preparada para o lançamento do Strawberry até o final do ano. Também citou um novo sistema ‘Orion’, um possível GPT-6.
Klarna usou IA para reduzir o número de funcionários de atendimento e o tempo de resolução de tickets de 11 para 2 minutos.
CoreWeave se tornou o primeiro provedor de nuvem a oferecer infraestrutura avançada de IA com o lançamento dos GPUs Nvidia H200 Tensor Core.
DisTrO é um projeto em desenvolvimento para otimização de comunicação entre GPUs focado na descentralização do treinamento de LLMs, similar aos estilos de P2P ou Blockchain, para reduzir gasto elétrico e emissão de CO2.
Criando um video game em tempo real!
gamengen, doom, games, frame generation, diffusion
Quando o CEO da Nvidia, Jensen Huang disse: ‘Em breve, cada pixel será gerado, não renderizado’, o mercado ficou sem entender o resultado prática da profecia. Agora, tudo começa a fazer sentido:
GameNGen, um sistema de IA que pode simular o clássico jogo DOOM em tempo real, rodando a mais de 20 frames por segundo e produzindo visuais quase indistinguíveis do jogo original.
O projeto foi desenvolvido pelo Google (Research e Deepmind) em conjunto com a Universidade de Tel Aviv e:
Produz jogabilidade a 20 frames por segundo em um único chip
Cada frame é previsto por um modelo de difusão.
A IA foi treinada em 900 milhões de frames de dados de jogo
Roda em uma única TPU (Tensor Processing Unit)
Lida com os ambientes 3D e a ação sem os componentes tradicionais do mecanismo de jogo
Revisores humanos mal conseguiram distinguir simulação do jogo real.
Para esse projeto ser possível,
Passo 1: gravar a tela jogando Doom múltiplas vezes, realizando as ações básicas do jogo em situações comuns e raras, em diversos cenários.
Passo 2: treinar os dados em um modelo de difusão, se desfazendo do ruído, reconstruindo e gerando imagens novas. Com base nos frames anteriores e nas ações realizadas, os novos frames são gerados.
Neste caso, os prompts enviados para o modelo são basicamente as teclas utilizadas no jogo “W, A, S, D, seta cima, seta para baixo, CTRL”
O lançamento abre as portas para uma nova era de desenvolvimento de jogos, onde engines tradicionais poderão avançar para modelos neurais, tornando a criação de mundos virtuais mais acessível e, possivelmente, desenvolvendo jogos inteiros sem o uso de códigos, apenas prompts (ou simulações).
Confere uma demonstração do GameNGen →
PROMPT LIKE A PRO
Se você já investe ou é iniciante no mercado financeiro, aqui vão alguns prompts que podem te ajudar a tomar decisões importantes na hora de entender um pouco mais das empresas que estão pra jogo:
Prompt 1:
# Estou considerando investir em [Empresa A] e [Empresa B].
# Avalie a saúde financeira e as perspectivas de crescimento delas
# Me guie na análise das demonstrações financeiras, principais índices financeiros e tendências da indústria para me ajudar a determinar se essas empresas são oportunidades de investimento de longo prazo adequadas.
Prompt 2:
# Estou explorando oportunidades de investimento nas indústrias [Indústria A] e [Indústria B].
# Me oriente sobre como entender os principais fatores a considerar ao avaliar investimentos potenciais nesses setores.
## Forneça insights sobre os riscos, perspectivas de crescimento e métricas de avaliação das quais devo estar ciente para tomar decisões informadas.
Prompt 3:
# Como iniciante no mundo dos investimentos, estou buscando conselhos sobre como construir uma carteira de investimentos diversificada com uma mistura de [Classe de Ativos A], [Classe de Ativos B] e [Classe de Ativos C].
# Me ajude a entender os benefícios da diversificação e como alocar eficazmente meus recursos entre essas classes de ativos para alcançar meus objetivos financeiros.
Para saber mais sobre o mercado financeiro, assine o MoneyDrop →
Rodando modelos localmente com LM Studio 0.3.1
lm studio, open-source, llm, llama, gemma, phi
Você frequentemente nos vê falando sobre modelos open-source, como Llama, Gemma e Phi, mas por acaso você sabe como utilizá-los localmente no seu PC?
A nova versão do LM Studio (também open-source) consegue conversar com documentos no seu próprio computador ou servidor local, sem precisar de APIs externas ou servidores cloud.
Passo 1: baixar o LM Studio (Windows, Mac e Linux) clicando aqui →
Passo 2: utilizar o menu lateral para acessar a parte de ‘Descobertas’.
Passo 3: escolher um dos modelos equivalentes a performance (capacidade RAM) da sua máquina
Passo 4: fazer o download da versão quantizada do modelo escolhido
Passo 5: clicar em chat no topo da tela e começar a conversa.
Obs: é possível adicionar instruções personalizadas ao clicar no frasco de laboratório ao canto superior direito e, para anexar arquivos (pdf, txt, md ou docx), clique no clipe na barra do chat.
Assim como não adianta colocar motor de ferrari em fusca, sua máquina precisa estar apta a rodar essa belezinha. E como toda IA demanda poder de processamento computacional, aqui vai um guia para descobrir até quanto você pode acelerar rodando os modelos menores, Llama 3.1 8B ou Gemma 2 9B:
Windows: 16GB de RAM, uma placa de vídeo com 8GB de VRAM (recomendadas as RTX 3000+) e um processador com pelo menos 4 núcleos (que tenha suporte ao AVX2);
Mac: Processadores M1/M2/M3 com macOS 13.6+ são suficientes para utilizar o LM Studio ou Ollama, mesmo com 8GB RAM.
Clube da Luta dos Chatbots de IA
A LMSYS Chatbot Arena é uma plataforma aberta de crowdsourcing para avaliações LLM. Eles coletam +1 milhão de comparações humanas entre pares para classificar LLMs com o modelo Bradley-Terry e exibir as classificações do modelo na escala Elo.
Nessa semana, um novo desafiante Gemini 1.5 Pro 27-08-24, lançado há poucos dias já alcançou a segunda posição do ranking, acima do seu irmão mais velho Gemini 01-08.
Considerando a margem de erros, os ranks 2, 3 e 4 disputam a mesma posição, superados apenas pelo líder isolado da semana GPT-4o na versão 08-08-24.
Ranking | Pontos | Votos |
---|---|---|
1° - GPT-4o | 1.316 | 24.358 |
2° - Gemini 1.5 Pro Exp | 1.301 | 19.976 |
2° - Gemini 1.5 Pro Exp | 1.298 | 25.471 |
2° - Grok 2 | 1.295 | 10.170 |
5° - GPT-4o | 1.286 | 83.181 |
Você tem 0 indicações, faltam 2 para ganhar cAIxa de ferramentas
O que achou da edição de hoje? |
Faça Login ou Inscrever-se para participar de pesquisas. |
Conheça outros DROPS
TechDrop : Notícias inteligentes - sem ser chatas - de tecnologia e negócios, todas as segundas, quartas e sextas, às 6h direto no seu inbox.
MoneyDrop : o dinheiro fala, a gente traduz e desenha todas as terças e quinta, às 9h.
Anuncie nos DROPS
Nossas newsletters são lidas por milhares de profissionais de tecnologia, investidores, gestores e líderes de negócios.
Falar com a equipe do DROPS →
Antes de ir embora.. tá curtindo o conteúdo e quer continuar recebendo? então arrasta esse e-mail para sua lista prioritária.
Reply