AiDrop
Posts
🤖 OAI, criadora ou exterminadora de apps?

🤖 OAI, criadora ou exterminadora de apps?

+ Novidades em IA da Meta, Microsoft, Alibaba e mais...

October 03, 2024

Hey, Droppers!

Na coluna ‘Ferrou’ de hoje: a soma do valuation de 10 unicórnios de IA é de +U$21.7 bilhões. Já a soma da receita das mesmas 10 startups é de -U$100 milhões.
Startups: Character (5bi), SSI (5bi), Poolside (3bi), Devin (2bi), Magic (2bi), Codeium (1,2bi), Adept (1bi), Sierra (1bi), World Labs (1bi), Augment (1bi).

No drop de hoje, repetindo a palavra IA 46x:

OpenAi: o criador ou exterminador de apps de IA
Nvidia: entrou na briga das LLMs
Pika Labs: A IA de vídeo que desperta a quinta-série
Prompt Like a Pro: Criação de anúncios estáticos

Seu trabalho não será substituído por uma Inteligência Artificial, mas por alguém utilizando Inteligência Artificial. Quer ficar por dentro da década de avanços que rolam no universo de IA todas as semanas? Assina o AiDrop e te contamos tudo, sem tecniquês, todas as quintas-feiras no seu inbox.

OpenAi: o criador ou exterminador de apps de IA

openai, api, devs, features, devday

Esta semana rolou o DevDay, o evento da OpenAi para desenvolvedores para apresentar os novos recursos da sua API. Como de costume, não só não desapontou como tirou o sono dos demais apps de IA:

Realtime API: permite a criação de aplicativos de fala para fala usando o mesmo modelo que alimenta o Advanced Voice, com a capacidade de escolher entre seis vozes.
O que não agradou foi o preço inicial, U$100/1mi tokens input, U$200/1mi tokens output, sendo ~U$0,30/min de falas, que não consideram os intervalos de silêncio durante as conversas.
Vision Fine-tuning: permite que modelos sejam treinados com imagens e texto, permitindo que os desenvolvedores otimizem tarefas como reconhecimento e análise de imagens.
Prompt Caching: reduz os custos em quase 50% entre modelos e acelera as respostas em até 80% ao reutilizar tokens de entrada recentes em chamadas de API.
Model Distillation: simplifica o ajuste fino de modelos menores usando resultados de modelos maiores, tornando o treinamento mais acessível aos desenvolvedores.
→ Stored Completions: servem para armazenar situações com um Q&A embutido no assistente, minimizando erros.
→ Evals (beta): agora as avaliações estão presentes na plataforma, permitindo testes de performance entre os modelos, para ver ‘quem’ se sai melhor ‘no que’. Podem ser utilizadas mesmo sem necessidade de fine-tuning.
→ Fine-tuning: está integrado com os dois recursos, sendo possível utilizar modelos ‘fine-tunados’ em ambos.

Cerca de 27% dos U$5bi em receita anual da OpenAi projetados para este ano virão da sua API, que não tinha nenhum dos recursos acima disponíveis. Desde o último DevDay de 2023, a startup diminuiu o custo por token em 98% e aumentou o volume de tokens em 50x.

🤖 Casos de Uso

Portobello implementou IA nas suas previsões de vendas e registrou ganhos de R$20mi com estoques.

Portugal está usando IA para agilizar os pedidos de cidadania e promete aumentar a capacidade de atendimento em 50% enquanto reduz as fraudes.

Petronect, o marketplace B2B do setor de óleo e gás está adotando IA generativa para atendimento dos fornecedores e fez 2.2k interações no primeiro mês.

Google está trabalhando em raciocínio das suas IAs, para correr atrás da maratona que foi iniciada com os modelos o1.

Pesquisadores do MIT desenvolveram um sistema chamado “Future You”, que permite ao usuário interagir e conversar com uma versão simulada do seu “futuro eu”.

Cancer AI Alliance é uma colaboração entre institutos de medicina e big-techs como Microsoft, AWS, Nvidia e Deloitte, para avançar na cura do câncer com a IA.

Pinterest lançou o Performance+, um conjunto de ferramentas de IA para anunciantes que facilita as campanhas.

🤖 Novidades em IA

Alibaba lançou o ACE, um criador e editor de imagens via difusores através de instruções, podendo criar imagens do zero ou editá-las completamente.

OpenAI disponibilizou o Whisper V3 Turbo, sua IA de transcrição de áudio, que é 8X mais rápido que o Whisper Large.

Gemini Nano 2 está disponível no Android através de acessos experimentais. O modelo é quase 2x maior que o Nano 1.

Tabela de avaliação de alucinações de LLMs mostra que o o1-mini é o 2° modelo que menos passa vergonha falando bobagens. O primeiro é o GLM-4-9b.

Meta trouxe junto com a versão ‘standalone’ do SAM 2, o update 2.1 da sua ferramenta de segmentação de elementos em vídeos.

Microsoft apresentou novos avanços para o Copilot+ para o Windows, incluindo visão e voz, com personalização aprimorada e um relançamento do recurso Recall.

HeyGen agora tem o recurso Avatar Looks, que permite você escolher roupas diferentes para o seu clone utilizado nos vídeos.

Trending: Redbull Basement

É a competição global de ideias inovadoras que levará os vencedores para uma aceleração de três semanas no Vale do Silício.

O foco deste ano são projetos de Inteligência Artificial e o campeão da etapa nacional apresentará suas ideias em Tóquio para mentores, empreendedores, investidores e especialistas de todo o mundo.

Tem uma ideia de um projeto de IA e quer a Red Bull te dando asas? Se increve aqui →

Nvidia entra na briga das LLMs

nvidia, llm, nvlm, finetune, multimodal, open-source

A gigante dona de 90% do mercado de chips de IA cansou de vender apenas pás e agora também começou a fabricar carrinhos de mão ao lançar seu primeiro modelo autoral e, na mesma tacada, transformou clientes em concorrentes.

O Nvidia Language Model (NVLM) chegou em formato open-source, com 72B parâmetros e multimodal, com capacidade de interpretar imagens, gráficos, tabelas e cálculos manuscritos.

Nos benchmarks, já superou o Llama 3.1, bate de frente com o 405B da Meta e atingiu pontuações competitivas em relação ao GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro (Aug). Já em relação aos sistemas de automação:

Tarefas de OCR → analisar documentos como notas fiscais para sistemas de planilhas financeiras é algo ainda mais simples para ele.
Compreensão de arquivos → sistemas para analisar PDFs com imagens, gráficos, relatórios, sumarização e outras tarefas correlatas simplificadas.
Descrição de imagens e contextos → interpretando fotos e seus contextos, explicando memes etc, pode ser uma opção para descritores detalhados.
Qualidade em todos os modos → não sofre queda de performance em tarefas de texto quando aprende a enxergar, diferente das concorrentes.

Agora, além de líder absoluta em hardwares (H100/H200) e software (CUDA), a Nvidia também entrou no ringue dos LLMs e aplicações para o consumidor final. Porém, como a demanda pelos seus chips supera até sua capacidade de produção, estrategicamente, é difícil imaginá-la mudando o foco no curto-prazo.

P.S: As más línguas estão dizendo que ele foi treinado em cima do Qwen-2-72B, mas ainda não há nenhuma informação oficial sobre isso.

PROMPT LIKE A PRO

Para os copywriters nunca mais sofrerem de writers-block, usem esse prompt para brainstormar ideias com sua IA preferida:

Prompt:

# Faça 3 anúncios estáticos, apenas o conteúdo "Heading Chamativo, Frase Curta, Oferta Especial e CTA"
# Faça uma oferta de [tipo de oferta: (remarketing, promoção, direta etc)]
# Nome da empresa: [empresa]
# Produto: [nome do produto, descreva alguns detalhes]
# Persona: [descreva sua persona em uma frase ou adicione dentro de <persona></persona>

Opcional:
# Oferta de X% de desconto

tip: Quanto menor a quantidade, melhor a qualidade. faça 3 a 5 por vez.

Os vídeos de IA favoritos da quinta-série

videogen, pika labs, quinta-série, image-to-video

Pika Labs (sem trocadilhos, pfv), foi um dos precursores dos modelos de vídeos gerados por IA com qualidade relevante. Mas o lançamento das concorrentes Sora da OpenAi e do Dream Machine da Luma Labs, foi colocada no freezer e encolheu. Mas o verão chegou e a Pika Labs voltou com o PIKA 1.5.

O update 1.5 e o novo recurso Pika Effect traz movimentos mais realistas, capturas de tela gigante e desafiam as leis da física com os exemplos abaixo:

A Pika não só lembrou a senha do perfil como voltou com um fine-tuning ‘estratégico’ para mostrar que ainda está na corrida pelo melhor modelo text-to-video.

AI Fight Club

Rank + Nome	Score / Margem de erro	Votos
1° - o1-preview	1.339 (+6/-7)	9.169
1° - GPT-4o-latest (03-09-24)	1.337 (+4/-4)	16.685
3° - o1-mini	1.314 (+6/-5)	9.136
4° - Gemini-1.5-Pro-Exp-0827	1.299 (+4/-3)	31.928
4° - Grok-2-08-13	1.293 (+4/-3)	27.731

Após as atualizações do GPT-4o para o Advanced Voice Mode, seu score aumentou em 20 e está sendo um forte concorrente ao o1-preview, batendo na porta do 1° lugar definitivo. Quem saiu do top 5 foi o Claude 3.5 Sonnet da Anthropic!

O que achou da edição de hoje?

🤩 Baita | 😬 Marromenos | 🤢 Bléh

Faça Login ou Inscrever-se para participar de pesquisas.

Anuncie nos DROPS

Nossas newsletters são lidas por milhares de profissionais de tecnologia, investidores, gestores e líderes de negócios.
Falar com a equipe do DROPS →

Antes de ir embora.. tá curtindo o conteúdo e quer continuar recebendo? então arrasta esse e-mail para sua lista prioritária.

Reply

or to participate.