Em um evento de IA de alto nível em Londres, os executivos da Meta forneceram na terça-feira a primeira confirmação oficial e detalhes sobre o lançamento iminente do Llama 3, a próxima iteração altamente antecipada do modelo de linguagem grande de código aberto da empresa.
“No próximo mês, na verdade menos, esperamos que num período de tempo muito curto, esperamos começar a lançar o nosso novo conjunto de modelos de base de próxima geração, Llama 3”, anunciou Nick Clegg, presidente de assuntos globais da Meta, no Meta AI Day de Londres, informou o TechCrunch.
Clegg disse que Llama 3 consiste em “uma série de modelos diferentes com diferentes capacidades, diferentes versatilidades” que começarão a ser lançados ao longo deste ano.
Após o lançamento, espera-se que o Llama 3 seja o modelo de código aberto mais avançado disponível, com a Meta a investir fortemente no seu desenvolvimento. Segundo a Meta, o modelo foi treinado com 140 mil milhões de parâmetros, o dobro da capacidade da Llama 2. O diretor executivo da Meta, Mark Zuckerburg, revelou alguns dos pormenores técnicos em janeiro.
“Estamos a construir uma infraestrutura de computação maciça para apoiar o nosso futuro roteiro, incluindo 350 mil H100s até ao final deste ano – e, no total, quase 600 mil H100s equivalentes de computação se incluirmos outras GPUs”, disse Zuckerberg na altura. Esta quantidade de poder de computação é significativamente maior do que a utilizada pela OpenAI para treinar o GPT-4, que se estimava necessitar de cerca de 25.000 GPUs em 90 a 100 dias.
Zuckerberg também revelou que o Meta AI, o seu assistente de IA, vai ser alimentado por Llama 3.
Chris Cox, diretor de produtos, disse que o Llama 3 será integrado ao Meta.
“O nosso plano será ter a Llama 3 a alimentar vários produtos e experiências diferentes na nossa família de aplicações”, disse.
A estratégia de código aberto
O impacto do lançamento do Llama 3 vai muito para além do Meta, dado o compromisso filosófico da empresa em desenvolvê-lo como um modelo de código aberto, em claro contraste com a abordagem fechada e proprietária adoptada por rivais como a OpenAI com o ChatGPT.
Ao abrir os seus modelos linguísticos, a Meta pretende alimentar um ecossistema de desenvolvimento de IA aberta e posicionar a família Llama como base para uma gama diversificada de ferramentas e aplicações criadas por programadores e investigadores terceiros.
“É muito importante perceber que as inovações se baseiam sempre em contribuições anteriores de outras pessoas, por vezes muito semelhantes”, escreveu Yann LeCun, diretor de investigação de IA da Meta, no mês passado. “É por isso que a investigação aberta é tão importante: faz com que o campo avance mais rapidamente para todos. “
De longe, parece que as inovações surgem espontaneamente do vácuo.
Mas é muito importante perceber que as inovações se baseiam sempre em contribuições anteriores de outros, por vezes muito semelhantes.
É por isso que a investigação aberta é tão importante: torna o campo… https://t.co/JMvQD2h5OZ– Yann LeCun (@ylecun) March 20, 2024
Este espírito aberto já gerou uma comunidade vibrante em torno do Llama. Alguns dos modelos de linguagem de código aberto mais avançados atualmente, como o Mistral, o Falcon e o Beluga, são construídos através do aperfeiçoamento do modelo de base Llama 2. Vários destes modelos da comunidade igualaram ou ultrapassaram o GPT-3.5 em determinados parâmetros de referência.
O lançamento do Llama-3 como outro modelo de base de código aberto abre provavelmente o caminho para uma nova geração de LLMs que irá elevar ainda mais a fasquia em termos de qualidade e eficiência na IA.
Eh, acho que o código aberto vai igualar ou superar este ano. pic.twitter.com/y99qKJ2iKF
– Ryan Casey (@ryansweb) 1 de janeiro de 2024
Desafiando o domínio da OpenAI
A premissa de código aberto do Llama 3 representa um desafio formidável e multifacetado ao atual domínio de mercado da OpenAI e, por extensão, a outros modelos proprietários como o Claude e o Gemini.
A comunidade de código aberto poderá em breve construir sobre a Llama 3 e iterar rapidamente as suas variações para potencialmente igualar ou exceder as capacidades do GPT-4 – tal como fizeram contra o GPT-3.5. Com custos de formação mais baixos partilhados entre os colaboradores, o ecossistema aberto poderá ultrapassar o desenvolvimento do modelo proprietário da OpenAI, que requer imensos recursos e custos de computação.
Se as ofertas de código aberto atingirem regularmente a paridade com as ofertas comerciais, as empresas poderão optar por ecossistemas mais acessíveis e económicos, como o Llama, em vez de dependerem do OpenAI e pagarem por ele. Atualmente, o GPT-4 é o modelo mais caro do mercado em termos de custo por token.
Além disso, a comunidade de código aberto torna-se mais forte à medida que mais pessoas se envolvem com ela. A Meta beneficia do facto de ter uma enorme comunidade a construir em cima do modelo, afinando-o, desenvolvendo novas tecnologias e melhorando-o gratuitamente. Isto torna mais fácil para o Meta desenvolver versões melhores do seu modelo, ao mesmo tempo que o rentabiliza através de esquemas alternativos, como o licenciamento para utilização comercial por grandes indústrias.
Por outras palavras, a inércia contínua e os efeitos de rede podem dificultar que os modelos proprietários da OpenAI atraiam utilizadores e clientes no futuro.
É certo que a OpenAI detém atualmente uma forte liderança em termos de rentabilidade. A Anthropic pode gabar-se de ter o LLM com melhor desempenho no domínio da IA. Mas a Llama 3 representará mais um ataque estratégico da Meta para alterar o panorama da IA generativa.
É claro que muito depende do desempenho e da adoção da Llama 3 no mundo real durante o próximo ano. Mas a comunidade de IA de código aberto é bastante ativa – e já adora a Llama-2. As coisas vão tornar-se muito interessantes nos próximos meses, especialmente com o GPT-5 da OpenAI, que está mesmo ao virar da esquina.