En février 2023, Meta annonçait Llama, un modèle essentiellement destiné à la recherche. Le modèle, comme les fringues ! est proposé dans différentes tailles (7B, 13B, 33B, and 65B).
Llama a été entraîné sur 1000 milliards de tokens pour la version 7B et encore plus pour les versions supérieures.
We trained LLaMA 65B and LLaMA 33B on 1.4 trillion tokens. Our smallest model, LLaMA 7B, is trained on one trillion tokens.
https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
Le dataset d’apprentissage comprend une vingtaine de langues.
Llama ne peut pas être utilisé à des fins commerciales.
Puis en juillet 2023, arrive Llama 2, beaucoup plus intéressant car open source bien sûr mais en plus avec une licence moins restrictive qui permet une utilisation commerciale.
Llama 2 is free for research and commercial use.
https://ai.meta.com/blog/llama-2/
Là aussi, il existe différentes tailles (7B, 13B et 70B), toutes disponibles en mode fine-tuned sous le nom Llama 2-Chat. Ces modèles existent aussi dans une version HuggingFace, par exemple Llama-2-13b-chat-hf pour la version fine-tuned en 13B sous le format HF.
Llama 2 est aussi plus performance que Llama et est même compétitif à d’autres versions non open source (on pense évidemment à ChatGPT, GPT-4).
Il faut dire que Llama 2 est entraîné, non pas sur 1 trillion de tokens mais sur 2 trillions (soit 40% de plus que Llama 1)
Nous avons là un vrai concurrent à ChatGPT, un outil open source, sur lequel on peut construire, bâtir sa propre solution, à des fins commerciales.
Le sujet me semble si important que j’ai décidé de consacrer un blog didactique à Llama 2.
J’écrirai chaque semaine un article à son sujet. Ceci est le 1er.