TriviaQA

Parmi les nombreux benchmarks retenus pour comparer les performances de Llama 2 à ses concurrents, TriviaQA est le deuxième cité dans l’article de présentation du logiciel.

Note de Llama 2 / TriviaQA

La note obtenue par Llama 2 pour ce benchmark est de 85 pour la version 70B, ce qui le classe en 2ème position, juste derrière PaLM 2 (86,1) mais GPT-4 et ChatGPT n’ont pas été testés, seulement GPT-3 (71,2).

Description de TriviaQA

TriviaQA is a reading comprehension dataset containing over 650K question-answer-evidence triples. TriviaQA includes 95K question-answer pairs authored by trivia enthusiasts and independently gathered evidence documents, six per question on average, that provide high quality distant supervision for answering the questions.

https://nlp.cs.washington.edu/triviaqa/

Classement de Llama 2 / ses concurrents

RankModelEM
1PaLM 2-L86,1
(one-shot)
2LLaMA 2 70B85
(one-shot)
3PaLM 2-M81,7
(one-shot)
4PaLM-540B81,4
(Few-Shot)
5PaLM-540B81,4
(One-Shot)
6Codex + REPLUG LSR77,3
(Few-Shot)
7PaLM-540B76,9
(Zero-Shot)
8Codex + REPLUG76,8
(Few-Shot)
9GLaM 62B/64E75,8
(One-shot)
10GLaM 62B/64E75,8
(Few-shot)
11PaLM 2-S75,2
(one-shot)
12LLaMA 65B73
(few-shot, k=64)
13FiE+PAQ72,6
14LLaMA 65B72,6
(few-shot, k=5)
15FiD+Distil72,1
16LLaMA 65B71,6
(one-shot)
17EMDR271,4
18GLaM 62B/64E71,3
(Zero-shot)
19GPT-3 175B71,2
(Few-Shot)
20LLaMA 65B68,2
(zero-shot)
21Fusion-in-Decoder67,6
(large)
22MemoReader67,21
23S-Norm66,37
24TOME-265,8
25DPR56,8
26FLAN 137B zero-shot56,7
27RAG56,1
28Reading Twice for NLU50,56
29Mnemonic Reader46,94
30ORQA45
31MEMEN43,16

Publié

dans

,

par