TriviaQA – Llama2 par BackProp

Parmi les nombreux benchmarks retenus pour comparer les performances de Llama 2 à ses concurrents, TriviaQA est le deuxième cité dans l’article de présentation du logiciel.

Note de Llama 2 / TriviaQA

La note obtenue par Llama 2 pour ce benchmark est de 85 pour la version 70B, ce qui le classe en 2ème position, juste derrière PaLM 2 (86,1) mais GPT-4 et ChatGPT n’ont pas été testés, seulement GPT-3 (71,2).

Description de TriviaQA

TriviaQA is a reading comprehension dataset containing over 650K question-answer-evidence triples. TriviaQA includes 95K question-answer pairs authored by trivia enthusiasts and independently gathered evidence documents, six per question on average, that provide high quality distant supervision for answering the questions.

https://nlp.cs.washington.edu/triviaqa/

Classement de Llama 2 / ses concurrents

Rank	Model	EM
1	PaLM 2-L	86,1
	(one-shot)
2	LLaMA 2 70B	85
	(one-shot)
3	PaLM 2-M	81,7
	(one-shot)
4	PaLM-540B	81,4
	(Few-Shot)
5	PaLM-540B	81,4
	(One-Shot)
6	Codex + REPLUG LSR	77,3
	(Few-Shot)
7	PaLM-540B	76,9
	(Zero-Shot)
8	Codex + REPLUG	76,8
	(Few-Shot)
9	GLaM 62B/64E	75,8
	(One-shot)
10	GLaM 62B/64E	75,8
	(Few-shot)
11	PaLM 2-S	75,2
	(one-shot)
12	LLaMA 65B	73
	(few-shot, k=64)
13	FiE+PAQ	72,6
14	LLaMA 65B	72,6
	(few-shot, k=5)
15	FiD+Distil	72,1
16	LLaMA 65B	71,6
	(one-shot)
17	EMDR2	71,4
18	GLaM 62B/64E	71,3
	(Zero-shot)
19	GPT-3 175B	71,2
	(Few-Shot)
20	LLaMA 65B	68,2
	(zero-shot)
21	Fusion-in-Decoder	67,6
	(large)
22	MemoReader	67,21
23	S-Norm	66,37
24	TOME-2	65,8
25	DPR	56,8
26	FLAN 137B zero-shot	56,7
27	RAG	56,1
28	Reading Twice for NLU	50,56
29	Mnemonic Reader	46,94
30	ORQA	45
31	MEMEN	43,16