Natural Questions

Parmi les nombreux benchmarks retenus pour comparer les performances de Llama 2 à ses concurrents, Natural Questions est le troisième cité dans l’article de présentation du logiciel.

Note de Llama 2 / Natural Questions

La note obtenue par Llama 2 pour ce benchmark est de 33 pour la version 70B, ce qui le classe en 1ère position de la liste présentée.

ChatBot n’a pas été testé. GPT-3 175B a été testé en few shots. Son score est de 29.9. Il semble que Llama 2 ait la meilleure note des LLM testés en one shot, mais en few shots les résultats des autres LLM sont meilleurs.

Description de Natural Questions

We present the Natural Questions corpus, a question answering data set. Questions consist of real anonymized, aggregated queries issued to the Google search engine. An annotator is presented with a question along with a Wikipedia page from the top 5 search results, and annotates a long answer (typically a paragraph) and a short answer (one or more entities) if present on the page, or marks null if no long/short answer is present. The public release consists of 307,373 training examples with single annotations; 7,830 examples with 5-way annotations for development data; and a further 7,842 examples with 5-way annotated sequestered as test data.

https://aclanthology.org/Q19-1026/

Classement de Llama 2 / ses concurrents

RankModelEM
1Atlas64
(full, Wiki-dec-2018 index)
2Atlas60,4
(full, Wiki-dec-2021+CC index)
3FiE58,4
4R2-D255,9
(full)
5ReAtt54,7
6FiD-KD54,7
(full)
7EMDR^252,5
8FID51,4
(full)
9RETRO + DPR45,5
(full)
10Codex + REPLUG LSR45,5
(Few-Shot)
11Atlas45,1
(few-shot, k=64, Wiki-Dec-2018 index)
12Codex + REPLUG44,7
(Few-Shot)
13RAG44,5
14Atlas42,4
(few-shot, k=64, Wiki-dec-2021+CC index)
15DPR41,5
16REALM40,4
17LLaMA 65B39,9
(few-shot, k=64)
18PaLM-540B39,6
(Few-Shot, k=64)
19PaLM 2-L37,5
(one-shot)
20Chinchilla35,5
(few-shot, k=64)
21LLaMA 65B35
(few-shot, k=5)
22LLaMA 2 70B33
(one-shot)
23GLaM 62B/64E32,5
(Few-Shot)
24PaLM 2-M32
(one-shot)
25LLaMA 65B31
(one-shot)
26GPT-3 175B29,9
(Few-Shot, k=64)
27PaLM-540B29,3
(One-Shot)
28Gopher28,2
(few-shot, k=64)
29GLaM 62B/64E26,3
(One-Shot)
30PaLM 2-S25,3
(one-shot)
31LLaMA 33B24,9
(zero-shot)
32GLaM 62B/64E24,7
(Zero-Shot)
33PaLM-540B21,2
(Zero-Shot)
34Neo-6B19,7
(QA)
35Neo-6B19,6
(QA + WS)
36Neo-6B13,7
(Few-Shot)

Publié

dans

par