mlabonne/Meta-Llama-3-12B-Nous.md Secret

## Meta-Llama-3-12B-Nous.md

      
    Raw
  

              Meta-Llama-3-12B-Nous.md
            
          
Model
AGIEval
GPT4All
TruthfulQA
Bigbench
Average


Meta-Llama-3-12B
29.46
68.01
41.02
35.57
43.52


AGIEval


Task
Version
Metric
Value

Stderr


agieval_aqua_rat
0
acc
25.98
±
2.76


acc_norm
23.62
±
2.67


agieval_logiqa_en
0
acc
29.03
±
1.78


acc_norm
31.80
±
1.83


agieval_lsat_ar
0
acc
20.00
±
2.64


acc_norm
19.57
±
2.62


agieval_lsat_lr
0
acc
32.16
±
2.07


acc_norm
28.24
±
2.00


agieval_lsat_rc
0
acc
39.78
±
2.99


acc_norm
33.83
±
2.89


agieval_sat_en
0
acc
52.91
±
3.49


acc_norm
41.75
±
3.44


agieval_sat_en_without_passage
0
acc
37.38
±
3.38


acc_norm
29.13
±
3.17


agieval_sat_math
0
acc
30.91
±
3.12


acc_norm
27.73
±
3.02


Average: 29.46%
GPT4All


Task
Version
Metric
Value

Stderr


arc_challenge
0
acc
45.31
±
1.45


acc_norm
48.98
±
1.46


arc_easy
0
acc
76.60
±
0.87


acc_norm
73.06
±
0.91


boolq
1
acc
78.84
±
0.71


hellaswag
0
acc
61.00
±
0.49


acc_norm
78.70
±
0.41


openbookqa
0
acc
35.20
±
2.14


acc_norm
46.60
±
2.23


piqa
0
acc
78.78
±
0.95


acc_norm
78.84
±
0.95


winogrande
0
acc
71.03
±
1.27


Average: 68.01%
TruthfulQA


Task
Version
Metric
Value

Stderr


truthfulqa_mc
1
mc1
26.07
±
1.54


mc2
41.02
±
1.43


Average: 41.02%
Bigbench


Task
Version
Metric
Value

Stderr


bigbench_causal_judgement
0
multiple_choice_grade
53.16
±
3.63


bigbench_date_understanding
0
multiple_choice_grade
58.81
±
2.57


bigbench_disambiguation_qa
0
multiple_choice_grade
31.40
±
2.89


bigbench_geometric_shapes
0
multiple_choice_grade
20.61
±
2.14


exact_str_match
0.00
±
0.00


bigbench_logical_deduction_five_objects
0
multiple_choice_grade
24.60
±
1.93


bigbench_logical_deduction_seven_objects
0
multiple_choice_grade
16.29
±
1.40


bigbench_logical_deduction_three_objects
0
multiple_choice_grade
38.33
±
2.81


bigbench_movie_recommendation
0
multiple_choice_grade
32.80
±
2.10


bigbench_navigate
0
multiple_choice_grade
49.50
±
1.58


bigbench_reasoning_about_colored_objects
0
multiple_choice_grade
46.75
±
1.12


bigbench_ruin_names
0
multiple_choice_grade
37.50
±
2.29


bigbench_salient_translation_error_detection
0
multiple_choice_grade
25.25
±
1.38


bigbench_snarks
0
multiple_choice_grade
56.35
±
3.70


bigbench_sports_understanding
0
multiple_choice_grade
49.59
±
1.59


bigbench_temporal_sequences
0
multiple_choice_grade
22.00
±
1.31


bigbench_tracking_shuffled_objects_five_objects
0
multiple_choice_grade
23.04
±
1.19


bigbench_tracking_shuffled_objects_seven_objects
0
multiple_choice_grade
16.00
±
0.88


bigbench_tracking_shuffled_objects_three_objects
0
multiple_choice_grade
38.33
±
2.81


Average: 35.57%
Average score: 43.52%
Elapsed time: 03:17:47
Task	Version	Metric	Value		Stderr
agieval_aqua_rat	0	acc	25.98	±	2.76
		acc_norm	23.62	±	2.67
agieval_logiqa_en	0	acc	29.03	±	1.78
		acc_norm	31.80	±	1.83
agieval_lsat_ar	0	acc	20.00	±	2.64
		acc_norm	19.57	±	2.62
agieval_lsat_lr	0	acc	32.16	±	2.07
		acc_norm	28.24	±	2.00
agieval_lsat_rc	0	acc	39.78	±	2.99
		acc_norm	33.83	±	2.89
agieval_sat_en	0	acc	52.91	±	3.49
		acc_norm	41.75	±	3.44
agieval_sat_en_without_passage	0	acc	37.38	±	3.38
		acc_norm	29.13	±	3.17
agieval_sat_math	0	acc	30.91	±	3.12
		acc_norm	27.73	±	3.02
Task	Version	Metric	Value		Stderr
arc_challenge	0	acc	45.31	±	1.45
		acc_norm	48.98	±	1.46
arc_easy	0	acc	76.60	±	0.87
		acc_norm	73.06	±	0.91
boolq	1	acc	78.84	±	0.71
hellaswag	0	acc	61.00	±	0.49
		acc_norm	78.70	±	0.41
openbookqa	0	acc	35.20	±	2.14
		acc_norm	46.60	±	2.23
piqa	0	acc	78.78	±	0.95
		acc_norm	78.84	±	0.95
winogrande	0	acc	71.03	±	1.27
Task	Version	Metric	Value		Stderr
bigbench_causal_judgement	0	multiple_choice_grade	53.16	±	3.63
bigbench_date_understanding	0	multiple_choice_grade	58.81	±	2.57
bigbench_disambiguation_qa	0	multiple_choice_grade	31.40	±	2.89
bigbench_geometric_shapes	0	multiple_choice_grade	20.61	±	2.14
		exact_str_match	0.00	±	0.00
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	24.60	±	1.93
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	16.29	±	1.40
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	38.33	±	2.81
bigbench_movie_recommendation	0	multiple_choice_grade	32.80	±	2.10
bigbench_navigate	0	multiple_choice_grade	49.50	±	1.58
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	46.75	±	1.12
bigbench_ruin_names	0	multiple_choice_grade	37.50	±	2.29
bigbench_salient_translation_error_detection	0	multiple_choice_grade	25.25	±	1.38
bigbench_snarks	0	multiple_choice_grade	56.35	±	3.70
bigbench_sports_understanding	0	multiple_choice_grade	49.59	±	1.59
bigbench_temporal_sequences	0	multiple_choice_grade	22.00	±	1.31
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	23.04	±	1.19
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	16.00	±	0.88
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	38.33	±	2.81