mlabonne/Gemmalpaca-7B-Nous.md Secret

## Gemmalpaca-7B-Nous.md

      
    Raw
  

              Gemmalpaca-7B-Nous.md
            
          
Model
AGIEval
GPT4All
TruthfulQA
Bigbench
Average


Gemmalpaca-7B
21.68
40.93
44.76
30.38
34.44


AGIEval


Task
Version
Metric
Value

Stderr


agieval_aqua_rat
0
acc
20.87
±
2.55


acc_norm
21.26
±
2.57


agieval_logiqa_en
0
acc
21.04
±
1.60


acc_norm
27.80
±
1.76


agieval_lsat_ar
0
acc
23.04
±
2.78


acc_norm
25.22
±
2.87


agieval_lsat_lr
0
acc
18.24
±
1.71


acc_norm
19.80
±
1.77


agieval_lsat_rc
0
acc
19.33
±
2.41


acc_norm
15.99
±
2.24


agieval_sat_en
0
acc
26.21
±
3.07


acc_norm
27.18
±
3.11


agieval_sat_en_without_passage
0
acc
22.33
±
2.91


acc_norm
18.45
±
2.71


agieval_sat_math
0
acc
21.36
±
2.77


acc_norm
17.73
±
2.58


Average: 21.68%
GPT4All


Task
Version
Metric
Value

Stderr


arc_challenge
0
acc
20.14
±
1.17


acc_norm
22.27
±
1.22


arc_easy
0
acc
36.74
±
0.99


acc_norm
34.13
±
0.97


boolq
1
acc
61.71
±
0.85


hellaswag
0
acc
30.15
±
0.46


acc_norm
33.77
±
0.47


openbookqa
0
acc
16.60
±
1.67


acc_norm
26.60
±
1.98


piqa
0
acc
59.14
±
1.15


acc_norm
58.22
±
1.15


winogrande
0
acc
49.80
±
1.41


Average: 40.93%
TruthfulQA


Task
Version
Metric
Value

Stderr


truthfulqa_mc
1
mc1
25.21
±
1.52


mc2
44.76
±
1.59


Average: 44.76%
Bigbench


Task
Version
Metric
Value

Stderr


bigbench_causal_judgement
0
multiple_choice_grade
53.68
±
3.63


bigbench_date_understanding
0
multiple_choice_grade
26.56
±
2.30


bigbench_disambiguation_qa
0
multiple_choice_grade
30.23
±
2.86


bigbench_geometric_shapes
0
multiple_choice_grade
10.03
±
1.59


exact_str_match
0.00
±
0.00


bigbench_logical_deduction_five_objects
0
multiple_choice_grade
27.20
±
1.99


bigbench_logical_deduction_seven_objects
0
multiple_choice_grade
20.14
±
1.52


bigbench_logical_deduction_three_objects
0
multiple_choice_grade
40.33
±
2.84


bigbench_movie_recommendation
0
multiple_choice_grade
27.80
±
2.01


bigbench_navigate
0
multiple_choice_grade
50.00
±
1.58


bigbench_reasoning_about_colored_objects
0
multiple_choice_grade
23.65
±
0.95


bigbench_ruin_names
0
multiple_choice_grade
23.88
±
2.02


bigbench_salient_translation_error_detection
0
multiple_choice_grade
24.95
±
1.37


bigbench_snarks
0
multiple_choice_grade
53.59
±
3.72


bigbench_sports_understanding
0
multiple_choice_grade
49.80
±
1.59


bigbench_temporal_sequences
0
multiple_choice_grade
14.50
±
1.11


bigbench_tracking_shuffled_objects_five_objects
0
multiple_choice_grade
17.60
±
1.08


bigbench_tracking_shuffled_objects_seven_objects
0
multiple_choice_grade
12.57
±
0.79


bigbench_tracking_shuffled_objects_three_objects
0
multiple_choice_grade
40.33
±
2.84


Average: 30.38%
Average score: 34.44%
Elapsed time: 03:50:31
Task	Version	Metric	Value		Stderr
agieval_aqua_rat	0	acc	20.87	±	2.55
		acc_norm	21.26	±	2.57
agieval_logiqa_en	0	acc	21.04	±	1.60
		acc_norm	27.80	±	1.76
agieval_lsat_ar	0	acc	23.04	±	2.78
		acc_norm	25.22	±	2.87
agieval_lsat_lr	0	acc	18.24	±	1.71
		acc_norm	19.80	±	1.77
agieval_lsat_rc	0	acc	19.33	±	2.41
		acc_norm	15.99	±	2.24
agieval_sat_en	0	acc	26.21	±	3.07
		acc_norm	27.18	±	3.11
agieval_sat_en_without_passage	0	acc	22.33	±	2.91
		acc_norm	18.45	±	2.71
agieval_sat_math	0	acc	21.36	±	2.77
		acc_norm	17.73	±	2.58
Task	Version	Metric	Value		Stderr
arc_challenge	0	acc	20.14	±	1.17
		acc_norm	22.27	±	1.22
arc_easy	0	acc	36.74	±	0.99
		acc_norm	34.13	±	0.97
boolq	1	acc	61.71	±	0.85
hellaswag	0	acc	30.15	±	0.46
		acc_norm	33.77	±	0.47
openbookqa	0	acc	16.60	±	1.67
		acc_norm	26.60	±	1.98
piqa	0	acc	59.14	±	1.15
		acc_norm	58.22	±	1.15
winogrande	0	acc	49.80	±	1.41
Task	Version	Metric	Value		Stderr
bigbench_causal_judgement	0	multiple_choice_grade	53.68	±	3.63
bigbench_date_understanding	0	multiple_choice_grade	26.56	±	2.30
bigbench_disambiguation_qa	0	multiple_choice_grade	30.23	±	2.86
bigbench_geometric_shapes	0	multiple_choice_grade	10.03	±	1.59
		exact_str_match	0.00	±	0.00
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	27.20	±	1.99
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	20.14	±	1.52
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	40.33	±	2.84
bigbench_movie_recommendation	0	multiple_choice_grade	27.80	±	2.01
bigbench_navigate	0	multiple_choice_grade	50.00	±	1.58
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	23.65	±	0.95
bigbench_ruin_names	0	multiple_choice_grade	23.88	±	2.02
bigbench_salient_translation_error_detection	0	multiple_choice_grade	24.95	±	1.37
bigbench_snarks	0	multiple_choice_grade	53.59	±	3.72
bigbench_sports_understanding	0	multiple_choice_grade	49.80	±	1.59
bigbench_temporal_sequences	0	multiple_choice_grade	14.50	±	1.11
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	17.60	±	1.08
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	12.57	±	0.79
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	40.33	±	2.84