mlabonne/CodeQwen1.5-7B-Nous.md Secret

## CodeQwen1.5-7B-Nous.md

      
    Raw
  

              CodeQwen1.5-7B-Nous.md
            
          
Model
AGIEval
GPT4All
TruthfulQA
Bigbench
Average


CodeQwen1.5-7B
24.84
54.76
42.36
33.55
38.88


AGIEval


Task
Version
Metric
Value

Stderr


agieval_aqua_rat
0
acc
22.05
±
2.61


acc_norm
21.65
±
2.59


agieval_logiqa_en
0
acc
21.35
±
1.61


acc_norm
27.80
±
1.76


agieval_lsat_ar
0
acc
22.17
±
2.75


acc_norm
20.43
±
2.66


agieval_lsat_lr
0
acc
22.35
±
1.85


acc_norm
26.47
±
1.96


agieval_lsat_rc
0
acc
20.45
±
2.46


acc_norm
18.59
±
2.38


agieval_sat_en
0
acc
37.86
±
3.39


acc_norm
30.10
±
3.20


agieval_sat_en_without_passage
0
acc
33.01
±
3.28


acc_norm
29.61
±
3.19


agieval_sat_math
0
acc
24.55
±
2.91


acc_norm
24.09
±
2.89


Average: 24.84%
GPT4All


Task
Version
Metric
Value

Stderr


arc_challenge
0
acc
30.20
±
1.34


acc_norm
31.57
±
1.36


arc_easy
0
acc
61.28
±
1.00


acc_norm
58.92
±
1.01


boolq
1
acc
71.83
±
0.79


hellaswag
0
acc
42.32
±
0.49


acc_norm
55.50
±
0.50


openbookqa
0
acc
23.80
±
1.91


acc_norm
35.20
±
2.14


piqa
0
acc
70.62
±
1.06


acc_norm
70.84
±
1.06


winogrande
0
acc
59.43
±
1.38


Average: 54.76%
TruthfulQA


Task
Version
Metric
Value

Stderr


truthfulqa_mc
1
mc1
27.91
±
1.57


mc2
42.36
±
1.47


Average: 42.36%
Bigbench


Task
Version
Metric
Value

Stderr


bigbench_causal_judgement
0
multiple_choice_grade
46.84
±
3.63


bigbench_date_understanding
0
multiple_choice_grade
61.52
±
2.54


bigbench_disambiguation_qa
0
multiple_choice_grade
36.43
±
3.00


bigbench_geometric_shapes
0
multiple_choice_grade
11.14
±
1.66


exact_str_match
0.00
±
0.00


bigbench_logical_deduction_five_objects
0
multiple_choice_grade
20.20
±
1.80


bigbench_logical_deduction_seven_objects
0
multiple_choice_grade
14.29
±
1.32


bigbench_logical_deduction_three_objects
0
multiple_choice_grade
39.67
±
2.83


bigbench_movie_recommendation
0
multiple_choice_grade
38.60
±
2.18


bigbench_navigate
0
multiple_choice_grade
57.10
±
1.57


bigbench_reasoning_about_colored_objects
0
multiple_choice_grade
43.80
±
1.11


bigbench_ruin_names
0
multiple_choice_grade
26.56
±
2.09


bigbench_salient_translation_error_detection
0
multiple_choice_grade
24.95
±
1.37


bigbench_snarks
0
multiple_choice_grade
40.33
±
3.66


bigbench_sports_understanding
0
multiple_choice_grade
51.72
±
1.59


bigbench_temporal_sequences
0
multiple_choice_grade
15.20
±
1.14


bigbench_tracking_shuffled_objects_five_objects
0
multiple_choice_grade
20.80
±
1.15


bigbench_tracking_shuffled_objects_seven_objects
0
multiple_choice_grade
15.14
±
0.86


bigbench_tracking_shuffled_objects_three_objects
0
multiple_choice_grade
39.67
±
2.83


Average: 33.55%
Average score: 38.88%
Elapsed time: 02:57:38
Task	Version	Metric	Value		Stderr
agieval_aqua_rat	0	acc	22.05	±	2.61
		acc_norm	21.65	±	2.59
agieval_logiqa_en	0	acc	21.35	±	1.61
		acc_norm	27.80	±	1.76
agieval_lsat_ar	0	acc	22.17	±	2.75
		acc_norm	20.43	±	2.66
agieval_lsat_lr	0	acc	22.35	±	1.85
		acc_norm	26.47	±	1.96
agieval_lsat_rc	0	acc	20.45	±	2.46
		acc_norm	18.59	±	2.38
agieval_sat_en	0	acc	37.86	±	3.39
		acc_norm	30.10	±	3.20
agieval_sat_en_without_passage	0	acc	33.01	±	3.28
		acc_norm	29.61	±	3.19
agieval_sat_math	0	acc	24.55	±	2.91
		acc_norm	24.09	±	2.89
Task	Version	Metric	Value		Stderr
arc_challenge	0	acc	30.20	±	1.34
		acc_norm	31.57	±	1.36
arc_easy	0	acc	61.28	±	1.00
		acc_norm	58.92	±	1.01
boolq	1	acc	71.83	±	0.79
hellaswag	0	acc	42.32	±	0.49
		acc_norm	55.50	±	0.50
openbookqa	0	acc	23.80	±	1.91
		acc_norm	35.20	±	2.14
piqa	0	acc	70.62	±	1.06
		acc_norm	70.84	±	1.06
winogrande	0	acc	59.43	±	1.38
Task	Version	Metric	Value		Stderr
bigbench_causal_judgement	0	multiple_choice_grade	46.84	±	3.63
bigbench_date_understanding	0	multiple_choice_grade	61.52	±	2.54
bigbench_disambiguation_qa	0	multiple_choice_grade	36.43	±	3.00
bigbench_geometric_shapes	0	multiple_choice_grade	11.14	±	1.66
		exact_str_match	0.00	±	0.00
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	20.20	±	1.80
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	14.29	±	1.32
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	39.67	±	2.83
bigbench_movie_recommendation	0	multiple_choice_grade	38.60	±	2.18
bigbench_navigate	0	multiple_choice_grade	57.10	±	1.57
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	43.80	±	1.11
bigbench_ruin_names	0	multiple_choice_grade	26.56	±	2.09
bigbench_salient_translation_error_detection	0	multiple_choice_grade	24.95	±	1.37
bigbench_snarks	0	multiple_choice_grade	40.33	±	3.66
bigbench_sports_understanding	0	multiple_choice_grade	51.72	±	1.59
bigbench_temporal_sequences	0	multiple_choice_grade	15.20	±	1.14
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	20.80	±	1.15
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	15.14	±	0.86
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	39.67	±	2.83