mlabonne/phi-2-orange-v2-Nous.md Secret

## phi-2-orange-v2-Nous.md

      
    Raw
  

              phi-2-orange-v2-Nous.md
            
          
Model
AGIEval
GPT4All
TruthfulQA
Bigbench
Average


phi-2-orange-v2
34.55
70.96
54.87
38.17
49.64


AGIEval


Task
Version
Metric
Value

Stderr


agieval_aqua_rat
0
acc
20.47
±
2.54


acc_norm
18.90
±
2.46


agieval_logiqa_en
0
acc
32.10
±
1.83


acc_norm
30.57
±
1.81


agieval_lsat_ar
0
acc
19.13
±
2.60


acc_norm
17.83
±
2.53


agieval_lsat_lr
0
acc
34.51
±
2.11


acc_norm
35.29
±
2.12


agieval_lsat_rc
0
acc
44.61
±
3.04


acc_norm
44.61
±
3.04


agieval_sat_en
0
acc
66.02
±
3.31


acc_norm
64.56
±
3.34


agieval_sat_en_without_passage
0
acc
38.35
±
3.40


acc_norm
36.89
±
3.37


agieval_sat_math
0
acc
30.00
±
3.10


acc_norm
27.73
±
3.02


Average: 34.55%
GPT4All


Task
Version
Metric
Value

Stderr


arc_challenge
0
acc
53.41
±
1.46


acc_norm
55.72
±
1.45


arc_easy
0
acc
80.89
±
0.81


acc_norm
75.93
±
0.88


boolq
1
acc
80.28
±
0.70


hellaswag
0
acc
57.52
±
0.49


acc_norm
75.95
±
0.43


openbookqa
0
acc
41.60
±
2.21


acc_norm
51.80
±
2.24


piqa
0
acc
80.52
±
0.92


acc_norm
80.03
±
0.93


winogrande
0
acc
77.03
±
1.18


Average: 70.96%
TruthfulQA


Task
Version
Metric
Value

Stderr


truthfulqa_mc
1
mc1
38.92
±
1.71


mc2
54.87
±
1.56


Average: 54.87%
Bigbench


Task
Version
Metric
Value

Stderr


bigbench_causal_judgement
0
multiple_choice_grade
53.16
±
3.63


bigbench_date_understanding
0
multiple_choice_grade
54.20
±
2.60


bigbench_disambiguation_qa
0
multiple_choice_grade
39.92
±
3.05


bigbench_geometric_shapes
0
multiple_choice_grade
19.22
±
2.08


exact_str_match
0.00
±
0.00


bigbench_logical_deduction_five_objects
0
multiple_choice_grade
28.80
±
2.03


bigbench_logical_deduction_seven_objects
0
multiple_choice_grade
19.00
±
1.48


bigbench_logical_deduction_three_objects
0
multiple_choice_grade
50.67
±
2.89


bigbench_movie_recommendation
0
multiple_choice_grade
38.00
±
2.17


bigbench_navigate
0
multiple_choice_grade
47.50
±
1.58


bigbench_reasoning_about_colored_objects
0
multiple_choice_grade
59.00
±
1.10


bigbench_ruin_names
0
multiple_choice_grade
26.79
±
2.09


bigbench_salient_translation_error_detection
0
multiple_choice_grade
33.37
±
1.49


bigbench_snarks
0
multiple_choice_grade
72.93
±
3.31


bigbench_sports_understanding
0
multiple_choice_grade
51.83
±
1.59


bigbench_temporal_sequences
0
multiple_choice_grade
9.50
±
0.93


bigbench_tracking_shuffled_objects_five_objects
0
multiple_choice_grade
18.72
±
1.10


bigbench_tracking_shuffled_objects_seven_objects
0
multiple_choice_grade
13.71
±
0.82


bigbench_tracking_shuffled_objects_three_objects
0
multiple_choice_grade
50.67
±
2.89


Average: 38.17%
Average score: 49.64%
Elapsed time: 01:30:17
Task	Version	Metric	Value		Stderr
agieval_aqua_rat	0	acc	20.47	±	2.54
		acc_norm	18.90	±	2.46
agieval_logiqa_en	0	acc	32.10	±	1.83
		acc_norm	30.57	±	1.81
agieval_lsat_ar	0	acc	19.13	±	2.60
		acc_norm	17.83	±	2.53
agieval_lsat_lr	0	acc	34.51	±	2.11
		acc_norm	35.29	±	2.12
agieval_lsat_rc	0	acc	44.61	±	3.04
		acc_norm	44.61	±	3.04
agieval_sat_en	0	acc	66.02	±	3.31
		acc_norm	64.56	±	3.34
agieval_sat_en_without_passage	0	acc	38.35	±	3.40
		acc_norm	36.89	±	3.37
agieval_sat_math	0	acc	30.00	±	3.10
		acc_norm	27.73	±	3.02
Task	Version	Metric	Value		Stderr
arc_challenge	0	acc	53.41	±	1.46
		acc_norm	55.72	±	1.45
arc_easy	0	acc	80.89	±	0.81
		acc_norm	75.93	±	0.88
boolq	1	acc	80.28	±	0.70
hellaswag	0	acc	57.52	±	0.49
		acc_norm	75.95	±	0.43
openbookqa	0	acc	41.60	±	2.21
		acc_norm	51.80	±	2.24
piqa	0	acc	80.52	±	0.92
		acc_norm	80.03	±	0.93
winogrande	0	acc	77.03	±	1.18
Task	Version	Metric	Value		Stderr
bigbench_causal_judgement	0	multiple_choice_grade	53.16	±	3.63
bigbench_date_understanding	0	multiple_choice_grade	54.20	±	2.60
bigbench_disambiguation_qa	0	multiple_choice_grade	39.92	±	3.05
bigbench_geometric_shapes	0	multiple_choice_grade	19.22	±	2.08
		exact_str_match	0.00	±	0.00
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	28.80	±	2.03
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	19.00	±	1.48
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	50.67	±	2.89
bigbench_movie_recommendation	0	multiple_choice_grade	38.00	±	2.17
bigbench_navigate	0	multiple_choice_grade	47.50	±	1.58
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	59.00	±	1.10
bigbench_ruin_names	0	multiple_choice_grade	26.79	±	2.09
bigbench_salient_translation_error_detection	0	multiple_choice_grade	33.37	±	1.49
bigbench_snarks	0	multiple_choice_grade	72.93	±	3.31
bigbench_sports_understanding	0	multiple_choice_grade	51.83	±	1.59
bigbench_temporal_sequences	0	multiple_choice_grade	9.50	±	0.93
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	18.72	±	1.10
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	13.71	±	0.82
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	50.67	±	2.89