tosh/HeatherSpellGen2-Nous.md

## HeatherSpellGen2-Nous.md

      
    Raw
  

              HeatherSpellGen2-Nous.md
            
          
Model
AGIEval
GPT4All
TruthfulQA
Bigbench
Average


HeatherSpellGen2
40.73
75.43
72.75
47.12
59.01


AGIEval


Task
Version
Metric
Value

Stderr


agieval_aqua_rat
0
acc
21.65
±
2.59


acc_norm
20.47
±
2.54


agieval_logiqa_en
0
acc
36.41
±
1.89


acc_norm
36.87
±
1.89


agieval_lsat_ar
0
acc
23.48
±
2.80


acc_norm
24.78
±
2.85


agieval_lsat_lr
0
acc
41.37
±
2.18


acc_norm
41.57
±
2.18


agieval_lsat_rc
0
acc
60.59
±
2.98


acc_norm
59.48
±
3.00


agieval_sat_en
0
acc
73.79
±
3.07


acc_norm
71.36
±
3.16


agieval_sat_en_without_passage
0
acc
43.20
±
3.46


acc_norm
41.75
±
3.44


agieval_sat_math
0
acc
31.82
±
3.15


acc_norm
29.55
±
3.08


Average: 40.73%
GPT4All


Task
Version
Metric
Value

Stderr


arc_challenge
0
acc
64.42
±
1.40


acc_norm
64.68
±
1.40


arc_easy
0
acc
86.24
±
0.71


acc_norm
81.14
±
0.80


boolq
1
acc
87.22
±
0.58


hellaswag
0
acc
67.66
±
0.47


acc_norm
85.63
±
0.35


openbookqa
0
acc
35.40
±
2.14


acc_norm
47.00
±
2.23


piqa
0
acc
82.15
±
0.89


acc_norm
83.68
±
0.86


winogrande
0
acc
78.69
±
1.15


Average: 75.43%
TruthfulQA


Task
Version
Metric
Value

Stderr


truthfulqa_mc
1
mc1
57.28
±
1.73


mc2
72.75
±
1.43


Average: 72.75%
Bigbench


Task
Version
Metric
Value

Stderr


bigbench_causal_judgement
0
multiple_choice_grade
57.37
±
3.60


bigbench_date_understanding
0
multiple_choice_grade
63.14
±
2.51


bigbench_disambiguation_qa
0
multiple_choice_grade
40.70
±
3.06


bigbench_geometric_shapes
0
multiple_choice_grade
29.53
±
2.41


exact_str_match
9.47
±
1.55


bigbench_logical_deduction_five_objects
0
multiple_choice_grade
37.60
±
2.17


bigbench_logical_deduction_seven_objects
0
multiple_choice_grade
25.29
±
1.64


bigbench_logical_deduction_three_objects
0
multiple_choice_grade
51.67
±
2.89


bigbench_movie_recommendation
0
multiple_choice_grade
41.80
±
2.21


bigbench_navigate
0
multiple_choice_grade
54.40
±
1.58


bigbench_reasoning_about_colored_objects
0
multiple_choice_grade
71.25
±
1.01


bigbench_ruin_names
0
multiple_choice_grade
58.71
±
2.33


bigbench_salient_translation_error_detection
0
multiple_choice_grade
31.06
±
1.47


bigbench_snarks
0
multiple_choice_grade
75.14
±
3.22


bigbench_sports_understanding
0
multiple_choice_grade
74.34
±
1.39


bigbench_temporal_sequences
0
multiple_choice_grade
43.80
±
1.57


bigbench_tracking_shuffled_objects_five_objects
0
multiple_choice_grade
22.08
±
1.17


bigbench_tracking_shuffled_objects_seven_objects
0
multiple_choice_grade
18.63
±
0.93


bigbench_tracking_shuffled_objects_three_objects
0
multiple_choice_grade
51.67
±
2.89


Average: 47.12%
Average score: 59.01%
Elapsed time: 02:11:22
Task	Version	Metric	Value		Stderr
agieval_aqua_rat	0	acc	21.65	±	2.59
		acc_norm	20.47	±	2.54
agieval_logiqa_en	0	acc	36.41	±	1.89
		acc_norm	36.87	±	1.89
agieval_lsat_ar	0	acc	23.48	±	2.80
		acc_norm	24.78	±	2.85
agieval_lsat_lr	0	acc	41.37	±	2.18
		acc_norm	41.57	±	2.18
agieval_lsat_rc	0	acc	60.59	±	2.98
		acc_norm	59.48	±	3.00
agieval_sat_en	0	acc	73.79	±	3.07
		acc_norm	71.36	±	3.16
agieval_sat_en_without_passage	0	acc	43.20	±	3.46
		acc_norm	41.75	±	3.44
agieval_sat_math	0	acc	31.82	±	3.15
		acc_norm	29.55	±	3.08
Task	Version	Metric	Value		Stderr
arc_challenge	0	acc	64.42	±	1.40
		acc_norm	64.68	±	1.40
arc_easy	0	acc	86.24	±	0.71
		acc_norm	81.14	±	0.80
boolq	1	acc	87.22	±	0.58
hellaswag	0	acc	67.66	±	0.47
		acc_norm	85.63	±	0.35
openbookqa	0	acc	35.40	±	2.14
		acc_norm	47.00	±	2.23
piqa	0	acc	82.15	±	0.89
		acc_norm	83.68	±	0.86
winogrande	0	acc	78.69	±	1.15
Task	Version	Metric	Value		Stderr
bigbench_causal_judgement	0	multiple_choice_grade	57.37	±	3.60
bigbench_date_understanding	0	multiple_choice_grade	63.14	±	2.51
bigbench_disambiguation_qa	0	multiple_choice_grade	40.70	±	3.06
bigbench_geometric_shapes	0	multiple_choice_grade	29.53	±	2.41
		exact_str_match	9.47	±	1.55
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	37.60	±	2.17
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	25.29	±	1.64
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	51.67	±	2.89
bigbench_movie_recommendation	0	multiple_choice_grade	41.80	±	2.21
bigbench_navigate	0	multiple_choice_grade	54.40	±	1.58
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	71.25	±	1.01
bigbench_ruin_names	0	multiple_choice_grade	58.71	±	2.33
bigbench_salient_translation_error_detection	0	multiple_choice_grade	31.06	±	1.47
bigbench_snarks	0	multiple_choice_grade	75.14	±	3.22
bigbench_sports_understanding	0	multiple_choice_grade	74.34	±	1.39
bigbench_temporal_sequences	0	multiple_choice_grade	43.80	±	1.57
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	22.08	±	1.17
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	18.63	±	0.93
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	51.67	±	2.89