CultriX-Github/DominaTrix-7B-v2-Nous.md Secret

## DominaTrix-7B-v2-Nous.md

      
    Raw
  

              DominaTrix-7B-v2-Nous.md
            
          
Model
AGIEval
GPT4All
TruthfulQA
Bigbench
Average


DominaTrix-7B-v2
36.81
74.12
72.09
43.17
56.55


AGIEval


Task
Version
Metric
Value

Stderr


agieval_aqua_rat
0
acc
22.44
±
2.62


acc_norm
22.44
±
2.62


agieval_logiqa_en
0
acc
34.56
±
1.87


acc_norm
35.18
±
1.87


agieval_lsat_ar
0
acc
22.61
±
2.76


acc_norm
21.74
±
2.73


agieval_lsat_lr
0
acc
43.14
±
2.20


acc_norm
43.73
±
2.20


agieval_lsat_rc
0
acc
45.35
±
3.04


acc_norm
44.98
±
3.04


agieval_sat_en
0
acc
50.97
±
3.49


acc_norm
49.51
±
3.49


agieval_sat_en_without_passage
0
acc
45.63
±
3.48


acc_norm
44.66
±
3.47


agieval_sat_math
0
acc
35.91
±
3.24


acc_norm
32.27
±
3.16


Average: 36.81%
GPT4All


Task
Version
Metric
Value

Stderr


arc_challenge
0
acc
62.63
±
1.41


acc_norm
63.74
±
1.40


arc_easy
0
acc
84.26
±
0.75


acc_norm
78.54
±
0.84


boolq
1
acc
83.98
±
0.64


hellaswag
0
acc
64.42
±
0.48


acc_norm
84.65
±
0.36


openbookqa
0
acc
37.80
±
2.17


acc_norm
46.60
±
2.23


piqa
0
acc
81.61
±
0.90


acc_norm
83.30
±
0.87


winogrande
0
acc
78.06
±
1.16


Average: 74.12%
TruthfulQA


Task
Version
Metric
Value

Stderr


truthfulqa_mc
1
mc1
53.86
±
1.75


mc2
72.09
±
1.49


Average: 72.09%
Bigbench


Task
Version
Metric
Value

Stderr


bigbench_causal_judgement
0
multiple_choice_grade
56.84
±
3.60


bigbench_date_understanding
0
multiple_choice_grade
59.89
±
2.55


bigbench_disambiguation_qa
0
multiple_choice_grade
35.66
±
2.99


bigbench_geometric_shapes
0
multiple_choice_grade
37.88
±
2.56


exact_str_match
1.11
±
0.55


bigbench_logical_deduction_five_objects
0
multiple_choice_grade
29.80
±
2.05


bigbench_logical_deduction_seven_objects
0
multiple_choice_grade
21.71
±
1.56


bigbench_logical_deduction_three_objects
0
multiple_choice_grade
51.00
±
2.89


bigbench_movie_recommendation
0
multiple_choice_grade
58.00
±
2.21


bigbench_navigate
0
multiple_choice_grade
50.90
±
1.58


bigbench_reasoning_about_colored_objects
0
multiple_choice_grade
55.70
±
1.11


bigbench_ruin_names
0
multiple_choice_grade
37.28
±
2.29


bigbench_salient_translation_error_detection
0
multiple_choice_grade
25.15
±
1.37


bigbench_snarks
0
multiple_choice_grade
62.43
±
3.61


bigbench_sports_understanding
0
multiple_choice_grade
64.71
±
1.52


bigbench_temporal_sequences
0
multiple_choice_grade
42.70
±
1.56


bigbench_tracking_shuffled_objects_five_objects
0
multiple_choice_grade
20.88
±
1.15


bigbench_tracking_shuffled_objects_seven_objects
0
multiple_choice_grade
15.54
±
0.87


bigbench_tracking_shuffled_objects_three_objects
0
multiple_choice_grade
51.00
±
2.89


Average: 43.17%
Average score: 56.55%
Elapsed time: 02:57:00
Task	Version	Metric	Value		Stderr
agieval_aqua_rat	0	acc	22.44	±	2.62
		acc_norm	22.44	±	2.62
agieval_logiqa_en	0	acc	34.56	±	1.87
		acc_norm	35.18	±	1.87
agieval_lsat_ar	0	acc	22.61	±	2.76
		acc_norm	21.74	±	2.73
agieval_lsat_lr	0	acc	43.14	±	2.20
		acc_norm	43.73	±	2.20
agieval_lsat_rc	0	acc	45.35	±	3.04
		acc_norm	44.98	±	3.04
agieval_sat_en	0	acc	50.97	±	3.49
		acc_norm	49.51	±	3.49
agieval_sat_en_without_passage	0	acc	45.63	±	3.48
		acc_norm	44.66	±	3.47
agieval_sat_math	0	acc	35.91	±	3.24
		acc_norm	32.27	±	3.16
Task	Version	Metric	Value		Stderr
arc_challenge	0	acc	62.63	±	1.41
		acc_norm	63.74	±	1.40
arc_easy	0	acc	84.26	±	0.75
		acc_norm	78.54	±	0.84
boolq	1	acc	83.98	±	0.64
hellaswag	0	acc	64.42	±	0.48
		acc_norm	84.65	±	0.36
openbookqa	0	acc	37.80	±	2.17
		acc_norm	46.60	±	2.23
piqa	0	acc	81.61	±	0.90
		acc_norm	83.30	±	0.87
winogrande	0	acc	78.06	±	1.16
Task	Version	Metric	Value		Stderr
bigbench_causal_judgement	0	multiple_choice_grade	56.84	±	3.60
bigbench_date_understanding	0	multiple_choice_grade	59.89	±	2.55
bigbench_disambiguation_qa	0	multiple_choice_grade	35.66	±	2.99
bigbench_geometric_shapes	0	multiple_choice_grade	37.88	±	2.56
		exact_str_match	1.11	±	0.55
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	29.80	±	2.05
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	21.71	±	1.56
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	51.00	±	2.89
bigbench_movie_recommendation	0	multiple_choice_grade	58.00	±	2.21
bigbench_navigate	0	multiple_choice_grade	50.90	±	1.58
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	55.70	±	1.11
bigbench_ruin_names	0	multiple_choice_grade	37.28	±	2.29
bigbench_salient_translation_error_detection	0	multiple_choice_grade	25.15	±	1.37
bigbench_snarks	0	multiple_choice_grade	62.43	±	3.61
bigbench_sports_understanding	0	multiple_choice_grade	64.71	±	1.52
bigbench_temporal_sequences	0	multiple_choice_grade	42.70	±	1.56
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	20.88	±	1.15
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	15.54	±	0.87
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	51.00	±	2.89