TimDettmers/gist:385014b37f998c7857b15a3ea60b4cae

## gistfile1.txt
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 64.8716 (21.8331). 95% CI (22.079, 107.664). Sample size: 4
eval_bert_f1 mean (SE): 64.8716 (21.8331). 95% CI (22.079, 107.664). Sample size: 4
eval_rougeL mean (SE): 33.1083 (19.1162). 95% CI (-4.359, 70.576). Sample size: 4
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 67.0044 (22.3593). 95% CI (23.180, 110.829). Sample size: 4
eval_bert_f1 mean (SE): 67.0044 (22.3593). 95% CI (23.180, 110.829). Sample size: 4
eval_rougeL mean (SE): 45.2738 (15.7187). 95% CI (14.465, 76.082). Sample size: 4
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 67.2176 (22.4145). 95% CI (23.285, 111.150). Sample size: 4
eval_bert_f1 mean (SE): 67.2176 (22.4145). 95% CI (23.285, 111.150). Sample size: 4
eval_rougeL mean (SE): 45.4117 (15.3900). 95% CI (15.247, 75.576). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 82.5676 (4.6489). 95% CI (73.456, 91.679). Sample size: 4
eval_bert_f1 mean (SE): 82.5676 (4.6489). 95% CI (73.456, 91.679). Sample size: 4
eval_rougeL mean (SE): 32.4291 (18.7233). 95% CI (-4.268, 69.127). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 83.0177 (4.3380). 95% CI (74.515, 91.520). Sample size: 4
eval_bert_f1 mean (SE): 83.0177 (4.3380). 95% CI (74.515, 91.520). Sample size: 4
eval_rougeL mean (SE): 35.2325 (17.1500). 95% CI (1.619, 68.846). Sample size: 4
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 83.2916 (4.3216). 95% CI (74.821, 91.762). Sample size: 4
eval_bert_f1 mean (SE): 83.2916 (4.3216). 95% CI (74.821, 91.762). Sample size: 4
eval_rougeL mean (SE): 37.2928 (16.5428). 95% CI (4.869, 69.717). Sample size: 4
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 83.5084 (3.7384). 95% CI (76.181, 90.836). Sample size: 4
eval_bert_f1 mean (SE): 83.5084 (3.7384). 95% CI (76.181, 90.836). Sample size: 4
eval_rougeL mean (SE): 32.2683 (18.0691). 95% CI (-3.147, 67.684). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 84.7429 (4.9394). 95% CI (75.062, 94.424). Sample size: 4
eval_bert_f1 mean (SE): 84.7429 (4.9394). 95% CI (75.062, 94.424). Sample size: 4
eval_rougeL mean (SE): 45.2540 (15.4220). 95% CI (15.027, 75.481). Sample size: 4
================================================================================
Config: max_steps: 4500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 16  , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: alpaca, gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 85.2494 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 85.2494 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 36.5082 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 85.5598 (3.7924). 95% CI (78.127, 92.993). Sample size: 4
eval_bert_f1 mean (SE): 85.5598 (3.7924). 95% CI (78.127, 92.993). Sample size: 4
eval_rougeL mean (SE): 44.9017 (14.4743). 95% CI (16.532, 73.271). Sample size: 4
================================================================================
Config: max_steps: 4000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 86.5179 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 86.5179 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 57.2240 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 87.2168 (0.0000). 95% CI (87.217, 87.217). Sample size: 2
eval_bert_f1 mean (SE): 87.2168 (0.0000). 95% CI (87.217, 87.217). Sample size: 2
eval_rougeL mean (SE): 57.1546 (0.0000). 95% CI (57.155, 57.155). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 87.9641 (0.0648). 95% CI (87.837, 88.091). Sample size: 6
eval_bert_f1 mean (SE): 87.9641 (0.0648). 95% CI (87.837, 88.091). Sample size: 6
eval_rougeL mean (SE): 53.2109 (0.2020). 95% CI (52.815, 53.607). Sample size: 6
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 500 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 88.2319 (0.0000). 95% CI (88.232, 88.232). Sample size: 2
eval_bert_f1 mean (SE): 88.2319 (0.0000). 95% CI (88.232, 88.232). Sample size: 2
eval_rougeL mean (SE): 53.1711 (0.0000). 95% CI (53.171, 53.171). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 88.3811 (0.0000). 95% CI (88.381, 88.381). Sample size: 2
eval_bert_f1 mean (SE): 88.3811 (0.0000). 95% CI (88.381, 88.381). Sample size: 2
eval_rougeL mean (SE): 53.5289 (0.0000). 95% CI (53.529, 53.529). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0003, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 88.6400 (0.0000). 95% CI (88.640, 88.640). Sample size: 2
eval_bert_f1 mean (SE): 88.6400 (0.0000). 95% CI (88.640, 88.640). Sample size: 2
eval_rougeL mean (SE): 54.6076 (0.0000). 95% CI (54.608, 54.608). Sample size: 2
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 88.9557 (0.9238). 95% CI (87.145, 90.766). Sample size: 4
eval_bert_f1 mean (SE): 88.9557 (0.9238). 95% CI (87.145, 90.766). Sample size: 4
eval_rougeL mean (SE): 57.8024 (4.6491). 95% CI (48.690, 66.915). Sample size: 4
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 89.0261 (0.8125). 95% CI (87.434, 90.619). Sample size: 4
eval_bert_f1 mean (SE): 89.0261 (0.8125). 95% CI (87.434, 90.619). Sample size: 4
eval_rougeL mean (SE): 58.6140 (3.3605). 95% CI (52.027, 65.201). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.0370 (0.0000). 95% CI (89.037, 89.037). Sample size: 2
eval_bert_f1 mean (SE): 89.0370 (0.0000). 95% CI (89.037, 89.037). Sample size: 2
eval_rougeL mean (SE): 62.0205 (0.0000). 95% CI (62.021, 62.021). Sample size: 2
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 89.1721 (0.9192). 95% CI (87.370, 90.974). Sample size: 4
eval_bert_f1 mean (SE): 89.1721 (0.9192). 95% CI (87.370, 90.974). Sample size: 4
eval_rougeL mean (SE): 59.7464 (3.4698). 95% CI (52.946, 66.547). Sample size: 4
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 89.1988 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 89.1988 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 57.9034 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 3e-06, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.2989 (0.0000). 95% CI (89.299, 89.299). Sample size: 2
eval_bert_f1 mean (SE): 89.2989 (0.0000). 95% CI (89.299, 89.299). Sample size: 2
eval_rougeL mean (SE): 60.1265 (0.0000). 95% CI (60.126, 60.126). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 3e-06, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.3073 (0.0000). 95% CI (89.307, 89.307). Sample size: 2
eval_bert_f1 mean (SE): 89.3073 (0.0000). 95% CI (89.307, 89.307). Sample size: 2
eval_rougeL mean (SE): 60.0922 (0.0000). 95% CI (60.092, 60.092). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 3e-06, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 500 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.4275 (0.0000). 95% CI (89.427, 89.427). Sample size: 2
eval_bert_f1 mean (SE): 89.4275 (0.0000). 95% CI (89.427, 89.427). Sample size: 2
eval_rougeL mean (SE): 60.1178 (0.0000). 95% CI (60.118, 60.118). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 3e-06, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 500 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.4301 (0.0000). 95% CI (89.430, 89.430). Sample size: 2
eval_bert_f1 mean (SE): 89.4301 (0.0000). 95% CI (89.430, 89.430). Sample size: 2
eval_rougeL mean (SE): 59.9984 (0.0000). 95% CI (59.998, 59.998). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0003, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 500 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.4670 (0.0000). 95% CI (89.467, 89.467). Sample size: 2
eval_bert_f1 mean (SE): 89.4670 (0.0000). 95% CI (89.467, 89.467). Sample size: 2
eval_rougeL mean (SE): 60.0147 (0.0000). 95% CI (60.015, 60.015). Sample size: 2
================================================================================
Config: max_steps: 312 , lora_r: 8   , lr: 0.0003, bf16: False, lora_modules: baseline, bits: 8   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 64
eval_bert_f1 mean (SE): 89.4972 (0.1115). 95% CI (89.279, 89.716). Sample size: 6
eval_bert_f1 mean (SE): 89.4972 (0.1115). 95% CI (89.279, 89.716). Sample size: 6
eval_rougeL mean (SE): 60.6429 (0.3112). 95% CI (60.033, 61.253). Sample size: 6
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.5113 (0.0095). 95% CI (89.493, 89.530). Sample size: 4
eval_bert_f1 mean (SE): 89.5113 (0.0095). 95% CI (89.493, 89.530). Sample size: 4
eval_rougeL mean (SE): 60.1750 (0.1485). 95% CI (59.884, 60.466). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.5207 (0.2994). 95% CI (88.934, 90.108). Sample size: 4
eval_bert_f1 mean (SE): 89.5207 (0.2994). 95% CI (88.934, 90.108). Sample size: 4
eval_rougeL mean (SE): 60.5209 (1.1890). 95% CI (58.190, 62.851). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.6191 (0.0000). 95% CI (89.619, 89.619). Sample size: 2
eval_bert_f1 mean (SE): 89.6191 (0.0000). 95% CI (89.619, 89.619). Sample size: 2
eval_rougeL mean (SE): 60.5949 (0.0000). 95% CI (60.595, 60.595). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.6576 (0.0000). 95% CI (89.658, 89.658). Sample size: 2
eval_bert_f1 mean (SE): 89.6576 (0.0000). 95% CI (89.658, 89.658). Sample size: 2
eval_rougeL mean (SE): 60.5405 (0.0000). 95% CI (60.541, 60.541). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.6644 (0.0000). 95% CI (89.664, 89.664). Sample size: 2
eval_bert_f1 mean (SE): 89.6644 (0.0000). 95% CI (89.664, 89.664). Sample size: 2
eval_rougeL mean (SE): 60.5080 (0.0000). 95% CI (60.508, 60.508). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.6770 (0.0000). 95% CI (89.677, 89.677). Sample size: 2
eval_bert_f1 mean (SE): 89.6770 (0.0000). 95% CI (89.677, 89.677). Sample size: 2
eval_rougeL mean (SE): 61.1801 (0.0000). 95% CI (61.180, 61.180). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.6805 (0.0025). 95% CI (89.676, 89.685). Sample size: 4
eval_bert_f1 mean (SE): 89.6805 (0.0025). 95% CI (89.676, 89.685). Sample size: 4
eval_rougeL mean (SE): 61.0410 (0.0164). 95% CI (61.009, 61.073). Sample size: 4
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 89.6974 (0.2965). 95% CI (89.116, 90.279). Sample size: 4
eval_bert_f1 mean (SE): 89.6974 (0.2965). 95% CI (89.116, 90.279). Sample size: 4
eval_rougeL mean (SE): 64.1488 (1.1610). 95% CI (61.873, 66.424). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.7082 (0.0000). 95% CI (89.708, 89.708). Sample size: 2
eval_bert_f1 mean (SE): 89.7082 (0.0000). 95% CI (89.708, 89.708). Sample size: 2
eval_rougeL mean (SE): 61.0613 (0.0000). 95% CI (61.061, 61.061). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.7292 (0.0000). 95% CI (89.729, 89.729). Sample size: 2
eval_bert_f1 mean (SE): 89.7292 (0.0000). 95% CI (89.729, 89.729). Sample size: 2
eval_rougeL mean (SE): 60.7493 (0.0000). 95% CI (60.749, 60.749). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.7932 (0.3093). 95% CI (89.187, 90.399). Sample size: 4
eval_bert_f1 mean (SE): 89.7932 (0.3093). 95% CI (89.187, 90.399). Sample size: 4
eval_rougeL mean (SE): 61.3837 (1.3568). 95% CI (58.724, 64.043). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 3e-05, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 500 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.7989 (0.0000). 95% CI (89.799, 89.799). Sample size: 2
eval_bert_f1 mean (SE): 89.7989 (0.0000). 95% CI (89.799, 89.799). Sample size: 2
eval_rougeL mean (SE): 62.5366 (0.0000). 95% CI (62.537, 62.537). Sample size: 2
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 89.8283 (0.4397). 95% CI (88.966, 90.690). Sample size: 4
eval_bert_f1 mean (SE): 89.8283 (0.4397). 95% CI (88.966, 90.690). Sample size: 4
eval_rougeL mean (SE): 64.5086 (1.2929). 95% CI (61.975, 67.043). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.8341 (0.0000). 95% CI (89.834, 89.834). Sample size: 2
eval_bert_f1 mean (SE): 89.8341 (0.0000). 95% CI (89.834, 89.834). Sample size: 2
eval_rougeL mean (SE): 61.4766 (0.0000). 95% CI (61.477, 61.477). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 89.8997 (0.0000). 95% CI (89.900, 89.900). Sample size: 2
eval_bert_f1 mean (SE): 89.8997 (0.0000). 95% CI (89.900, 89.900). Sample size: 2
eval_rougeL mean (SE): 61.6869 (0.0000). 95% CI (61.687, 61.687). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.9110 (0.0000). 95% CI (89.911, 89.911). Sample size: 2
eval_bert_f1 mean (SE): 89.9110 (0.0000). 95% CI (89.911, 89.911). Sample size: 2
eval_rougeL mean (SE): 61.4808 (0.0000). 95% CI (61.481, 61.481). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.9213 (0.2109). 95% CI (89.508, 90.335). Sample size: 4
eval_bert_f1 mean (SE): 89.9213 (0.2109). 95% CI (89.508, 90.335). Sample size: 4
eval_rougeL mean (SE): 62.2937 (0.7943). 95% CI (60.737, 63.850). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 89.9853 (0.0000). 95% CI (89.985, 89.985). Sample size: 2
eval_bert_f1 mean (SE): 89.9853 (0.0000). 95% CI (89.985, 89.985). Sample size: 2
eval_rougeL mean (SE): 62.3881 (0.0000). 95% CI (62.388, 62.388). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.0105 (0.0071). 95% CI (89.997, 90.024). Sample size: 4
eval_bert_f1 mean (SE): 90.0105 (0.0071). 95% CI (89.997, 90.024). Sample size: 4
eval_rougeL mean (SE): 62.4882 (0.0079). 95% CI (62.473, 62.504). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.0159 (0.0000). 95% CI (90.016, 90.016). Sample size: 2
eval_bert_f1 mean (SE): 90.0159 (0.0000). 95% CI (90.016, 90.016). Sample size: 2
eval_rougeL mean (SE): 62.5617 (0.0000). 95% CI (62.562, 62.562). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.0186 (0.2255). 95% CI (89.577, 90.461). Sample size: 4
eval_bert_f1 mean (SE): 90.0186 (0.2255). 95% CI (89.577, 90.461). Sample size: 4
eval_rougeL mean (SE): 62.6738 (0.8986). 95% CI (60.912, 64.435). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.0220 (0.0152). 95% CI (89.992, 90.052). Sample size: 4
eval_bert_f1 mean (SE): 90.0220 (0.0152). 95% CI (89.992, 90.052). Sample size: 4
eval_rougeL mean (SE): 62.5605 (0.0155). 95% CI (62.530, 62.591). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 16  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.0251 (0.3552). 95% CI (89.329, 90.721). Sample size: 2
eval_bert_f1 mean (SE): 90.0251 (0.3552). 95% CI (89.329, 90.721). Sample size: 2
eval_rougeL mean (SE): 62.4433 (1.6534). 95% CI (59.203, 65.684). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.0283 (0.0020). 95% CI (90.024, 90.032). Sample size: 4
eval_bert_f1 mean (SE): 90.0283 (0.0020). 95% CI (90.024, 90.032). Sample size: 4
eval_rougeL mean (SE): 62.5920 (0.0202). 95% CI (62.552, 62.632). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.0394 (0.0000). 95% CI (90.039, 90.039). Sample size: 2
eval_bert_f1 mean (SE): 90.0394 (0.0000). 95% CI (90.039, 90.039). Sample size: 2
eval_rougeL mean (SE): 62.7824 (0.0000). 95% CI (62.782, 62.782). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.0401 (0.2407). 95% CI (89.568, 90.512). Sample size: 4
eval_bert_f1 mean (SE): 90.0401 (0.2407). 95% CI (89.568, 90.512). Sample size: 4
eval_rougeL mean (SE): 63.8055 (0.3053). 95% CI (63.207, 64.404). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.0454 (0.0000). 95% CI (90.045, 90.045). Sample size: 2
eval_bert_f1 mean (SE): 90.0454 (0.0000). 95% CI (90.045, 90.045). Sample size: 2
eval_rougeL mean (SE): 62.5829 (0.0000). 95% CI (62.583, 62.583). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 1e-05, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 500 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.0468 (0.0000). 95% CI (90.047, 90.047). Sample size: 4
eval_bert_f1 mean (SE): 90.0468 (0.0000). 95% CI (90.047, 90.047). Sample size: 4
eval_rougeL mean (SE): 62.6748 (0.0005). 95% CI (62.674, 62.676). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.0514 (0.0000). 95% CI (90.051, 90.051). Sample size: 2
eval_bert_f1 mean (SE): 90.0514 (0.0000). 95% CI (90.051, 90.051). Sample size: 2
eval_rougeL mean (SE): 62.5382 (0.0000). 95% CI (62.538, 62.538). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.0547 (0.0296). 95% CI (89.997, 90.113). Sample size: 4
eval_bert_f1 mean (SE): 90.0547 (0.0296). 95% CI (89.997, 90.113). Sample size: 4
eval_rougeL mean (SE): 62.5070 (0.3897). 95% CI (61.743, 63.271). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.0595 (0.0000). 95% CI (90.060, 90.060). Sample size: 2
eval_bert_f1 mean (SE): 90.0595 (0.0000). 95% CI (90.060, 90.060). Sample size: 2
eval_rougeL mean (SE): 62.6029 (0.0000). 95% CI (62.603, 62.603). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.0675 (0.0000). 95% CI (90.067, 90.067). Sample size: 2
eval_bert_f1 mean (SE): 90.0675 (0.0000). 95% CI (90.067, 90.067). Sample size: 2
eval_rougeL mean (SE): 63.4846 (0.0000). 95% CI (63.485, 63.485). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 10
eval_bert_f1 mean (SE): 90.0744 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.0744 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 62.6029 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.0962 (0.1754). 95% CI (89.752, 90.440). Sample size: 4
eval_bert_f1 mean (SE): 90.0962 (0.1754). 95% CI (89.752, 90.440). Sample size: 4
eval_rougeL mean (SE): 64.7923 (0.9330). 95% CI (62.964, 66.621). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1059 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.1059 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 62.9100 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.1083 (0.1817). 95% CI (89.752, 90.464). Sample size: 4
eval_bert_f1 mean (SE): 90.1083 (0.1817). 95% CI (89.752, 90.464). Sample size: 4
eval_rougeL mean (SE): 63.3727 (0.4927). 95% CI (62.407, 64.338). Sample size: 4
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.1147 (0.1922). 95% CI (89.738, 90.491). Sample size: 4
eval_bert_f1 mean (SE): 90.1147 (0.1922). 95% CI (89.738, 90.491). Sample size: 4
eval_rougeL mean (SE): 65.0393 (0.7645). 95% CI (63.541, 66.538). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.1163 (0.0000). 95% CI (90.116, 90.116). Sample size: 2
eval_bert_f1 mean (SE): 90.1163 (0.0000). 95% CI (90.116, 90.116). Sample size: 2
eval_rougeL mean (SE): 62.5445 (0.0000). 95% CI (62.544, 62.544). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.1317 (0.0000). 95% CI (90.132, 90.132). Sample size: 2
eval_bert_f1 mean (SE): 90.1317 (0.0000). 95% CI (90.132, 90.132). Sample size: 2
eval_rougeL mean (SE): 64.0623 (0.0000). 95% CI (64.062, 64.062). Sample size: 2
================================================================================
Config: max_steps: 3333, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.1332 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.1332 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 62.9626 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 1e-05, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 500 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.1441 (0.0000). 95% CI (90.144, 90.144). Sample size: 4
eval_bert_f1 mean (SE): 90.1441 (0.0000). 95% CI (90.144, 90.144). Sample size: 4
eval_rougeL mean (SE): 62.6560 (0.0031). 95% CI (62.650, 62.662). Sample size: 4
================================================================================
Config: max_steps: 3200, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 10
eval_bert_f1 mean (SE): 90.1614 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.1614 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.0538 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1729 (0.0932). 95% CI (89.990, 90.356). Sample size: 4
eval_bert_f1 mean (SE): 90.1729 (0.0932). 95% CI (89.990, 90.356). Sample size: 4
eval_rougeL mean (SE): 63.0638 (0.6259). 95% CI (61.837, 64.291). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.1744 (0.0000). 95% CI (90.174, 90.174). Sample size: 2
eval_bert_f1 mean (SE): 90.1744 (0.0000). 95% CI (90.174, 90.174). Sample size: 2
eval_rougeL mean (SE): 62.8048 (0.0000). 95% CI (62.805, 62.805). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1762 (0.0040). 95% CI (90.168, 90.184). Sample size: 4
eval_bert_f1 mean (SE): 90.1762 (0.0040). 95% CI (90.168, 90.184). Sample size: 4
eval_rougeL mean (SE): 62.7251 (0.0659). 95% CI (62.596, 62.854). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.1768 (0.0000). 95% CI (90.177, 90.177). Sample size: 2
eval_bert_f1 mean (SE): 90.1768 (0.0000). 95% CI (90.177, 90.177). Sample size: 2
eval_rougeL mean (SE): 62.8331 (0.0000). 95% CI (62.833, 62.833). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.1768 (0.2433). 95% CI (89.700, 90.654). Sample size: 4
eval_bert_f1 mean (SE): 90.1768 (0.2433). 95% CI (89.700, 90.654). Sample size: 4
eval_rougeL mean (SE): 63.1856 (1.3049). 95% CI (60.628, 65.743). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.1780 (0.0396). 95% CI (90.100, 90.256). Sample size: 4
eval_bert_f1 mean (SE): 90.1780 (0.0396). 95% CI (90.100, 90.256). Sample size: 4
eval_rougeL mean (SE): 63.1610 (0.2294). 95% CI (62.711, 63.611). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.1790 (0.0000). 95% CI (90.179, 90.179). Sample size: 2
eval_bert_f1 mean (SE): 90.1790 (0.0000). 95% CI (90.179, 90.179). Sample size: 2
eval_rougeL mean (SE): 63.9024 (0.0000). 95% CI (63.902, 63.902). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1795 (0.0000). 95% CI (90.179, 90.179). Sample size: 2
eval_bert_f1 mean (SE): 90.1795 (0.0000). 95% CI (90.179, 90.179). Sample size: 2
eval_rougeL mean (SE): 62.6180 (0.0000). 95% CI (62.618, 62.618). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 1e-05, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1854 (0.0000). 95% CI (90.185, 90.185). Sample size: 4
eval_bert_f1 mean (SE): 90.1854 (0.0000). 95% CI (90.185, 90.185). Sample size: 4
eval_rougeL mean (SE): 62.8517 (0.0035). 95% CI (62.845, 62.858). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1895 (0.0016). 95% CI (90.186, 90.193). Sample size: 4
eval_bert_f1 mean (SE): 90.1895 (0.0016). 95% CI (90.186, 90.193). Sample size: 4
eval_rougeL mean (SE): 62.8498 (0.0119). 95% CI (62.826, 62.873). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1935 (0.0000). 95% CI (90.193, 90.193). Sample size: 2
eval_bert_f1 mean (SE): 90.1935 (0.0000). 95% CI (90.193, 90.193). Sample size: 2
eval_rougeL mean (SE): 62.6587 (0.0000). 95% CI (62.659, 62.659). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1983 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.1983 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.2548 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.1988 (0.0525). 95% CI (90.096, 90.302). Sample size: 4
eval_bert_f1 mean (SE): 90.1988 (0.0525). 95% CI (90.096, 90.302). Sample size: 4
eval_rougeL mean (SE): 63.4968 (0.6637). 95% CI (62.196, 64.798). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.2026 (0.0000). 95% CI (90.203, 90.203). Sample size: 2
eval_bert_f1 mean (SE): 90.2026 (0.0000). 95% CI (90.203, 90.203). Sample size: 2
eval_rougeL mean (SE): 63.3859 (0.0000). 95% CI (63.386, 63.386). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 10
eval_bert_f1 mean (SE): 90.2043 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.2043 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.3455 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.2045 (0.0126). 95% CI (90.180, 90.229). Sample size: 4
eval_bert_f1 mean (SE): 90.2045 (0.0126). 95% CI (90.180, 90.229). Sample size: 4
eval_rougeL mean (SE): 63.0460 (0.1153). 95% CI (62.820, 63.272). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.2102 (0.0000). 95% CI (90.210, 90.210). Sample size: 2
eval_bert_f1 mean (SE): 90.2102 (0.0000). 95% CI (90.210, 90.210). Sample size: 2
eval_rougeL mean (SE): 63.3770 (0.0000). 95% CI (63.377, 63.377). Sample size: 2
================================================================================
Config: max_steps: 5333, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.2154 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.2154 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.4377 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 1e-05, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.2160 (0.0000). 95% CI (90.216, 90.216). Sample size: 4
eval_bert_f1 mean (SE): 90.2160 (0.0000). 95% CI (90.216, 90.216). Sample size: 4
eval_rougeL mean (SE): 63.1442 (0.0118). 95% CI (63.121, 63.167). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.2170 (0.0000). 95% CI (90.217, 90.217). Sample size: 2
eval_bert_f1 mean (SE): 90.2170 (0.0000). 95% CI (90.217, 90.217). Sample size: 2
eval_rougeL mean (SE): 63.3327 (0.0000). 95% CI (63.333, 63.333). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.2219 (0.0000). 95% CI (90.222, 90.222). Sample size: 2
eval_bert_f1 mean (SE): 90.2219 (0.0000). 95% CI (90.222, 90.222). Sample size: 2
eval_rougeL mean (SE): 63.3905 (0.0000). 95% CI (63.390, 63.390). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: attn, bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.2261 (0.0000). 95% CI (90.226, 90.226). Sample size: 2
eval_bert_f1 mean (SE): 90.2261 (0.0000). 95% CI (90.226, 90.226). Sample size: 2
eval_rougeL mean (SE): 63.2395 (0.0000). 95% CI (63.239, 63.239). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.2354 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.2354 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.4383 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.2424 (0.1353). 95% CI (89.977, 90.508). Sample size: 6
eval_bert_f1 mean (SE): 90.2424 (0.1353). 95% CI (89.977, 90.508). Sample size: 6
eval_rougeL mean (SE): 64.8326 (0.4831). 95% CI (63.886, 65.779). Sample size: 6
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.2478 (0.0000). 95% CI (90.248, 90.248). Sample size: 2
eval_bert_f1 mean (SE): 90.2478 (0.0000). 95% CI (90.248, 90.248). Sample size: 2
eval_rougeL mean (SE): 63.6017 (0.0000). 95% CI (63.602, 63.602). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.2567 (0.0000). 95% CI (90.257, 90.257). Sample size: 2
eval_bert_f1 mean (SE): 90.2567 (0.0000). 95% CI (90.257, 90.257). Sample size: 2
eval_rougeL mean (SE): 63.5939 (0.0000). 95% CI (63.594, 63.594). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 32  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 16
eval_bert_f1 mean (SE): 90.2623 (0.1462). 95% CI (89.976, 90.549). Sample size: 2
eval_bert_f1 mean (SE): 90.2623 (0.1462). 95% CI (89.976, 90.549). Sample size: 2
eval_rougeL mean (SE): 63.4570 (0.8202). 95% CI (61.849, 65.065). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.2643 (0.0000). 95% CI (90.264, 90.264). Sample size: 2
eval_bert_f1 mean (SE): 90.2643 (0.0000). 95% CI (90.264, 90.264). Sample size: 2
eval_rougeL mean (SE): 64.7841 (0.0000). 95% CI (64.784, 64.784). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.2645 (0.0000). 95% CI (90.265, 90.265). Sample size: 2
eval_bert_f1 mean (SE): 90.2645 (0.0000). 95% CI (90.265, 90.265). Sample size: 2
eval_rougeL mean (SE): 63.6360 (0.0000). 95% CI (63.636, 63.636). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 10
eval_bert_f1 mean (SE): 90.2900 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.2900 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.6535 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 6667, lora_r: 64  , lr: 3e-05, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.2911 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.2911 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.6195 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3140 (0.0120). 95% CI (90.290, 90.338). Sample size: 4
eval_bert_f1 mean (SE): 90.3140 (0.0120). 95% CI (90.290, 90.338). Sample size: 4
eval_rougeL mean (SE): 63.6113 (0.0600). 95% CI (63.494, 63.729). Sample size: 4
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.3148 (0.1176). 95% CI (90.084, 90.545). Sample size: 6
eval_bert_f1 mean (SE): 90.3148 (0.1176). 95% CI (90.084, 90.545). Sample size: 6
eval_rougeL mean (SE): 64.9091 (0.4367). 95% CI (64.053, 65.765). Sample size: 6
================================================================================
Config: max_steps: 3333, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.3307 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.3307 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.7904 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3322 (0.0000). 95% CI (90.332, 90.332). Sample size: 2
eval_bert_f1 mean (SE): 90.3322 (0.0000). 95% CI (90.332, 90.332). Sample size: 2
eval_rougeL mean (SE): 63.7222 (0.0000). 95% CI (63.722, 63.722). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3330 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.3330 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 63.6808 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3357 (0.0000). 95% CI (90.336, 90.336). Sample size: 2
eval_bert_f1 mean (SE): 90.3357 (0.0000). 95% CI (90.336, 90.336). Sample size: 2
eval_rougeL mean (SE): 63.7327 (0.0000). 95% CI (63.733, 63.733). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.3517 (0.0196). 95% CI (90.313, 90.390). Sample size: 6
eval_bert_f1 mean (SE): 90.3517 (0.0196). 95% CI (90.313, 90.390). Sample size: 6
eval_rougeL mean (SE): 64.0017 (0.0245). 95% CI (63.954, 64.050). Sample size: 6
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3521 (0.0000). 95% CI (90.352, 90.352). Sample size: 2
eval_bert_f1 mean (SE): 90.3521 (0.0000). 95% CI (90.352, 90.352). Sample size: 2
eval_rougeL mean (SE): 63.9203 (0.0000). 95% CI (63.920, 63.920). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3659 (0.0000). 95% CI (90.366, 90.366). Sample size: 2
eval_bert_f1 mean (SE): 90.3659 (0.0000). 95% CI (90.366, 90.366). Sample size: 2
eval_rougeL mean (SE): 63.9706 (0.0000). 95% CI (63.971, 63.971). Sample size: 2
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.3668 (0.0666). 95% CI (90.236, 90.497). Sample size: 6
eval_bert_f1 mean (SE): 90.3668 (0.0666). 95% CI (90.236, 90.497). Sample size: 6
eval_rougeL mean (SE): 63.3372 (0.4999). 95% CI (62.357, 64.317). Sample size: 6
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3693 (0.0000). 95% CI (90.369, 90.369). Sample size: 2
eval_bert_f1 mean (SE): 90.3693 (0.0000). 95% CI (90.369, 90.369). Sample size: 2
eval_rougeL mean (SE): 63.9818 (0.0000). 95% CI (63.982, 63.982). Sample size: 2
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.3713 (0.2573). 95% CI (89.867, 90.876). Sample size: 4
eval_bert_f1 mean (SE): 90.3713 (0.2573). 95% CI (89.867, 90.876). Sample size: 4
eval_rougeL mean (SE): 64.9940 (0.8270). 95% CI (63.373, 66.615). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3771 (0.0000). 95% CI (90.377, 90.377). Sample size: 2
eval_bert_f1 mean (SE): 90.3771 (0.0000). 95% CI (90.377, 90.377). Sample size: 2
eval_rougeL mean (SE): 63.9350 (0.0000). 95% CI (63.935, 63.935). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.3772 (0.0000). 95% CI (90.377, 90.377). Sample size: 2
eval_bert_f1 mean (SE): 90.3772 (0.0000). 95% CI (90.377, 90.377). Sample size: 2
eval_rougeL mean (SE): 64.2891 (0.0000). 95% CI (64.289, 64.289). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.3848 (0.0000). 95% CI (90.385, 90.385). Sample size: 2
eval_bert_f1 mean (SE): 90.3848 (0.0000). 95% CI (90.385, 90.385). Sample size: 2
eval_rougeL mean (SE): 63.8816 (0.0000). 95% CI (63.882, 63.882). Sample size: 2
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 90.3889 (0.0500). 95% CI (90.291, 90.487). Sample size: 6
eval_bert_f1 mean (SE): 90.3889 (0.0500). 95% CI (90.291, 90.487). Sample size: 6
eval_rougeL mean (SE): 63.3567 (0.4462). 95% CI (62.482, 64.231). Sample size: 6
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.3895 (0.0000). 95% CI (90.390, 90.390). Sample size: 2
eval_bert_f1 mean (SE): 90.3895 (0.0000). 95% CI (90.390, 90.390). Sample size: 2
eval_rougeL mean (SE): 63.9320 (0.0000). 95% CI (63.932, 63.932). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 8   , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3923 (0.0086). 95% CI (90.375, 90.409). Sample size: 2
eval_bert_f1 mean (SE): 90.3923 (0.0086). 95% CI (90.375, 90.409). Sample size: 2
eval_rougeL mean (SE): 64.0548 (0.0309). 95% CI (63.994, 64.115). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.3934 (0.0000). 95% CI (90.393, 90.393). Sample size: 2
eval_bert_f1 mean (SE): 90.3934 (0.0000). 95% CI (90.393, 90.393). Sample size: 2
eval_rougeL mean (SE): 63.9398 (0.0000). 95% CI (63.940, 63.940). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.3942 (0.0651). 95% CI (90.267, 90.522). Sample size: 4
eval_bert_f1 mean (SE): 90.3942 (0.0651). 95% CI (90.267, 90.522). Sample size: 4
eval_rougeL mean (SE): 63.8966 (0.3530). 95% CI (63.205, 64.588). Sample size: 4
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.3974 (0.0000). 95% CI (90.397, 90.397). Sample size: 2
eval_bert_f1 mean (SE): 90.3974 (0.0000). 95% CI (90.397, 90.397). Sample size: 2
eval_rougeL mean (SE): 63.9389 (0.0000). 95% CI (63.939, 63.939). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 32  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4017 (0.0030). 95% CI (90.396, 90.408). Sample size: 2
eval_bert_f1 mean (SE): 90.4017 (0.0030). 95% CI (90.396, 90.408). Sample size: 2
eval_rougeL mean (SE): 64.0156 (0.1635). 95% CI (63.695, 64.336). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4050 (0.0038). 95% CI (90.398, 90.413). Sample size: 2
eval_bert_f1 mean (SE): 90.4050 (0.0038). 95% CI (90.398, 90.413). Sample size: 2
eval_rougeL mean (SE): 64.0486 (0.1259). 95% CI (63.802, 64.295). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.4086 (0.0000). 95% CI (90.409, 90.409). Sample size: 2
eval_bert_f1 mean (SE): 90.4086 (0.0000). 95% CI (90.409, 90.409). Sample size: 2
eval_rougeL mean (SE): 64.3748 (0.0000). 95% CI (64.375, 64.375). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 8   , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 16
eval_bert_f1 mean (SE): 90.4097 (0.0117). 95% CI (90.387, 90.433). Sample size: 2
eval_bert_f1 mean (SE): 90.4097 (0.0117). 95% CI (90.387, 90.433). Sample size: 2
eval_rougeL mean (SE): 64.3900 (0.0112). 95% CI (64.368, 64.412). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 16  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4110 (0.0049). 95% CI (90.401, 90.421). Sample size: 2
eval_bert_f1 mean (SE): 90.4110 (0.0049). 95% CI (90.401, 90.421). Sample size: 2
eval_rougeL mean (SE): 64.3389 (0.2461). 95% CI (63.857, 64.821). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4122 (0.0235). 95% CI (90.366, 90.458). Sample size: 4
eval_bert_f1 mean (SE): 90.4122 (0.0235). 95% CI (90.366, 90.458). Sample size: 4
eval_rougeL mean (SE): 64.0394 (0.2378). 95% CI (63.573, 64.505). Sample size: 4
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.4165 (0.0688). 95% CI (90.282, 90.551). Sample size: 6
eval_bert_f1 mean (SE): 90.4165 (0.0688). 95% CI (90.282, 90.551). Sample size: 6
eval_rougeL mean (SE): 63.8624 (0.5239). 95% CI (62.835, 64.889). Sample size: 6
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4180 (0.0000). 95% CI (90.418, 90.418). Sample size: 2
eval_bert_f1 mean (SE): 90.4180 (0.0000). 95% CI (90.418, 90.418). Sample size: 2
eval_rougeL mean (SE): 64.3409 (0.0000). 95% CI (64.341, 64.341). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 8   , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4191 (0.0583). 95% CI (90.305, 90.533). Sample size: 2
eval_bert_f1 mean (SE): 90.4191 (0.0583). 95% CI (90.305, 90.533). Sample size: 2
eval_rougeL mean (SE): 64.3956 (0.1553). 95% CI (64.091, 64.700). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 8   , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4198 (0.0232). 95% CI (90.374, 90.465). Sample size: 2
eval_bert_f1 mean (SE): 90.4198 (0.0232). 95% CI (90.374, 90.465). Sample size: 2
eval_rougeL mean (SE): 64.8022 (0.0298). 95% CI (64.744, 64.860). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 8   , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 16
eval_bert_f1 mean (SE): 90.4239 (0.0505). 95% CI (90.325, 90.523). Sample size: 2
eval_bert_f1 mean (SE): 90.4239 (0.0505). 95% CI (90.325, 90.523). Sample size: 2
eval_rougeL mean (SE): 64.3116 (0.0236). 95% CI (64.265, 64.358). Sample size: 2
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 90.4249 (0.0469). 95% CI (90.333, 90.517). Sample size: 6
eval_bert_f1 mean (SE): 90.4249 (0.0469). 95% CI (90.333, 90.517). Sample size: 6
eval_rougeL mean (SE): 63.3294 (0.5269). 95% CI (62.297, 64.362). Sample size: 6
================================================================================
Config: max_steps: 2500, lora_r: 16  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4264 (0.0123). 95% CI (90.402, 90.451). Sample size: 2
eval_bert_f1 mean (SE): 90.4264 (0.0123). 95% CI (90.402, 90.451). Sample size: 2
eval_rougeL mean (SE): 64.1011 (0.1272). 95% CI (63.852, 64.350). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 128 , lr: 3e-05, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.4274 (0.0000). 95% CI (90.427, 90.427). Sample size: 2
eval_bert_f1 mean (SE): 90.4274 (0.0000). 95% CI (90.427, 90.427). Sample size: 2
eval_rougeL mean (SE): 64.4043 (0.0000). 95% CI (64.404, 64.404). Sample size: 2
================================================================================
Config: max_steps: 3200, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 10
eval_bert_f1 mean (SE): 90.4320 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.4320 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 64.1086 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.4321 (0.2337). 95% CI (89.974, 90.890). Sample size: 4
eval_bert_f1 mean (SE): 90.4321 (0.2337). 95% CI (89.974, 90.890). Sample size: 4
eval_rougeL mean (SE): 64.6114 (0.1770). 95% CI (64.265, 64.958). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 8   , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4325 (0.0047). 95% CI (90.423, 90.442). Sample size: 2
eval_bert_f1 mean (SE): 90.4325 (0.0047). 95% CI (90.423, 90.442). Sample size: 2
eval_rougeL mean (SE): 64.0860 (0.1174). 95% CI (63.856, 64.316). Sample size: 2
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: nf4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 90.4352 (0.0546). 95% CI (90.328, 90.542). Sample size: 6
eval_bert_f1 mean (SE): 90.4352 (0.0546). 95% CI (90.328, 90.542). Sample size: 6
eval_rougeL mean (SE): 63.6589 (0.5879). 95% CI (62.507, 64.811). Sample size: 6
================================================================================
Config: max_steps: 4000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4377 (0.0129). 95% CI (90.413, 90.463). Sample size: 2
eval_bert_f1 mean (SE): 90.4377 (0.0129). 95% CI (90.413, 90.463). Sample size: 2
eval_rougeL mean (SE): 64.2244 (0.0805). 95% CI (64.067, 64.382). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 32  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4387 (0.0097). 95% CI (90.420, 90.458). Sample size: 2
eval_bert_f1 mean (SE): 90.4387 (0.0097). 95% CI (90.420, 90.458). Sample size: 2
eval_rougeL mean (SE): 64.0705 (0.0506). 95% CI (63.971, 64.170). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 32  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4399 (0.0090). 95% CI (90.422, 90.458). Sample size: 2
eval_bert_f1 mean (SE): 90.4399 (0.0090). 95% CI (90.422, 90.458). Sample size: 2
eval_rougeL mean (SE): 64.3609 (0.1783). 95% CI (64.011, 64.711). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4422 (0.0013). 95% CI (90.440, 90.445). Sample size: 2
eval_bert_f1 mean (SE): 90.4422 (0.0013). 95% CI (90.440, 90.445). Sample size: 2
eval_rougeL mean (SE): 64.0452 (0.0268). 95% CI (63.993, 64.098). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 16
eval_bert_f1 mean (SE): 90.4442 (0.0103). 95% CI (90.424, 90.464). Sample size: 2
eval_bert_f1 mean (SE): 90.4442 (0.0103). 95% CI (90.424, 90.464). Sample size: 2
eval_rougeL mean (SE): 64.3317 (0.0305). 95% CI (64.272, 64.391). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 32  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 16
eval_bert_f1 mean (SE): 90.4460 (0.0177). 95% CI (90.411, 90.481). Sample size: 2
eval_bert_f1 mean (SE): 90.4460 (0.0177). 95% CI (90.411, 90.481). Sample size: 2
eval_rougeL mean (SE): 64.3792 (0.0581). 95% CI (64.265, 64.493). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 8   , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4461 (0.0602). 95% CI (90.328, 90.564). Sample size: 2
eval_bert_f1 mean (SE): 90.4461 (0.0602). 95% CI (90.328, 90.564). Sample size: 2
eval_rougeL mean (SE): 64.4576 (0.3699). 95% CI (63.732, 65.183). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 16
eval_bert_f1 mean (SE): 90.4474 (0.0028). 95% CI (90.442, 90.453). Sample size: 2
eval_bert_f1 mean (SE): 90.4474 (0.0028). 95% CI (90.442, 90.453). Sample size: 2
eval_rougeL mean (SE): 64.3734 (0.0645). 95% CI (64.247, 64.500). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 8   , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4494 (0.0366). 95% CI (90.378, 90.521). Sample size: 2
eval_bert_f1 mean (SE): 90.4494 (0.0366). 95% CI (90.378, 90.521). Sample size: 2
eval_rougeL mean (SE): 64.5652 (0.0819). 95% CI (64.405, 64.726). Sample size: 2
================================================================================
Config: max_steps: 5333, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.4495 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.4495 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 64.2885 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 2000, lora_r: 16  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 16
eval_bert_f1 mean (SE): 90.4514 (0.0028). 95% CI (90.446, 90.457). Sample size: 2
eval_bert_f1 mean (SE): 90.4514 (0.0028). 95% CI (90.446, 90.457). Sample size: 2
eval_rougeL mean (SE): 64.3890 (0.0216). 95% CI (64.347, 64.431). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 3e-05, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 500 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4519 (0.0000). 95% CI (90.452, 90.452). Sample size: 2
eval_bert_f1 mean (SE): 90.4519 (0.0000). 95% CI (90.452, 90.452). Sample size: 2
eval_rougeL mean (SE): 64.2359 (0.0000). 95% CI (64.236, 64.236). Sample size: 2
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.4548 (0.0459). 95% CI (90.365, 90.545). Sample size: 6
eval_bert_f1 mean (SE): 90.4548 (0.0459). 95% CI (90.365, 90.545). Sample size: 6
eval_rougeL mean (SE): 63.4767 (0.4950). 95% CI (62.507, 64.447). Sample size: 6
================================================================================
Config: max_steps: 4000, lora_r: 32  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4554 (0.0126). 95% CI (90.431, 90.480). Sample size: 2
eval_bert_f1 mean (SE): 90.4554 (0.0126). 95% CI (90.431, 90.480). Sample size: 2
eval_rougeL mean (SE): 64.5199 (0.1353). 95% CI (64.255, 64.785). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4555 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.4555 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 64.2258 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 32  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4585 (0.0002). 95% CI (90.458, 90.459). Sample size: 2
eval_bert_f1 mean (SE): 90.4585 (0.0002). 95% CI (90.458, 90.459). Sample size: 2
eval_rougeL mean (SE): 64.8562 (0.0711). 95% CI (64.717, 64.996). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4587 (0.0085). 95% CI (90.442, 90.475). Sample size: 2
eval_bert_f1 mean (SE): 90.4587 (0.0085). 95% CI (90.442, 90.475). Sample size: 2
eval_rougeL mean (SE): 64.7650 (0.0132). 95% CI (64.739, 64.791). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4607 (0.0187). 95% CI (90.424, 90.497). Sample size: 4
eval_bert_f1 mean (SE): 90.4607 (0.0187). 95% CI (90.424, 90.497). Sample size: 4
eval_rougeL mean (SE): 64.3726 (0.0532). 95% CI (64.268, 64.477). Sample size: 4
================================================================================
Config: max_steps: 4000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4619 (0.0011). 95% CI (90.460, 90.464). Sample size: 2
eval_bert_f1 mean (SE): 90.4619 (0.0011). 95% CI (90.460, 90.464). Sample size: 2
eval_rougeL mean (SE): 64.5099 (0.1572). 95% CI (64.202, 64.818). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4624 (0.0199). 95% CI (90.423, 90.501). Sample size: 2
eval_bert_f1 mean (SE): 90.4624 (0.0199). 95% CI (90.423, 90.501). Sample size: 2
eval_rougeL mean (SE): 64.8780 (0.0419). 95% CI (64.796, 64.960). Sample size: 2
================================================================================
Config: max_steps: 2000, lora_r: 16  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 16
eval_bert_f1 mean (SE): 90.4642 (0.0180). 95% CI (90.429, 90.499). Sample size: 2
eval_bert_f1 mean (SE): 90.4642 (0.0180). 95% CI (90.429, 90.499). Sample size: 2
eval_rougeL mean (SE): 64.3903 (0.0014). 95% CI (64.387, 64.393). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 3e-05, bf16: True, lora_modules: ffn , bits: 16  , full_finetune: True, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4645 (0.0000). 95% CI (90.465, 90.465). Sample size: 2
eval_bert_f1 mean (SE): 90.4645 (0.0000). 95% CI (90.465, 90.465). Sample size: 2
eval_rougeL mean (SE): 64.3108 (0.0000). 95% CI (64.311, 64.311). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 10
eval_bert_f1 mean (SE): 90.4688 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.4688 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 64.2497 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 32  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4763 (0.0249). 95% CI (90.427, 90.525). Sample size: 2
eval_bert_f1 mean (SE): 90.4763 (0.0249). 95% CI (90.427, 90.525). Sample size: 2
eval_rougeL mean (SE): 64.7678 (0.0439). 95% CI (64.682, 64.854). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 16  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4771 (0.0306). 95% CI (90.417, 90.537). Sample size: 2
eval_bert_f1 mean (SE): 90.4771 (0.0306). 95% CI (90.417, 90.537). Sample size: 2
eval_rougeL mean (SE): 64.8577 (0.0651). 95% CI (64.730, 64.985). Sample size: 2
================================================================================
Config: max_steps: 4000, lora_r: 16  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4778 (0.0201). 95% CI (90.438, 90.517). Sample size: 2
eval_bert_f1 mean (SE): 90.4778 (0.0201). 95% CI (90.438, 90.517). Sample size: 2
eval_rougeL mean (SE): 64.6057 (0.0300). 95% CI (64.547, 64.664). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4781 (0.0000). 95% CI (90.478, 90.478). Sample size: 2
eval_bert_f1 mean (SE): 90.4781 (0.0000). 95% CI (90.478, 90.478). Sample size: 2
eval_rougeL mean (SE): 64.3865 (0.0000). 95% CI (64.386, 64.386). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.05, warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.4827 (0.0000). 95% CI (90.483, 90.483). Sample size: 2
eval_bert_f1 mean (SE): 90.4827 (0.0000). 95% CI (90.483, 90.483). Sample size: 2
eval_rougeL mean (SE): 64.5578 (0.0000). 95% CI (64.558, 64.558). Sample size: 2
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.001, bf16: False, lora_modules: ffn , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.4867 (0.0000). 95% CI (90.487, 90.487). Sample size: 2
eval_bert_f1 mean (SE): 90.4867 (0.0000). 95% CI (90.487, 90.487). Sample size: 2
eval_rougeL mean (SE): 64.5968 (0.0000). 95% CI (64.597, 64.597). Sample size: 2
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.999, update_freq: 6
eval_bert_f1 mean (SE): 90.4872 (0.0359). 95% CI (90.417, 90.558). Sample size: 6
eval_bert_f1 mean (SE): 90.4872 (0.0359). 95% CI (90.417, 90.558). Sample size: 6
eval_rougeL mean (SE): 63.6382 (0.5197). 95% CI (62.620, 64.657). Sample size: 6
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: True, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.4912 (0.0526). 95% CI (90.388, 90.594). Sample size: 6
eval_bert_f1 mean (SE): 90.4912 (0.0526). 95% CI (90.388, 90.594). Sample size: 6
eval_rougeL mean (SE): 63.6371 (0.5744). 95% CI (62.511, 64.763). Sample size: 6
================================================================================
Config: max_steps: 17500, lora_r: 64  , lr: 0.0002, bf16: True, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: False, dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: fp4 , adam_beta2: 0.95, update_freq: 6
eval_bert_f1 mean (SE): 90.4916 (0.0422). 95% CI (90.409, 90.574). Sample size: 4
eval_bert_f1 mean (SE): 90.4916 (0.0422). 95% CI (90.409, 90.574). Sample size: 4
eval_rougeL mean (SE): 65.0195 (0.4506). 95% CI (64.136, 65.903). Sample size: 4
================================================================================
Config: max_steps: 2500, lora_r: 128 , lr: 0.0003, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.5034 (0.0000). 95% CI (90.503, 90.503). Sample size: 2
eval_bert_f1 mean (SE): 90.5034 (0.0000). 95% CI (90.503, 90.503). Sample size: 2
eval_rougeL mean (SE): 64.5204 (0.0000). 95% CI (64.520, 64.520). Sample size: 2
================================================================================
Config: max_steps: 6667, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.5073 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.5073 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 64.4619 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0003, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: NaN , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 4
eval_bert_f1 mean (SE): 90.5197 (0.0000). 95% CI (90.520, 90.520). Sample size: 2
eval_bert_f1 mean (SE): 90.5197 (0.0000). 95% CI (90.520, 90.520). Sample size: 2
eval_rougeL mean (SE): 64.6247 (0.0000). 95% CI (64.625, 64.625). Sample size: 2
================================================================================
Config: max_steps: 5000, lora_r: 64  , lr: 0.0001, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.5214 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.5214 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 64.3744 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 5000, lora_r: 16  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 400 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 8
eval_bert_f1 mean (SE): 90.5233 (0.0255). 95% CI (90.473, 90.573). Sample size: 2
eval_bert_f1 mean (SE): 90.5233 (0.0255). 95% CI (90.473, 90.573). Sample size: 2
eval_rougeL mean (SE): 64.8376 (0.0045). 95% CI (64.829, 64.846). Sample size: 2
================================================================================
Config: max_steps: 45550, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.5838 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.5838 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 64.8241 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 6000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.6995 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.6995 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 65.2213 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 30375, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.7717 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.7717 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 65.4644 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 9000, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.7842 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.7842 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 65.6898 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 13500, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.8314 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.8314 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 66.1775 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================
Config: max_steps: 20250, lora_r: 64  , lr: 0.0002, bf16: False, lora_modules: all , bits: 4   , full_finetune: False, lora_dropout: 0.0 , warmup_steps: 100 , compress_statistics: NaN , dataset: NaN , gradient_accumulation_steps: NaN , learning_rate: NaN , quant_type: NaN , adam_beta2: NaN , update_freq: 6
eval_bert_f1 mean (SE): 90.8519 (nan). 95% CI (nan, nan). Sample size: 1
eval_bert_f1 mean (SE): 90.8519 (nan). 95% CI (nan, nan). Sample size: 1
eval_rougeL mean (SE): 66.4437 (nan). 95% CI (nan, nan). Sample size: 1
================================================================================