Atcold/Training log

## Training log
==> Train 87
 [================================ 515/515 ===================================>] ETA: 0ms | Step: 693ms
======> Time to learn 1 iteration = 357.17 sec
======> Time to train 1 sample = 5.41 ms
======> Train CE error: 3.32
======> Train accuracy: 25.648%
Conv layer 1
max L2 weights norm: 4.315349
#small weights: 1, big weights: 0
#small grads  : 3888, big grads  : 0
Conv layer 2
max L2 weights norm: 3.357420
#small weights: 0, big weights: 0
#small grads  : 6400, big grads  : 0
Conv layer 3
max L2 weights norm: 3.059696
#small weights: 0, big weights: 0
#small grads  : 2304, big grads  : 0
Conv layer 4
max L2 weights norm: 5.916777
#small weights: 0, big weights: 0
#small grads  : 2304, big grads  : 0
Conv layer 5
max L2 weights norm: 5.614500
#small weights: 0, big weights: 0
#small grads  : 2304, big grads  : 0
Linear layer 1
max L2 weights norm: 3.783963
#small weights: 37, big weights: 0
#small grads  : 409600, big grads  : 0
Linear layer 2
max L2 weights norm: 2.079521
#small weights: 3, big weights: 0
#small grads  : 60398, big grads  : 0
Output layer
max L2 weights norm: 1.500999
#small weights: 0, big weights: 0
#small grads  : 10361, big grads  : 0
train_confusion.totalValid: 0.25647754854369, prevTrainAcc: 0.85417172330097
>>>>>>>>>>>>>>><<<<<<<<<<<<<<<
>>> Drop in training > 50% <<<
>>>>>>>>>>>>>>><<<<<<<<<<<<<<<

==> Train 88
 [================================ 515/515 ===================================>] ETA: 0ms | Step: 692ms
======> Time to learn 1 iteration = 356.99 sec
======> Time to train 1 sample = 5.41 ms
======> Train CE error: 1.22
======> Train accuracy: 85.413%
Conv layer 1
max L2 weights norm: 2.452757
#small weights: 0, big weights: 0
#small grads  : 23, big grads  : 0
Conv layer 2
max L2 weights norm: 2.758021
#small weights: 0, big weights: 0
#small grads  : 2726, big grads  : 0
Conv layer 3
max L2 weights norm: 2.899910
#small weights: 0, big weights: 0
#small grads  : 799, big grads  : 0
Conv layer 4
max L2 weights norm: 2.841064
#small weights: 0, big weights: 0
#small grads  : 146, big grads  : 0
Conv layer 5
max L2 weights norm: 3.378338
#small weights: 1, big weights: 0
#small grads  : 11, big grads  : 0
Linear layer 1
max L2 weights norm: 3.801837
#small weights: 32, big weights: 0
#small grads  : 22902, big grads  : 0
Linear layer 2
max L2 weights norm: 2.094819
#small weights: 6, big weights: 0
#small grads  : 14103, big grads  : 0
Output layer
max L2 weights norm: 1.549240
#small weights: 1, big weights: 0
#small grads  : 711, big grads  : 0
train_confusion.totalValid: 0.85412621359223, prevTrainAcc: 0.25647754854369

==> Train 96
 [================================ 515/515 ===================================>] ETA: 0ms | Step: 693ms
======> Time to learn 1 iteration = 356.78 sec
======> Time to train 1 sample = 5.41 ms
======> Train CE error: 4.00
======> Train accuracy: 3.609%
Conv layer 1
max L2 weights norm: 3.228836
#small weights: 0, big weights: 0
#small grads  : 585, big grads  : 0
Conv layer 2
max L2 weights norm: 3.343111
#small weights: 2, big weights: 0
#small grads  : 4029, big grads  : 0
Conv layer 3
max L2 weights norm: 3.478521
#small weights: 0, big weights: 0
#small grads  : 915, big grads  : 0
Conv layer 4
max L2 weights norm: 2.825122
#small weights: 0, big weights: 0
#small grads  : 382, big grads  : 0
Conv layer 5
max L2 weights norm: 3.765861
#small weights: 0, big weights: 0
#small grads  : 632, big grads  : 0
Linear layer 1
max L2 weights norm: 3.923441
#small weights: 36, big weights: 0
#small grads  : 306043, big grads  : 0
Linear layer 2
max L2 weights norm: 2.134979
#small weights: 4, big weights: 0
#small grads  : 34045, big grads  : 0
Output layer
max L2 weights norm: 1.830988
#small weights: 3, big weights: 0
#small grads  : 5272, big grads  : 0
train_confusion.totalValid: 0.036089199029126, prevTrainAcc: 0.58793992718447
>>>>>>>>>>>>>>><<<<<<<<<<<<<<<
>>> Drop in training > 50% <<<
>>>>>>>>>>>>>>><<<<<<<<<<<<<<<

==> Train 97
 [================================ 515/515 ===================================>] ETA: 0ms | Step: 693ms
======> Time to learn 1 iteration = 357.17 sec
======> Time to train 1 sample = 5.41 ms
======> Train CE error: 3.95
======> Train accuracy: 3.924%
Conv layer 1
max L2 weights norm: 1.932102
#small weights: 0, big weights: 0
#small grads  : 221, big grads  : 0
Conv layer 2
max L2 weights norm: 3.344407
#small weights: 1, big weights: 0
#small grads  : 3583, big grads  : 0
Conv layer 3
max L2 weights norm: 3.106975
#small weights: 1, big weights: 0
#small grads  : 1144, big grads  : 0
Conv layer 4
max L2 weights norm: 2.824525
#small weights: 0, big weights: 0
#small grads  : 992, big grads  : 0
Conv layer 5
max L2 weights norm: 3.766861
#small weights: 0, big weights: 0
#small grads  : 862, big grads  : 0
Linear layer 1
max L2 weights norm: 3.915259
#small weights: 41, big weights: 0
#small grads  : 292320, big grads  : 0
Linear layer 2
max L2 weights norm: 2.135637
#small weights: 0, big weights: 0
#small grads  : 31244, big grads  : 0
Output layer
max L2 weights norm: 1.538128
#small weights: 1, big weights: 0
#small grads  : 3757, big grads  : 0
train_confusion.totalValid: 0.039244538834951, prevTrainAcc: 0.036089199029126

==> Train 114
 [================================ 515/515 ===================================>] ETA: 0ms | Step: 693ms
======> Time to learn 1 iteration = 356.73 sec
======> Time to train 1 sample = 5.40 ms
======> Train CE error: 3.01
======> Train accuracy: 33.255%
Conv layer 1
max L2 weights norm: 2.264421
#small weights: 1, big weights: 0
#small grads  : 77, big grads  : 0
Conv layer 2
max L2 weights norm: 2.846607
#small weights: 0, big weights: 0
#small grads  : 4254, big grads  : 0
Conv layer 3
max L2 weights norm: 3.038891
#small weights: 0, big weights: 0
#small grads  : 636, big grads  : 0
Conv layer 4
max L2 weights norm: 3.229704
#small weights: 0, big weights: 0
#small grads  : 590, big grads  : 0
Conv layer 5
max L2 weights norm: 3.786046
#small weights: 0, big weights: 0
#small grads  : 842, big grads  : 0
Linear layer 1
max L2 weights norm: 3.940843
#small weights: 29, big weights: 0
#small grads  : 30524, big grads  : 0
Linear layer 2
max L2 weights norm: 2.142980
#small weights: 4, big weights: 0
#small grads  : 13841, big grads  : 0
Output layer
max L2 weights norm: 1.444991
#small weights: 2, big weights: 0
#small grads  : 16, big grads  : 0
train_confusion.totalValid: 0.33255461165049, prevTrainAcc: 0.66914441747573
>>>>>>>>>>>>>>><<<<<<<<<<<<<<<
>>> Drop in training > 50% <<<
>>>>>>>>>>>>>>><<<<<<<<<<<<<<<

==> Train 115
 [================================ 515/515 ===================================>] ETA: 0ms | Step: 693ms
======> Time to learn 1 iteration = 357.10 sec
======> Time to train 1 sample = 5.41 ms
======> Train CE error: 1.82
======> Train accuracy: 69.974%
Conv layer 1
max L2 weights norm: 1.847098
#small weights: 0, big weights: 0
#small grads  : 128, big grads  : 0
Conv layer 2
max L2 weights norm: 2.777326
#small weights: 1, big weights: 0
#small grads  : 3682, big grads  : 0
Conv layer 3
max L2 weights norm: 3.028112
#small weights: 0, big weights: 0
#small grads  : 1339, big grads  : 0
Conv layer 4
max L2 weights norm: 3.239054
#small weights: 1, big weights: 0
#small grads  : 1234, big grads  : 0
Conv layer 5
max L2 weights norm: 3.785908
#small weights: 0, big weights: 0
#small grads  : 886, big grads  : 0
Linear layer 1
max L2 weights norm: 3.940366
#small weights: 46, big weights: 0
#small grads  : 45391, big grads  : 0
Linear layer 2
max L2 weights norm: 2.141491
#small weights: 1, big weights: 0
#small grads  : 8998, big grads  : 0
Output layer
max L2 weights norm: 1.412055
#small weights: 0, big weights: 0
#small grads  : 143, big grads  : 0
train_confusion.totalValid: 0.69974211165049, prevTrainAcc: 0.33255461165049
	==> Train 87
	[================================ 515/515 ===================================>] ETA: 0ms \| Step: 693ms
	======> Time to learn 1 iteration = 357.17 sec
	======> Time to train 1 sample = 5.41 ms
	======> Train CE error: 3.32
	======> Train accuracy: 25.648%
	Conv layer 1
	max L2 weights norm: 4.315349
	#small weights: 1, big weights: 0
	#small grads : 3888, big grads : 0
	Conv layer 2
	max L2 weights norm: 3.357420
	#small weights: 0, big weights: 0
	#small grads : 6400, big grads : 0
	Conv layer 3
	max L2 weights norm: 3.059696
	#small weights: 0, big weights: 0
	#small grads : 2304, big grads : 0
	Conv layer 4
	max L2 weights norm: 5.916777
	#small weights: 0, big weights: 0
	#small grads : 2304, big grads : 0
	Conv layer 5
	max L2 weights norm: 5.614500
	#small weights: 0, big weights: 0
	#small grads : 2304, big grads : 0
	Linear layer 1
	max L2 weights norm: 3.783963
	#small weights: 37, big weights: 0
	#small grads : 409600, big grads : 0
	Linear layer 2
	max L2 weights norm: 2.079521
	#small weights: 3, big weights: 0
	#small grads : 60398, big grads : 0
	Output layer
	max L2 weights norm: 1.500999
	#small weights: 0, big weights: 0
	#small grads : 10361, big grads : 0
	train_confusion.totalValid: 0.25647754854369, prevTrainAcc: 0.85417172330097
	>>>>>>>>>>>>>>><<<<<<<<<<<<<<<
	>>> Drop in training > 50% <<<
	>>>>>>>>>>>>>>><<<<<<<<<<<<<<<

	==> Train 88
	[================================ 515/515 ===================================>] ETA: 0ms \| Step: 692ms
	======> Time to learn 1 iteration = 356.99 sec
	======> Time to train 1 sample = 5.41 ms
	======> Train CE error: 1.22
	======> Train accuracy: 85.413%
	Conv layer 1
	max L2 weights norm: 2.452757
	#small weights: 0, big weights: 0
	#small grads : 23, big grads : 0
	Conv layer 2
	max L2 weights norm: 2.758021
	#small weights: 0, big weights: 0
	#small grads : 2726, big grads : 0
	Conv layer 3
	max L2 weights norm: 2.899910
	#small weights: 0, big weights: 0
	#small grads : 799, big grads : 0
	Conv layer 4
	max L2 weights norm: 2.841064
	#small weights: 0, big weights: 0
	#small grads : 146, big grads : 0
	Conv layer 5
	max L2 weights norm: 3.378338
	#small weights: 1, big weights: 0
	#small grads : 11, big grads : 0
	Linear layer 1
	max L2 weights norm: 3.801837
	#small weights: 32, big weights: 0
	#small grads : 22902, big grads : 0
	Linear layer 2
	max L2 weights norm: 2.094819
	#small weights: 6, big weights: 0
	#small grads : 14103, big grads : 0
	Output layer
	max L2 weights norm: 1.549240
	#small weights: 1, big weights: 0
	#small grads : 711, big grads : 0
	train_confusion.totalValid: 0.85412621359223, prevTrainAcc: 0.25647754854369

	==> Train 96
	[================================ 515/515 ===================================>] ETA: 0ms \| Step: 693ms
	======> Time to learn 1 iteration = 356.78 sec
	======> Time to train 1 sample = 5.41 ms
	======> Train CE error: 4.00
	======> Train accuracy: 3.609%
	Conv layer 1
	max L2 weights norm: 3.228836
	#small weights: 0, big weights: 0
	#small grads : 585, big grads : 0
	Conv layer 2
	max L2 weights norm: 3.343111
	#small weights: 2, big weights: 0
	#small grads : 4029, big grads : 0
	Conv layer 3
	max L2 weights norm: 3.478521
	#small weights: 0, big weights: 0
	#small grads : 915, big grads : 0
	Conv layer 4
	max L2 weights norm: 2.825122
	#small weights: 0, big weights: 0
	#small grads : 382, big grads : 0
	Conv layer 5
	max L2 weights norm: 3.765861
	#small weights: 0, big weights: 0
	#small grads : 632, big grads : 0
	Linear layer 1
	max L2 weights norm: 3.923441
	#small weights: 36, big weights: 0
	#small grads : 306043, big grads : 0
	Linear layer 2
	max L2 weights norm: 2.134979
	#small weights: 4, big weights: 0
	#small grads : 34045, big grads : 0
	Output layer
	max L2 weights norm: 1.830988
	#small weights: 3, big weights: 0
	#small grads : 5272, big grads : 0
	train_confusion.totalValid: 0.036089199029126, prevTrainAcc: 0.58793992718447
	>>>>>>>>>>>>>>><<<<<<<<<<<<<<<
	>>> Drop in training > 50% <<<
	>>>>>>>>>>>>>>><<<<<<<<<<<<<<<

	==> Train 97
	[================================ 515/515 ===================================>] ETA: 0ms \| Step: 693ms
	======> Time to learn 1 iteration = 357.17 sec
	======> Time to train 1 sample = 5.41 ms
	======> Train CE error: 3.95
	======> Train accuracy: 3.924%
	Conv layer 1
	max L2 weights norm: 1.932102
	#small weights: 0, big weights: 0
	#small grads : 221, big grads : 0
	Conv layer 2
	max L2 weights norm: 3.344407
	#small weights: 1, big weights: 0
	#small grads : 3583, big grads : 0
	Conv layer 3
	max L2 weights norm: 3.106975
	#small weights: 1, big weights: 0
	#small grads : 1144, big grads : 0
	Conv layer 4
	max L2 weights norm: 2.824525
	#small weights: 0, big weights: 0
	#small grads : 992, big grads : 0
	Conv layer 5
	max L2 weights norm: 3.766861
	#small weights: 0, big weights: 0
	#small grads : 862, big grads : 0
	Linear layer 1
	max L2 weights norm: 3.915259
	#small weights: 41, big weights: 0
	#small grads : 292320, big grads : 0
	Linear layer 2
	max L2 weights norm: 2.135637
	#small weights: 0, big weights: 0
	#small grads : 31244, big grads : 0
	Output layer
	max L2 weights norm: 1.538128
	#small weights: 1, big weights: 0
	#small grads : 3757, big grads : 0
	train_confusion.totalValid: 0.039244538834951, prevTrainAcc: 0.036089199029126

	==> Train 114
	[================================ 515/515 ===================================>] ETA: 0ms \| Step: 693ms
	======> Time to learn 1 iteration = 356.73 sec
	======> Time to train 1 sample = 5.40 ms
	======> Train CE error: 3.01
	======> Train accuracy: 33.255%
	Conv layer 1
	max L2 weights norm: 2.264421
	#small weights: 1, big weights: 0
	#small grads : 77, big grads : 0
	Conv layer 2
	max L2 weights norm: 2.846607
	#small weights: 0, big weights: 0
	#small grads : 4254, big grads : 0
	Conv layer 3
	max L2 weights norm: 3.038891
	#small weights: 0, big weights: 0
	#small grads : 636, big grads : 0
	Conv layer 4
	max L2 weights norm: 3.229704
	#small weights: 0, big weights: 0
	#small grads : 590, big grads : 0
	Conv layer 5
	max L2 weights norm: 3.786046
	#small weights: 0, big weights: 0
	#small grads : 842, big grads : 0
	Linear layer 1
	max L2 weights norm: 3.940843
	#small weights: 29, big weights: 0
	#small grads : 30524, big grads : 0
	Linear layer 2
	max L2 weights norm: 2.142980
	#small weights: 4, big weights: 0
	#small grads : 13841, big grads : 0
	Output layer
	max L2 weights norm: 1.444991
	#small weights: 2, big weights: 0
	#small grads : 16, big grads : 0
	train_confusion.totalValid: 0.33255461165049, prevTrainAcc: 0.66914441747573
	>>>>>>>>>>>>>>><<<<<<<<<<<<<<<
	>>> Drop in training > 50% <<<
	>>>>>>>>>>>>>>><<<<<<<<<<<<<<<

	==> Train 115
	[================================ 515/515 ===================================>] ETA: 0ms \| Step: 693ms
	======> Time to learn 1 iteration = 357.10 sec
	======> Time to train 1 sample = 5.41 ms
	======> Train CE error: 1.82
	======> Train accuracy: 69.974%
	Conv layer 1
	max L2 weights norm: 1.847098
	#small weights: 0, big weights: 0
	#small grads : 128, big grads : 0
	Conv layer 2
	max L2 weights norm: 2.777326
	#small weights: 1, big weights: 0
	#small grads : 3682, big grads : 0
	Conv layer 3
	max L2 weights norm: 3.028112
	#small weights: 0, big weights: 0
	#small grads : 1339, big grads : 0
	Conv layer 4
	max L2 weights norm: 3.239054
	#small weights: 1, big weights: 0
	#small grads : 1234, big grads : 0
	Conv layer 5
	max L2 weights norm: 3.785908
	#small weights: 0, big weights: 0
	#small grads : 886, big grads : 0
	Linear layer 1
	max L2 weights norm: 3.940366
	#small weights: 46, big weights: 0
	#small grads : 45391, big grads : 0
	Linear layer 2
	max L2 weights norm: 2.141491
	#small weights: 1, big weights: 0
	#small grads : 8998, big grads : 0
	Output layer
	max L2 weights norm: 1.412055
	#small weights: 0, big weights: 0
	#small grads : 143, big grads : 0
	train_confusion.totalValid: 0.69974211165049, prevTrainAcc: 0.33255461165049