tobyyouup

## running log
INFO - 09/13/18 10:01:49 - 0:00:00 - ============ Initialized logger ============
INFO - 09/13/18 10:01:49 - 0:00:00 - attention: True
                                     attention_dropout: 0
                                     back_dataset: {}
                                     back_directions: []
                                     batch_size: 32
                                     beam_size: 0
                                     clip_grad_norm: 5
                                     command: python ../main.py --exp_name 'endefr' --transformer 'True' --n_enc_layers '4' --n_dec_layers '4' --share_enc '3' --share_dec '3' --share_lang_emb 'True' --share_output_emb 'True' --langs 'de,en,fr' --n_mono '-1' --mono_dataset 'de:./data/mono/de.train.tok.bpe.pth,,;en:./data/mono/en.train.tok.bpe.pth,,;fr:./data/mono/fr.train.tok.bpe.pth,,' --para_dataset 'en-fr:,./data/para/dev/newstest2013-ref.XX.60000.pth,./data/para/dev/newstest2014-fren-src.XX.60000.pth;de-en:,./data/para/dev/newstest2013-ref.XX.60000.pth,.

## log.txt
INFO - 09/02/18 20:19:21 - 0:00:00 - ============ Initialized logger ============
INFO - 09/02/18 20:19:21 - 0:00:00 - attention: True
                                     attention_dropout: 0
                                     back_dataset: {}
                                     back_directions: []
                                     batch_size: 32
                                     beam_size: 0
                                     clip_grad_norm: 5
                                     command: python main.py --exp_name 'test' --transformer 'True' --n_enc_layers '1' --n_dec_layers '1' --share_enc '1' --share_dec '1' --share_lang_emb 'True' --share_output_emb 'True' --langs 'en,fr' --n_mono '-1' --mono_dataset 'en:./data/mono/all.en.tok.60000.pth,,;fr:./data/mono/all.fr.tok.60000.pth,,' --para_dataset 'en-fr:,./data/para/dev/newstest2013-ref.XX.60000.pth,./data/para/dev/newstest2014-fren-src.XX.60000.pth' --mono_directions 'en,fr' --word_shuffle '3' --word_dropout '0.1' --word_blank '0.2' --pivo_directi

## multistep_optimizer.py
class MultistepAdamOptimizer(tf.train.AdamOptimizer):
  """Adam with SGD updates every n steps with accumulated gradients."""

  def __init__(self, learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8,
               use_locking=False, name="Adam", n=1):
    super(MultistepAdamOptimizer, self).__init__(
        learning_rate=learning_rate, beta1=beta1, beta2=beta2, epsilon=epsilon,
        use_locking=use_locking, name=name)
    self._n = n  # Call Adam optimizer every n batches with accumulated grads
    self._n_t = None  # n as tensor

## -mca btl ^openib -x NCCL_IB_HCA=mlx5_0
m12:2037:2131 [0] INFO NET : Using interface eth2:172.23.233.77<0>
m12:2037:2131 [0] INFO NET/IB : Using interface eth2 for sideband communication
m12:2037:2131 [0] INFO NET/IB: [3] mlx5_0:1/IB
m12:2037:2131 [0] INFO Using internal Network IB
NCCL version 2.0.5 compiled with CUDA 8.0
m12:2039:2134 [2] INFO NET : Using interface eth2:172.23.233.77<0>
m12:2039:2134 [2] INFO NET/IB : Using interface eth2 for sideband communication
m12:2041:2220 [4] INFO NET : Using interface eth2:172.23.233.77<0>
m12:2041:2220 [4] INFO NET/IB : Using interface eth2 for sideband communication
m13:42973:43395 [0] INFO NET : Using interface eth2:172.23.233.75<0>
	INFO - 09/13/18 10:01:49 - 0:00:00 - ============ Initialized logger ============
	INFO - 09/13/18 10:01:49 - 0:00:00 - attention: True
	attention_dropout: 0
	back_dataset: {}
	back_directions: []
	batch_size: 32
	beam_size: 0
	clip_grad_norm: 5
	command: python ../main.py --exp_name 'endefr' --transformer 'True' --n_enc_layers '4' --n_dec_layers '4' --share_enc '3' --share_dec '3' --share_lang_emb 'True' --share_output_emb 'True' --langs 'de,en,fr' --n_mono '-1' --mono_dataset 'de:./data/mono/de.train.tok.bpe.pth,,;en:./data/mono/en.train.tok.bpe.pth,,;fr:./data/mono/fr.train.tok.bpe.pth,,' --para_dataset 'en-fr:,./data/para/dev/newstest2013-ref.XX.60000.pth,./data/para/dev/newstest2014-fren-src.XX.60000.pth;de-en:,./data/para/dev/newstest2013-ref.XX.60000.pth,.
	INFO - 09/02/18 20:19:21 - 0:00:00 - ============ Initialized logger ============
	INFO - 09/02/18 20:19:21 - 0:00:00 - attention: True
	attention_dropout: 0
	back_dataset: {}
	back_directions: []
	batch_size: 32
	beam_size: 0
	clip_grad_norm: 5
	command: python main.py --exp_name 'test' --transformer 'True' --n_enc_layers '1' --n_dec_layers '1' --share_enc '1' --share_dec '1' --share_lang_emb 'True' --share_output_emb 'True' --langs 'en,fr' --n_mono '-1' --mono_dataset 'en:./data/mono/all.en.tok.60000.pth,,;fr:./data/mono/all.fr.tok.60000.pth,,' --para_dataset 'en-fr:,./data/para/dev/newstest2013-ref.XX.60000.pth,./data/para/dev/newstest2014-fren-src.XX.60000.pth' --mono_directions 'en,fr' --word_shuffle '3' --word_dropout '0.1' --word_blank '0.2' --pivo_directi
	class MultistepAdamOptimizer(tf.train.AdamOptimizer):
	"""Adam with SGD updates every n steps with accumulated gradients."""

	def __init__(self, learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8,
	use_locking=False, name="Adam", n=1):
	super(MultistepAdamOptimizer, self).__init__(
	learning_rate=learning_rate, beta1=beta1, beta2=beta2, epsilon=epsilon,
	use_locking=use_locking, name=name)
	self._n = n # Call Adam optimizer every n batches with accumulated grads
	self._n_t = None # n as tensor
	m12:2037:2131 [0] INFO NET : Using interface eth2:172.23.233.77<0>
	m12:2037:2131 [0] INFO NET/IB : Using interface eth2 for sideband communication
	m12:2037:2131 [0] INFO NET/IB: [3] mlx5_0:1/IB
	m12:2037:2131 [0] INFO Using internal Network IB
	NCCL version 2.0.5 compiled with CUDA 8.0
	m12:2039:2134 [2] INFO NET : Using interface eth2:172.23.233.77<0>
	m12:2039:2134 [2] INFO NET/IB : Using interface eth2 for sideband communication
	m12:2041:2220 [4] INFO NET : Using interface eth2:172.23.233.77<0>
	m12:2041:2220 [4] INFO NET/IB : Using interface eth2 for sideband communication
	m13:42973:43395 [0] INFO NET : Using interface eth2:172.23.233.75<0>