Skip to content

Instantly share code, notes, and snippets.

@shawwn
Created September 7, 2021 00:41
Show Gist options
  • Save shawwn/4ef488a1620b731c4aafcda032c4a284 to your computer and use it in GitHub Desktop.
Save shawwn/4ef488a1620b731c4aafcda032c4a284 to your computer and use it in GitHub Desktop.
~/ml/shawwn-gpt-2$ inspect-checkpoint models/1558M/model.ckpt
+ exec python3 -m tensorflow.python.tools.inspect_checkpoint --file_name=models/1558M/model.ckpt
Init Plugin
Init Graph Optimizer
Init Kernel
model/h0/attn/c_attn/b (DT_FLOAT) [4800]
model/h0/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h0/attn/c_proj/b (DT_FLOAT) [1600]
model/h0/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h0/ln_1/b (DT_FLOAT) [1600]
model/h0/ln_1/g (DT_FLOAT) [1600]
model/h0/ln_2/b (DT_FLOAT) [1600]
model/h0/ln_2/g (DT_FLOAT) [1600]
model/h0/mlp/c_fc/b (DT_FLOAT) [6400]
model/h0/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h0/mlp/c_proj/b (DT_FLOAT) [1600]
model/h0/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h1/attn/c_attn/b (DT_FLOAT) [4800]
model/h1/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h1/attn/c_proj/b (DT_FLOAT) [1600]
model/h1/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h1/ln_1/b (DT_FLOAT) [1600]
model/h1/ln_1/g (DT_FLOAT) [1600]
model/h1/ln_2/b (DT_FLOAT) [1600]
model/h1/ln_2/g (DT_FLOAT) [1600]
model/h1/mlp/c_fc/b (DT_FLOAT) [6400]
model/h1/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h1/mlp/c_proj/b (DT_FLOAT) [1600]
model/h1/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h10/attn/c_attn/b (DT_FLOAT) [4800]
model/h10/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h10/attn/c_proj/b (DT_FLOAT) [1600]
model/h10/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h10/ln_1/b (DT_FLOAT) [1600]
model/h10/ln_1/g (DT_FLOAT) [1600]
model/h10/ln_2/b (DT_FLOAT) [1600]
model/h10/ln_2/g (DT_FLOAT) [1600]
model/h10/mlp/c_fc/b (DT_FLOAT) [6400]
model/h10/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h10/mlp/c_proj/b (DT_FLOAT) [1600]
model/h10/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h11/attn/c_attn/b (DT_FLOAT) [4800]
model/h11/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h11/attn/c_proj/b (DT_FLOAT) [1600]
model/h11/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h11/ln_1/b (DT_FLOAT) [1600]
model/h11/ln_1/g (DT_FLOAT) [1600]
model/h11/ln_2/b (DT_FLOAT) [1600]
model/h11/ln_2/g (DT_FLOAT) [1600]
model/h11/mlp/c_fc/b (DT_FLOAT) [6400]
model/h11/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h11/mlp/c_proj/b (DT_FLOAT) [1600]
model/h11/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h12/attn/c_attn/b (DT_FLOAT) [4800]
model/h12/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h12/attn/c_proj/b (DT_FLOAT) [1600]
model/h12/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h12/ln_1/b (DT_FLOAT) [1600]
model/h12/ln_1/g (DT_FLOAT) [1600]
model/h12/ln_2/b (DT_FLOAT) [1600]
model/h12/ln_2/g (DT_FLOAT) [1600]
model/h12/mlp/c_fc/b (DT_FLOAT) [6400]
model/h12/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h12/mlp/c_proj/b (DT_FLOAT) [1600]
model/h12/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h13/attn/c_attn/b (DT_FLOAT) [4800]
model/h13/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h13/attn/c_proj/b (DT_FLOAT) [1600]
model/h13/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h13/ln_1/b (DT_FLOAT) [1600]
model/h13/ln_1/g (DT_FLOAT) [1600]
model/h13/ln_2/b (DT_FLOAT) [1600]
model/h13/ln_2/g (DT_FLOAT) [1600]
model/h13/mlp/c_fc/b (DT_FLOAT) [6400]
model/h13/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h13/mlp/c_proj/b (DT_FLOAT) [1600]
model/h13/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h14/attn/c_attn/b (DT_FLOAT) [4800]
model/h14/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h14/attn/c_proj/b (DT_FLOAT) [1600]
model/h14/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h14/ln_1/b (DT_FLOAT) [1600]
model/h14/ln_1/g (DT_FLOAT) [1600]
model/h14/ln_2/b (DT_FLOAT) [1600]
model/h14/ln_2/g (DT_FLOAT) [1600]
model/h14/mlp/c_fc/b (DT_FLOAT) [6400]
model/h14/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h14/mlp/c_proj/b (DT_FLOAT) [1600]
model/h14/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h15/attn/c_attn/b (DT_FLOAT) [4800]
model/h15/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h15/attn/c_proj/b (DT_FLOAT) [1600]
model/h15/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h15/ln_1/b (DT_FLOAT) [1600]
model/h15/ln_1/g (DT_FLOAT) [1600]
model/h15/ln_2/b (DT_FLOAT) [1600]
model/h15/ln_2/g (DT_FLOAT) [1600]
model/h15/mlp/c_fc/b (DT_FLOAT) [6400]
model/h15/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h15/mlp/c_proj/b (DT_FLOAT) [1600]
model/h15/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h16/attn/c_attn/b (DT_FLOAT) [4800]
model/h16/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h16/attn/c_proj/b (DT_FLOAT) [1600]
model/h16/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h16/ln_1/b (DT_FLOAT) [1600]
model/h16/ln_1/g (DT_FLOAT) [1600]
model/h16/ln_2/b (DT_FLOAT) [1600]
model/h16/ln_2/g (DT_FLOAT) [1600]
model/h16/mlp/c_fc/b (DT_FLOAT) [6400]
model/h16/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h16/mlp/c_proj/b (DT_FLOAT) [1600]
model/h16/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h17/attn/c_attn/b (DT_FLOAT) [4800]
model/h17/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h17/attn/c_proj/b (DT_FLOAT) [1600]
model/h17/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h17/ln_1/b (DT_FLOAT) [1600]
model/h17/ln_1/g (DT_FLOAT) [1600]
model/h17/ln_2/b (DT_FLOAT) [1600]
model/h17/ln_2/g (DT_FLOAT) [1600]
model/h17/mlp/c_fc/b (DT_FLOAT) [6400]
model/h17/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h17/mlp/c_proj/b (DT_FLOAT) [1600]
model/h17/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h18/attn/c_attn/b (DT_FLOAT) [4800]
model/h18/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h18/attn/c_proj/b (DT_FLOAT) [1600]
model/h18/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h18/ln_1/b (DT_FLOAT) [1600]
model/h18/ln_1/g (DT_FLOAT) [1600]
model/h18/ln_2/b (DT_FLOAT) [1600]
model/h18/ln_2/g (DT_FLOAT) [1600]
model/h18/mlp/c_fc/b (DT_FLOAT) [6400]
model/h18/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h18/mlp/c_proj/b (DT_FLOAT) [1600]
model/h18/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h19/attn/c_attn/b (DT_FLOAT) [4800]
model/h19/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h19/attn/c_proj/b (DT_FLOAT) [1600]
model/h19/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h19/ln_1/b (DT_FLOAT) [1600]
model/h19/ln_1/g (DT_FLOAT) [1600]
model/h19/ln_2/b (DT_FLOAT) [1600]
model/h19/ln_2/g (DT_FLOAT) [1600]
model/h19/mlp/c_fc/b (DT_FLOAT) [6400]
model/h19/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h19/mlp/c_proj/b (DT_FLOAT) [1600]
model/h19/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h2/attn/c_attn/b (DT_FLOAT) [4800]
model/h2/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h2/attn/c_proj/b (DT_FLOAT) [1600]
model/h2/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h2/ln_1/b (DT_FLOAT) [1600]
model/h2/ln_1/g (DT_FLOAT) [1600]
model/h2/ln_2/b (DT_FLOAT) [1600]
model/h2/ln_2/g (DT_FLOAT) [1600]
model/h2/mlp/c_fc/b (DT_FLOAT) [6400]
model/h2/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h2/mlp/c_proj/b (DT_FLOAT) [1600]
model/h2/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h20/attn/c_attn/b (DT_FLOAT) [4800]
model/h20/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h20/attn/c_proj/b (DT_FLOAT) [1600]
model/h20/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h20/ln_1/b (DT_FLOAT) [1600]
model/h20/ln_1/g (DT_FLOAT) [1600]
model/h20/ln_2/b (DT_FLOAT) [1600]
model/h20/ln_2/g (DT_FLOAT) [1600]
model/h20/mlp/c_fc/b (DT_FLOAT) [6400]
model/h20/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h20/mlp/c_proj/b (DT_FLOAT) [1600]
model/h20/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h21/attn/c_attn/b (DT_FLOAT) [4800]
model/h21/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h21/attn/c_proj/b (DT_FLOAT) [1600]
model/h21/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h21/ln_1/b (DT_FLOAT) [1600]
model/h21/ln_1/g (DT_FLOAT) [1600]
model/h21/ln_2/b (DT_FLOAT) [1600]
model/h21/ln_2/g (DT_FLOAT) [1600]
model/h21/mlp/c_fc/b (DT_FLOAT) [6400]
model/h21/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h21/mlp/c_proj/b (DT_FLOAT) [1600]
model/h21/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h22/attn/c_attn/b (DT_FLOAT) [4800]
model/h22/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h22/attn/c_proj/b (DT_FLOAT) [1600]
model/h22/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h22/ln_1/b (DT_FLOAT) [1600]
model/h22/ln_1/g (DT_FLOAT) [1600]
model/h22/ln_2/b (DT_FLOAT) [1600]
model/h22/ln_2/g (DT_FLOAT) [1600]
model/h22/mlp/c_fc/b (DT_FLOAT) [6400]
model/h22/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h22/mlp/c_proj/b (DT_FLOAT) [1600]
model/h22/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h23/attn/c_attn/b (DT_FLOAT) [4800]
model/h23/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h23/attn/c_proj/b (DT_FLOAT) [1600]
model/h23/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h23/ln_1/b (DT_FLOAT) [1600]
model/h23/ln_1/g (DT_FLOAT) [1600]
model/h23/ln_2/b (DT_FLOAT) [1600]
model/h23/ln_2/g (DT_FLOAT) [1600]
model/h23/mlp/c_fc/b (DT_FLOAT) [6400]
model/h23/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h23/mlp/c_proj/b (DT_FLOAT) [1600]
model/h23/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h24/attn/c_attn/b (DT_FLOAT) [4800]
model/h24/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h24/attn/c_proj/b (DT_FLOAT) [1600]
model/h24/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h24/ln_1/b (DT_FLOAT) [1600]
model/h24/ln_1/g (DT_FLOAT) [1600]
model/h24/ln_2/b (DT_FLOAT) [1600]
model/h24/ln_2/g (DT_FLOAT) [1600]
model/h24/mlp/c_fc/b (DT_FLOAT) [6400]
model/h24/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h24/mlp/c_proj/b (DT_FLOAT) [1600]
model/h24/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h25/attn/c_attn/b (DT_FLOAT) [4800]
model/h25/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h25/attn/c_proj/b (DT_FLOAT) [1600]
model/h25/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h25/ln_1/b (DT_FLOAT) [1600]
model/h25/ln_1/g (DT_FLOAT) [1600]
model/h25/ln_2/b (DT_FLOAT) [1600]
model/h25/ln_2/g (DT_FLOAT) [1600]
model/h25/mlp/c_fc/b (DT_FLOAT) [6400]
model/h25/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h25/mlp/c_proj/b (DT_FLOAT) [1600]
model/h25/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h26/attn/c_attn/b (DT_FLOAT) [4800]
model/h26/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h26/attn/c_proj/b (DT_FLOAT) [1600]
model/h26/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h26/ln_1/b (DT_FLOAT) [1600]
model/h26/ln_1/g (DT_FLOAT) [1600]
model/h26/ln_2/b (DT_FLOAT) [1600]
model/h26/ln_2/g (DT_FLOAT) [1600]
model/h26/mlp/c_fc/b (DT_FLOAT) [6400]
model/h26/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h26/mlp/c_proj/b (DT_FLOAT) [1600]
model/h26/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h27/attn/c_attn/b (DT_FLOAT) [4800]
model/h27/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h27/attn/c_proj/b (DT_FLOAT) [1600]
model/h27/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h27/ln_1/b (DT_FLOAT) [1600]
model/h27/ln_1/g (DT_FLOAT) [1600]
model/h27/ln_2/b (DT_FLOAT) [1600]
model/h27/ln_2/g (DT_FLOAT) [1600]
model/h27/mlp/c_fc/b (DT_FLOAT) [6400]
model/h27/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h27/mlp/c_proj/b (DT_FLOAT) [1600]
model/h27/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h28/attn/c_attn/b (DT_FLOAT) [4800]
model/h28/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h28/attn/c_proj/b (DT_FLOAT) [1600]
model/h28/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h28/ln_1/b (DT_FLOAT) [1600]
model/h28/ln_1/g (DT_FLOAT) [1600]
model/h28/ln_2/b (DT_FLOAT) [1600]
model/h28/ln_2/g (DT_FLOAT) [1600]
model/h28/mlp/c_fc/b (DT_FLOAT) [6400]
model/h28/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h28/mlp/c_proj/b (DT_FLOAT) [1600]
model/h28/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h29/attn/c_attn/b (DT_FLOAT) [4800]
model/h29/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h29/attn/c_proj/b (DT_FLOAT) [1600]
model/h29/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h29/ln_1/b (DT_FLOAT) [1600]
model/h29/ln_1/g (DT_FLOAT) [1600]
model/h29/ln_2/b (DT_FLOAT) [1600]
model/h29/ln_2/g (DT_FLOAT) [1600]
model/h29/mlp/c_fc/b (DT_FLOAT) [6400]
model/h29/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h29/mlp/c_proj/b (DT_FLOAT) [1600]
model/h29/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h3/attn/c_attn/b (DT_FLOAT) [4800]
model/h3/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h3/attn/c_proj/b (DT_FLOAT) [1600]
model/h3/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h3/ln_1/b (DT_FLOAT) [1600]
model/h3/ln_1/g (DT_FLOAT) [1600]
model/h3/ln_2/b (DT_FLOAT) [1600]
model/h3/ln_2/g (DT_FLOAT) [1600]
model/h3/mlp/c_fc/b (DT_FLOAT) [6400]
model/h3/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h3/mlp/c_proj/b (DT_FLOAT) [1600]
model/h3/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h30/attn/c_attn/b (DT_FLOAT) [4800]
model/h30/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h30/attn/c_proj/b (DT_FLOAT) [1600]
model/h30/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h30/ln_1/b (DT_FLOAT) [1600]
model/h30/ln_1/g (DT_FLOAT) [1600]
model/h30/ln_2/b (DT_FLOAT) [1600]
model/h30/ln_2/g (DT_FLOAT) [1600]
model/h30/mlp/c_fc/b (DT_FLOAT) [6400]
model/h30/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h30/mlp/c_proj/b (DT_FLOAT) [1600]
model/h30/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h31/attn/c_attn/b (DT_FLOAT) [4800]
model/h31/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h31/attn/c_proj/b (DT_FLOAT) [1600]
model/h31/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h31/ln_1/b (DT_FLOAT) [1600]
model/h31/ln_1/g (DT_FLOAT) [1600]
model/h31/ln_2/b (DT_FLOAT) [1600]
model/h31/ln_2/g (DT_FLOAT) [1600]
model/h31/mlp/c_fc/b (DT_FLOAT) [6400]
model/h31/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h31/mlp/c_proj/b (DT_FLOAT) [1600]
model/h31/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h32/attn/c_attn/b (DT_FLOAT) [4800]
model/h32/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h32/attn/c_proj/b (DT_FLOAT) [1600]
model/h32/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h32/ln_1/b (DT_FLOAT) [1600]
model/h32/ln_1/g (DT_FLOAT) [1600]
model/h32/ln_2/b (DT_FLOAT) [1600]
model/h32/ln_2/g (DT_FLOAT) [1600]
model/h32/mlp/c_fc/b (DT_FLOAT) [6400]
model/h32/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h32/mlp/c_proj/b (DT_FLOAT) [1600]
model/h32/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h33/attn/c_attn/b (DT_FLOAT) [4800]
model/h33/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h33/attn/c_proj/b (DT_FLOAT) [1600]
model/h33/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h33/ln_1/b (DT_FLOAT) [1600]
model/h33/ln_1/g (DT_FLOAT) [1600]
model/h33/ln_2/b (DT_FLOAT) [1600]
model/h33/ln_2/g (DT_FLOAT) [1600]
model/h33/mlp/c_fc/b (DT_FLOAT) [6400]
model/h33/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h33/mlp/c_proj/b (DT_FLOAT) [1600]
model/h33/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h34/attn/c_attn/b (DT_FLOAT) [4800]
model/h34/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h34/attn/c_proj/b (DT_FLOAT) [1600]
model/h34/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h34/ln_1/b (DT_FLOAT) [1600]
model/h34/ln_1/g (DT_FLOAT) [1600]
model/h34/ln_2/b (DT_FLOAT) [1600]
model/h34/ln_2/g (DT_FLOAT) [1600]
model/h34/mlp/c_fc/b (DT_FLOAT) [6400]
model/h34/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h34/mlp/c_proj/b (DT_FLOAT) [1600]
model/h34/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h35/attn/c_attn/b (DT_FLOAT) [4800]
model/h35/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h35/attn/c_proj/b (DT_FLOAT) [1600]
model/h35/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h35/ln_1/b (DT_FLOAT) [1600]
model/h35/ln_1/g (DT_FLOAT) [1600]
model/h35/ln_2/b (DT_FLOAT) [1600]
model/h35/ln_2/g (DT_FLOAT) [1600]
model/h35/mlp/c_fc/b (DT_FLOAT) [6400]
model/h35/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h35/mlp/c_proj/b (DT_FLOAT) [1600]
model/h35/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h36/attn/c_attn/b (DT_FLOAT) [4800]
model/h36/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h36/attn/c_proj/b (DT_FLOAT) [1600]
model/h36/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h36/ln_1/b (DT_FLOAT) [1600]
model/h36/ln_1/g (DT_FLOAT) [1600]
model/h36/ln_2/b (DT_FLOAT) [1600]
model/h36/ln_2/g (DT_FLOAT) [1600]
model/h36/mlp/c_fc/b (DT_FLOAT) [6400]
model/h36/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h36/mlp/c_proj/b (DT_FLOAT) [1600]
model/h36/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h37/attn/c_attn/b (DT_FLOAT) [4800]
model/h37/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h37/attn/c_proj/b (DT_FLOAT) [1600]
model/h37/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h37/ln_1/b (DT_FLOAT) [1600]
model/h37/ln_1/g (DT_FLOAT) [1600]
model/h37/ln_2/b (DT_FLOAT) [1600]
model/h37/ln_2/g (DT_FLOAT) [1600]
model/h37/mlp/c_fc/b (DT_FLOAT) [6400]
model/h37/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h37/mlp/c_proj/b (DT_FLOAT) [1600]
model/h37/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h38/attn/c_attn/b (DT_FLOAT) [4800]
model/h38/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h38/attn/c_proj/b (DT_FLOAT) [1600]
model/h38/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h38/ln_1/b (DT_FLOAT) [1600]
model/h38/ln_1/g (DT_FLOAT) [1600]
model/h38/ln_2/b (DT_FLOAT) [1600]
model/h38/ln_2/g (DT_FLOAT) [1600]
model/h38/mlp/c_fc/b (DT_FLOAT) [6400]
model/h38/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h38/mlp/c_proj/b (DT_FLOAT) [1600]
model/h38/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h39/attn/c_attn/b (DT_FLOAT) [4800]
model/h39/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h39/attn/c_proj/b (DT_FLOAT) [1600]
model/h39/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h39/ln_1/b (DT_FLOAT) [1600]
model/h39/ln_1/g (DT_FLOAT) [1600]
model/h39/ln_2/b (DT_FLOAT) [1600]
model/h39/ln_2/g (DT_FLOAT) [1600]
model/h39/mlp/c_fc/b (DT_FLOAT) [6400]
model/h39/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h39/mlp/c_proj/b (DT_FLOAT) [1600]
model/h39/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h4/attn/c_attn/b (DT_FLOAT) [4800]
model/h4/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h4/attn/c_proj/b (DT_FLOAT) [1600]
model/h4/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h4/ln_1/b (DT_FLOAT) [1600]
model/h4/ln_1/g (DT_FLOAT) [1600]
model/h4/ln_2/b (DT_FLOAT) [1600]
model/h4/ln_2/g (DT_FLOAT) [1600]
model/h4/mlp/c_fc/b (DT_FLOAT) [6400]
model/h4/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h4/mlp/c_proj/b (DT_FLOAT) [1600]
model/h4/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h40/attn/c_attn/b (DT_FLOAT) [4800]
model/h40/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h40/attn/c_proj/b (DT_FLOAT) [1600]
model/h40/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h40/ln_1/b (DT_FLOAT) [1600]
model/h40/ln_1/g (DT_FLOAT) [1600]
model/h40/ln_2/b (DT_FLOAT) [1600]
model/h40/ln_2/g (DT_FLOAT) [1600]
model/h40/mlp/c_fc/b (DT_FLOAT) [6400]
model/h40/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h40/mlp/c_proj/b (DT_FLOAT) [1600]
model/h40/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h41/attn/c_attn/b (DT_FLOAT) [4800]
model/h41/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h41/attn/c_proj/b (DT_FLOAT) [1600]
model/h41/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h41/ln_1/b (DT_FLOAT) [1600]
model/h41/ln_1/g (DT_FLOAT) [1600]
model/h41/ln_2/b (DT_FLOAT) [1600]
model/h41/ln_2/g (DT_FLOAT) [1600]
model/h41/mlp/c_fc/b (DT_FLOAT) [6400]
model/h41/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h41/mlp/c_proj/b (DT_FLOAT) [1600]
model/h41/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h42/attn/c_attn/b (DT_FLOAT) [4800]
model/h42/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h42/attn/c_proj/b (DT_FLOAT) [1600]
model/h42/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h42/ln_1/b (DT_FLOAT) [1600]
model/h42/ln_1/g (DT_FLOAT) [1600]
model/h42/ln_2/b (DT_FLOAT) [1600]
model/h42/ln_2/g (DT_FLOAT) [1600]
model/h42/mlp/c_fc/b (DT_FLOAT) [6400]
model/h42/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h42/mlp/c_proj/b (DT_FLOAT) [1600]
model/h42/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h43/attn/c_attn/b (DT_FLOAT) [4800]
model/h43/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h43/attn/c_proj/b (DT_FLOAT) [1600]
model/h43/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h43/ln_1/b (DT_FLOAT) [1600]
model/h43/ln_1/g (DT_FLOAT) [1600]
model/h43/ln_2/b (DT_FLOAT) [1600]
model/h43/ln_2/g (DT_FLOAT) [1600]
model/h43/mlp/c_fc/b (DT_FLOAT) [6400]
model/h43/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h43/mlp/c_proj/b (DT_FLOAT) [1600]
model/h43/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h44/attn/c_attn/b (DT_FLOAT) [4800]
model/h44/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h44/attn/c_proj/b (DT_FLOAT) [1600]
model/h44/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h44/ln_1/b (DT_FLOAT) [1600]
model/h44/ln_1/g (DT_FLOAT) [1600]
model/h44/ln_2/b (DT_FLOAT) [1600]
model/h44/ln_2/g (DT_FLOAT) [1600]
model/h44/mlp/c_fc/b (DT_FLOAT) [6400]
model/h44/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h44/mlp/c_proj/b (DT_FLOAT) [1600]
model/h44/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h45/attn/c_attn/b (DT_FLOAT) [4800]
model/h45/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h45/attn/c_proj/b (DT_FLOAT) [1600]
model/h45/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h45/ln_1/b (DT_FLOAT) [1600]
model/h45/ln_1/g (DT_FLOAT) [1600]
model/h45/ln_2/b (DT_FLOAT) [1600]
model/h45/ln_2/g (DT_FLOAT) [1600]
model/h45/mlp/c_fc/b (DT_FLOAT) [6400]
model/h45/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h45/mlp/c_proj/b (DT_FLOAT) [1600]
model/h45/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h46/attn/c_attn/b (DT_FLOAT) [4800]
model/h46/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h46/attn/c_proj/b (DT_FLOAT) [1600]
model/h46/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h46/ln_1/b (DT_FLOAT) [1600]
model/h46/ln_1/g (DT_FLOAT) [1600]
model/h46/ln_2/b (DT_FLOAT) [1600]
model/h46/ln_2/g (DT_FLOAT) [1600]
model/h46/mlp/c_fc/b (DT_FLOAT) [6400]
model/h46/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h46/mlp/c_proj/b (DT_FLOAT) [1600]
model/h46/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h47/attn/c_attn/b (DT_FLOAT) [4800]
model/h47/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h47/attn/c_proj/b (DT_FLOAT) [1600]
model/h47/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h47/ln_1/b (DT_FLOAT) [1600]
model/h47/ln_1/g (DT_FLOAT) [1600]
model/h47/ln_2/b (DT_FLOAT) [1600]
model/h47/ln_2/g (DT_FLOAT) [1600]
model/h47/mlp/c_fc/b (DT_FLOAT) [6400]
model/h47/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h47/mlp/c_proj/b (DT_FLOAT) [1600]
model/h47/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h5/attn/c_attn/b (DT_FLOAT) [4800]
model/h5/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h5/attn/c_proj/b (DT_FLOAT) [1600]
model/h5/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h5/ln_1/b (DT_FLOAT) [1600]
model/h5/ln_1/g (DT_FLOAT) [1600]
model/h5/ln_2/b (DT_FLOAT) [1600]
model/h5/ln_2/g (DT_FLOAT) [1600]
model/h5/mlp/c_fc/b (DT_FLOAT) [6400]
model/h5/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h5/mlp/c_proj/b (DT_FLOAT) [1600]
model/h5/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h6/attn/c_attn/b (DT_FLOAT) [4800]
model/h6/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h6/attn/c_proj/b (DT_FLOAT) [1600]
model/h6/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h6/ln_1/b (DT_FLOAT) [1600]
model/h6/ln_1/g (DT_FLOAT) [1600]
model/h6/ln_2/b (DT_FLOAT) [1600]
model/h6/ln_2/g (DT_FLOAT) [1600]
model/h6/mlp/c_fc/b (DT_FLOAT) [6400]
model/h6/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h6/mlp/c_proj/b (DT_FLOAT) [1600]
model/h6/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h7/attn/c_attn/b (DT_FLOAT) [4800]
model/h7/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h7/attn/c_proj/b (DT_FLOAT) [1600]
model/h7/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h7/ln_1/b (DT_FLOAT) [1600]
model/h7/ln_1/g (DT_FLOAT) [1600]
model/h7/ln_2/b (DT_FLOAT) [1600]
model/h7/ln_2/g (DT_FLOAT) [1600]
model/h7/mlp/c_fc/b (DT_FLOAT) [6400]
model/h7/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h7/mlp/c_proj/b (DT_FLOAT) [1600]
model/h7/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h8/attn/c_attn/b (DT_FLOAT) [4800]
model/h8/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h8/attn/c_proj/b (DT_FLOAT) [1600]
model/h8/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h8/ln_1/b (DT_FLOAT) [1600]
model/h8/ln_1/g (DT_FLOAT) [1600]
model/h8/ln_2/b (DT_FLOAT) [1600]
model/h8/ln_2/g (DT_FLOAT) [1600]
model/h8/mlp/c_fc/b (DT_FLOAT) [6400]
model/h8/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h8/mlp/c_proj/b (DT_FLOAT) [1600]
model/h8/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/h9/attn/c_attn/b (DT_FLOAT) [4800]
model/h9/attn/c_attn/w (DT_FLOAT) [1,1600,4800]
model/h9/attn/c_proj/b (DT_FLOAT) [1600]
model/h9/attn/c_proj/w (DT_FLOAT) [1,1600,1600]
model/h9/ln_1/b (DT_FLOAT) [1600]
model/h9/ln_1/g (DT_FLOAT) [1600]
model/h9/ln_2/b (DT_FLOAT) [1600]
model/h9/ln_2/g (DT_FLOAT) [1600]
model/h9/mlp/c_fc/b (DT_FLOAT) [6400]
model/h9/mlp/c_fc/w (DT_FLOAT) [1,1600,6400]
model/h9/mlp/c_proj/b (DT_FLOAT) [1600]
model/h9/mlp/c_proj/w (DT_FLOAT) [1,6400,1600]
model/ln_f/b (DT_FLOAT) [1600]
model/ln_f/g (DT_FLOAT) [1600]
model/wpe (DT_FLOAT) [1024,1600]
model/wte (DT_FLOAT) [50257,1600]
# Total number of params: 1557611200
(tensorflow_macos_venv)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment