gmihaila/bert_inner_workings_imports.py

## bert_inner_workings_imports.py
class BertOutput(torch.nn.Module):
    def __init__(self, config):
        super().__init__()
        self.dense = torch.nn.Linear(config.intermediate_size, config.hidden_size)
        self.LayerNorm = BertLayerNorm(config.hidden_size, eps=config.layer_norm_eps)
        self.dropout = torch.nn.Dropout(config.hidden_dropout_prob)

    def forward(self, hidden_states, input_tensor):
        print('\nHidden States:\n', hidden_states.shape)

        hidden_states = self.dense(hidden_states)
        print('\nHidden States Linear Layer:\n', hidden_states.shape)

        hidden_states = self.dropout(hidden_states)
        print('\nHidden States Dropout Layer:\n', hidden_states.shape)

        hidden_states = self.LayerNorm(hidden_states + input_tensor)
        print('\nHidden States Layer Normalization:\n', hidden_states.shape)

        return hidden_states


# Create bert output layer.
bert_output_block = BertOutput(bert_configuraiton)

# Perform forward pass - attention_output[0] dealing with tuple.
layer_output = bert_output_block.forward(hidden_states=intermediate_output, input_tensor=attention_output[0])
	class BertOutput(torch.nn.Module):
	def __init__(self, config):
	super().__init__()
	self.dense = torch.nn.Linear(config.intermediate_size, config.hidden_size)
	self.LayerNorm = BertLayerNorm(config.hidden_size, eps=config.layer_norm_eps)
	self.dropout = torch.nn.Dropout(config.hidden_dropout_prob)

	def forward(self, hidden_states, input_tensor):
	print('\nHidden States:\n', hidden_states.shape)

	hidden_states = self.dense(hidden_states)
	print('\nHidden States Linear Layer:\n', hidden_states.shape)

	hidden_states = self.dropout(hidden_states)
	print('\nHidden States Dropout Layer:\n', hidden_states.shape)

	hidden_states = self.LayerNorm(hidden_states + input_tensor)
	print('\nHidden States Layer Normalization:\n', hidden_states.shape)

	return hidden_states


	# Create bert output layer.
	bert_output_block = BertOutput(bert_configuraiton)

	# Perform forward pass - attention_output[0] dealing with tuple.
	layer_output = bert_output_block.forward(hidden_states=intermediate_output, input_tensor=attention_output[0])