zilunpeng/prepare_quantized_wav2vec2_for_inf.py

## prepare_quantized_wav2vec2_for_inf.py
def prepare_for_inference_after_quantization(self):
    dequantizer = torch.nn.quantized.DeQuantize()
    for trans_layer in self.encoder.layers:
        trans_layer.self_attn.q_proj_bias = trans_layer.self_attn.q_proj.bias()
        trans_layer.self_attn.k_proj_bias = trans_layer.self_attn.k_proj.bias()
        trans_layer.self_attn.v_proj_bias = trans_layer.self_attn.v_proj.bias()
        trans_layer.self_attn.in_proj_bias = torch.cat((trans_layer.self_attn.q_proj_bias, trans_layer.self_attn.k_proj_bias, trans_layer.self_attn.v_proj_bias))
        trans_layer.self_attn.out_proj_bias = trans_layer.self_attn.out_proj.bias()
        trans_layer.self_attn.out_proj_weight = dequantizer(trans_layer.self_attn.out_proj.weight())
        trans_layer.self_attn.q_proj_weight = dequantizer(trans_layer.self_attn.q_proj.weight())
        trans_layer.self_attn.k_proj_weight = dequantizer(trans_layer.self_attn.k_proj.weight())
        trans_layer.self_attn.v_proj_weight = dequantizer(trans_layer.self_attn.v_proj.weight())
    return
	def prepare_for_inference_after_quantization(self):
	dequantizer = torch.nn.quantized.DeQuantize()
	for trans_layer in self.encoder.layers:
	trans_layer.self_attn.q_proj_bias = trans_layer.self_attn.q_proj.bias()
	trans_layer.self_attn.k_proj_bias = trans_layer.self_attn.k_proj.bias()
	trans_layer.self_attn.v_proj_bias = trans_layer.self_attn.v_proj.bias()
	trans_layer.self_attn.in_proj_bias = torch.cat((trans_layer.self_attn.q_proj_bias, trans_layer.self_attn.k_proj_bias, trans_layer.self_attn.v_proj_bias))
	trans_layer.self_attn.out_proj_bias = trans_layer.self_attn.out_proj.bias()
	trans_layer.self_attn.out_proj_weight = dequantizer(trans_layer.self_attn.out_proj.weight())
	trans_layer.self_attn.q_proj_weight = dequantizer(trans_layer.self_attn.q_proj.weight())
	trans_layer.self_attn.k_proj_weight = dequantizer(trans_layer.self_attn.k_proj.weight())
	trans_layer.self_attn.v_proj_weight = dequantizer(trans_layer.self_attn.v_proj.weight())
	return