ftnext/asr_espnet.py

## asr_espnet.py
import argparse

import soundfile
from espnet2.bin.asr_inference import Speech2Text

parser = argparse.ArgumentParser()
parser.add_argument("audio_file_path")  # sayコマンドなどで準備する
args = parser.parse_args()

speech2text = Speech2Text.from_pretrained("kan-bayashi/csj_asr_train_asr_transformer_raw_char_sp_valid.acc.ave")

speech_array, sampling_rate = soundfile.read(args.audio_file_path)

nbests = speech2text(speech_array)
text, tokens, *_ = nbests[0]
print(text)
	import argparse

	import soundfile
	from espnet2.bin.asr_inference import Speech2Text

	parser = argparse.ArgumentParser()
	parser.add_argument("audio_file_path") # sayコマンドなどで準備する
	args = parser.parse_args()

	speech2text = Speech2Text.from_pretrained("kan-bayashi/csj_asr_train_asr_transformer_raw_char_sp_valid.acc.ave")

	speech_array, sampling_rate = soundfile.read(args.audio_file_path)

	nbests = speech2text(speech_array)
	text, tokens, *_ = nbests[0]
	print(text)