ONNXファイルを自分で作るには
このページでは、自前で学習したTransformer音素遷移予測ネットワークをONNXファイルとして書き出すときのインタフェースを記述します。
ONNXバージョン情報
ONNXは1.16.3 を使っています
入力
入力は2次元行列のモノラル音声信号です。変数名は input_waveform、行列のshapeは (1 x sample_length) で、sample_length は可変長にしています。
出力
出力は音素遷移トークンの対数出力確率と、blankトークンの対数出力確率の2つです。
音素遷移トークンの対数出力確率
3次元行列です。変数名は transition_logprobs、行列のshapeは (1 x seq_length x num_token_vocab) で、seq_length は可変長にしています。
seq_length は時間フレームの総数で、sample_length から決まります。 num_token_vocab は予測対象の音素遷移トークンの種類数です。種類とその順番は src/phoneme_transitions.txt で指定します。
blankトークンの対数出力確率
2次元行列です。変数名は blank_logprobs、行列のshapeは (1 x seq_length) で、seq_length は可変長にしています。
seq_length は時間フレームの総数で、音素遷移トークンの対数出力確率と同じ値です。