pydomino module

class pydomino.Aligner(onnxfile: str)

ベースクラス: object

align(waveform_mono_16kHz: ndarray, phonemes: str, min_aligned_timeframe: int) list[tuple[float, float, str]]

音素遷移予測に基づく日本語音素アラインメントを実行する関数

パラメータ:
  • waveform_mono_16kHz (np.ndarray) -- 16kHzのモノラル音声信号。サンプリング値は (-1, 1) に正規化された32bit浮動小数点

  • phonemes (str) -- 半角スペース区切りの音素列

  • min_aligned_timeframe (int) -- 両端にある pau 音素以外のすべての音素に割り当てられる最低時間フレーム。1フレーム10ミリ秒なので、min_aligned_timeframe=3ですべての音素が30ミリ秒以上割り当てられる

戻り値:

アラインメント結果。(開始秒数, 終了秒数, 音素) のタプル列

戻り値の型:

list[tuple[float, float, str]]

release()

内部で読み込んだ ONNX ファイルのメモリを開放する関数。デストラクタでこの関数を呼び出す。