pydomino.Aliger クラス

class pydomino.Aligner

アラインメントクラス

パラメータ:

onnx_path (str) -- onnxモデルのファイルパス

align(wav_source: ndarray, phonemes: str, N: int)

入力された16kHzモノラル音声信号をアラインメントする

パラメータ:
  • wav_source (numpy.ndarray) -- 16kHz モノラル音声信号

  • phonemes (str) -- 半角スペース区切りの音素列

  • N (int) -- pauを含めたすべての音素に割り当てられる最低時間フレーム。 1フレーム10ミリ秒なので、N=3ですべての音素が30ミリ秒以上割り当てられる

戻り値:

アラインメント結果

戻り値の型:

list[tuple[float, float, str]]