split_audio プログラム仕様

概要: Whisperとpydubを使用して、オーディオファイルを文節単位で指定された最大サイズに分割するスクリプトです。

詳細説明: このスクリプトは、入力されたオーディオファイルをWhisperモデルで文字起こしし、得られた文節(セグメント)情報に基づいて音声を分割します。 各分割チャンクが指定された最大サイズ(MB)を超えないように、文節の区切りを考慮してファイルを生成します。 コマンドライン引数を使用することで、入力ファイル、出力ディレクトリ、Whisperモデルサイズ、各チャンクの最大サイズ、 出力フォーマット、ビットレート、Whisperの言語設定をカスタマイズできます。

関連リンク: split_audio.py 技術ドキュメント

multimedia.split_audio.check_dependencies()[ソース]

必要なライブラリがインストールされているか確認する。

multimedia.split_audio.get_estimated_size_bytes(segment, bitrate)[ソース]

オーディオセグメントの推定ファイルサイズ(バイト単位)を計算します。

パラメータ:
  • segment -- AudioSegment: 対象のセグメント。

  • bitrate -- str: ビットレート(例: '128k')。

戻り値:

int: 推定バイト数。

multimedia.split_audio.main()[ソース]

コマンドライン実行時のエントリポイント。

multimedia.split_audio.run_split(input_file, output_dir, model_size, max_size_mb, output_format, bitrate, language)[ソース]

メインの分割処理を実行する関数。