transcribe_simple プログラム仕様

Whisperモデルを使用して音声ファイルを文字起こしするスクリプト。

コマンドライン引数で入力ファイル、出力ファイル、モデル名、言語などを指定し、 GPUの利用状況を確認しながら文字起こしを実行します。結果は時間情報付きのテキストファイルと純粋なテキストファイルとして保存されます。

ai.transcribe_simple.check_gpu()[ソース]

GPUの利用可能性を確認し、その情報を表示する。

PyTorchの torch.cuda.is_available() を使用してGPUが利用可能かチェックします。利用可能な場合は、GPUの名前とCUDAのバージョンを表示します。利用できない場合はその旨を通知します。

ai.transcribe_simple.main()[ソース]

スクリプトのメイン処理を実行する。

コマンドライン引数を解析し、指定された入力音声ファイル（ワイルドカードを含む）に対して文字起こし処理を順次実行します。出力ファイル名が指定されていない場合は、入力ファイル名に基づいて自動生成されます。処理開始前にGPUの利用状況を確認します。

ai.transcribe_simple.terminate()[ソース]

スクリプトを終了する。

pause グローバル変数が真の場合、ユーザーにEnterキーの入力を要求してからスクリプトを終了します。

ai.transcribe_simple.transcribe_audio(infile, outfile1, outfile2, model_name, lang, device_name='')[ソース]

指定された音声ファイルをWhisperモデルで文字起こしし、結果をファイルに保存する。

Whisperモデルをロードし、入力音声ファイルに対して文字起こしを実行します。文字起こしの結果は、時間セグメント情報を含む形式と、純粋なテキスト形式の 2つのファイルに保存され、コンソールにも出力されます。

パラメータ:

infile -- (str) 文字起こしする音声ファイルのパス。
outfile1 -- (str) 時間範囲情報を含む文字起こし結果を保存する出力ファイルのパス。
outfile2 -- (str) 純粋な文字起こしテキストを保存する出力ファイルのパス。
model_name -- (str) 使用するWhisperモデルの名前（例: 'base', 'small', 'medium', 'large'）。
lang -- (str) 音声の言語コード（例: 'JA'、'EN'）。
device_name -- (str, optional) 使用するGPU/CPUデバイス名。空文字の場合は自動選択（通常はGPU）。