いずれかの方法でダウンロードできます
以下のプログラムでは、python + OpenAI Whisperを使って文字起こしをしています。
他のオンライン文字起こしサービス (
OpenAI Whisper、
Google Speech-to-Text
) などを利用することもできます
文字起こししたデータには誤字・誤変換が含まれるので、生成AIに専門家roleを当てて修正します (OpenAIやGoogleのAPI Keyが必要です)
Local版Whisperの実行速度は、NVIDIA製GPUの有無によって大きくっ変わります。
local版whisperのインストール方法
2025/7/14現在、python 3.10以前が必要です。
> python3.10 -m venv whisper-env
> whisper-env\Scripts\activate
> pip install --upgrade pip
> pip install git+https://github.com/openai/whisper.git
# CUDA対応GPUがある場合
> pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
URL: https://pandoc.org/
Install: https://pandoc.org/installing.html
pandocは、Windows / macOS / Linux / Chrome OS / BSD Unix で動作し、さまざまなフォーマットのファイルを相互変換するコマンドラインプログラム (CLI: Command Line Interface) です。
今回は、Markdown ファイルを MS-Word、MS-PowerPointファイルに変換する際、Markdown 中の数式 (LaTeX) を数式エディタに変換してくれることから、変換プログラムとして選択しました。
pandocは、Markdown中に 前後行に空行が無い ---
に囲まれたブロックを見つけると、
YAMLとして解釈しようとします。この際、---
に囲まれたブロックがYAML文法に沿っていないと、
エラーで変換が停止します。
YAMLの解釈を防止するには、pandoc 実行時に
-f markdown-yaml_metadata_block
オプションを追加してください。make_textbook5.pyには、このオプション
--no-yamlがあります。
また、スライドを作成するプロンプトでは、「スライドの区切りとして
空行+ `---`+空行 を使用する」と
することでこの問題を回避しています
(回避しきれていない場合のみ、--no-yamlオプションを使ってください)。
pandocを使う以外にもMarkdownのViewerやMS-Wordファイルに変換する方法はあり
しかし、数式を正常に変換してくれるのは、検証した範囲ではpandocだけでした。
Markdownフォーマットは、文書の章タイトル、箇条書き、リンク、画像ファイル挿入、数式表示などを
簡単なテキストファイルで実現するもので、現在のインターネット、プログラミング関連では
標準的なフォーマットになっています。