ai_ocr2md プログラム仕様

AI OCR to Markdown ツール

このスクリプトは、画像ファイルまたはクリップボードから画像をAI-OCRで処理し、結果をMarkdown形式で出力します。 対応するAIは現在Geminiのみです。

ai_ocr2md.py 技術ドキュメント

ai.ai_ocr2md.call_ai_ocr(prompt, image_path, api='gemini', model=None)[ソース]

指定された画像とプロンプトを使用してAI OCRを実行し、結果のテキストを返します。

現在はGemini APIのみをサポートしています。APIキーとモデル名は環境変数または引数から取得されます。

パラメータ:
  • prompt -- str: AIに与えるプロンプトテキスト。

  • image_path -- str: OCR対象の画像ファイルパス。

  • api -- str: 使用するAI API ("gemini" のみサポート)。

  • model -- str, optional: 使用するAIモデル名。指定しない場合は環境変数 'gemini_model' またはデフォルトの 'gemini-3.1-pro' が使用されます。

戻り値:

str: AI OCRの結果として得られたテキスト。

例外:

Exception -- AIの呼び出し中にエラーが発生した場合、特にモデルが見つからない場合。

ai.ai_ocr2md.get_image_from_clipboard()[ソース]

Windows 11のクリップボードから画像を安定して取得し、一時ファイルとして保存します。

ImageGrab.grabclipboard() を使用してクリップボードの内容を確認します。 画像データが見つかった場合、clipboard_ocr_input.png という名前で保存し、そのパスを返します。

戻り値:

str: 保存された画像ファイルのパス、または画像が見つからないかエラーが発生した場合はNone。

ai.ai_ocr2md.main()[ソース]

スクリプトのメインエントリポイント。AI OCRの実行フローを管理します。

  1. AI設定ファイル (ai.env) を読み込みます。

  2. コマンドライン引数をパースし、入力画像パス(ファイルまたはクリップボード)、出力ファイル名、 プロンプト設定ファイル、AI API、AIモデルを決定します。

  3. プロンプト設定ファイル (ai_ocr2md.ini) からプロンプトを読み込みます。

  4. 入力画像パスが 'clip' の場合はクリップボードから画像を読み込み、それ以外の場合は指定されたファイルパスを使用します。

  5. call_ai_ocr 関数を呼び出してAI OCRを実行します。

  6. AI OCRの結果をMarkdownファイルとして保存します。

戻り値:

None