ai_ocr2md プログラム仕様

AI OCR to Markdown ツール

このスクリプトは、画像ファイルまたはクリップボードから画像をAI-OCRで処理し、結果をMarkdown形式で出力します。対応するAIは現在Geminiのみです。

ai.ai_ocr2md.call_ai_ocr(prompt, image_path, api='gemini', model=None)

指定された画像とプロンプトを使用してAI OCRを実行し、結果のテキストを返します。

現在はGemini APIのみをサポートしています。APIキーとモデル名は環境変数または引数から取得されます。

パラメータ:

prompt -- str: AIに与えるプロンプトテキスト。
image_path -- str: OCR対象の画像ファイルパス。
api -- str: 使用するAI API ("gemini" のみサポート)。
model -- str, optional: 使用するAIモデル名。指定しない場合は環境変数 'gemini_model' またはデフォルトの 'gemini-3.1-pro' が使用されます。

戻り値:

str: AI OCRの結果として得られたテキスト。

例外:

Exception -- AIの呼び出し中にエラーが発生した場合、特にモデルが見つからない場合。

ai.ai_ocr2md.get_image_from_clipboard()

Windows 11のクリップボードから画像を安定して取得し、一時ファイルとして保存します。

ImageGrab.grabclipboard() を使用してクリップボードの内容を確認します。画像データが見つかった場合、clipboard_ocr_input.png という名前で保存し、そのパスを返します。

ai.ai_ocr2md.main()

スクリプトのメインエントリポイント。AI OCRの実行フローを管理します。