ai_ocr2md プログラム仕様
AI OCR to Markdown ツール
このスクリプトは、画像ファイルまたはクリップボードから画像をAI-OCRで処理し、結果をMarkdown形式で出力します。 対応するAIは現在Geminiのみです。
- ai.ai_ocr2md.call_ai_ocr(prompt, image_path, api='gemini', model=None)[ソース]
指定された画像とプロンプトを使用してAI OCRを実行し、結果のテキストを返します。
現在はGemini APIのみをサポートしています。APIキーとモデル名は環境変数または引数から取得されます。
- パラメータ:
prompt -- str: AIに与えるプロンプトテキスト。
image_path -- str: OCR対象の画像ファイルパス。
api -- str: 使用するAI API ("gemini" のみサポート)。
model -- str, optional: 使用するAIモデル名。指定しない場合は環境変数 'gemini_model' またはデフォルトの 'gemini-3.1-pro' が使用されます。
- 戻り値:
str: AI OCRの結果として得られたテキスト。
- 例外:
Exception -- AIの呼び出し中にエラーが発生した場合、特にモデルが見つからない場合。
- ai.ai_ocr2md.get_image_from_clipboard()[ソース]
Windows 11のクリップボードから画像を安定して取得し、一時ファイルとして保存します。
ImageGrab.grabclipboard() を使用してクリップボードの内容を確認します。 画像データが見つかった場合、clipboard_ocr_input.png という名前で保存し、そのパスを返します。
- 戻り値:
str: 保存された画像ファイルのパス、または画像が見つからないかエラーが発生した場合はNone。
- ai.ai_ocr2md.main()[ソース]
スクリプトのメインエントリポイント。AI OCRの実行フローを管理します。
AI設定ファイル (ai.env) を読み込みます。
コマンドライン引数をパースし、入力画像パス(ファイルまたはクリップボード)、出力ファイル名、 プロンプト設定ファイル、AI API、AIモデルを決定します。
プロンプト設定ファイル (ai_ocr2md.ini) からプロンプトを読み込みます。
入力画像パスが 'clip' の場合はクリップボードから画像を読み込み、それ以外の場合は指定されたファイルパスを使用します。
call_ai_ocr 関数を呼び出してAI OCRを実行します。
AI OCRの結果をMarkdownファイルとして保存します。
- 戻り値:
None