convert_ocr 実行例
help出力 convert_ocr.py --help
usage: convert_ocr.py [-h] [--output OUTPUT] [--engine {tesseract,genai}]
[--ini INI] [--api API] [--model MODEL] [--lang LANG]
[--dpi DPI] [--keep-images] [--workdir WORKDIR]
[--ai-env AI_ENV] [--list]
[input]
OCR専用変換ツール。出力は常に Markdown (.md)
positional arguments:
input 入力ファイル。画像/PDF/Office文書、または 'clip'
options:
-h, --help show this help message and exit
--output OUTPUT, -o OUTPUT
出力Markdownファイル名
--engine {tesseract,genai}, -e {tesseract,genai}
OCRエンジン
--ini INI, -i INI genAI用プロンプト設定ファイル
--api API, -a API genAI API名 (既定: gemini)
--model MODEL, -m MODEL
genAIモデル名
--lang LANG tesseract OCR言語
--dpi DPI PDF/Officeを画像化する際のDPI
--keep-images 中間画像・中間PDFを削除せず残す
--workdir WORKDIR 作業ディレクトリ。未指定時は一時ディレクトリ
--ai-env AI_ENV AI用環境変数ファイル (既定: ai.env)
--list 対応形式・依存関係・実行例を表示して終了
生成されたデータファイル
(データファイルが見つかりませんでした)
生成された画像一覧
(画像ファイルが見つかりませんでした)