OCR_pdf プログラム仕様

PDFファイルからテキストを光学文字認識（OCR）で抽出するPythonスクリプトです。

このスクリプトは、PyMuPDFとPytesseractライブラリを使用してPDFの各ページを画像に変換し、 Tesseract OCRエンジンで画像からテキストを抽出します。一時的な画像ファイルは処理後に自動的に削除されます。

使用前に以下のライブラリとTesseract OCR for Windowsをインストールしてください。 Tesseract OCR for Windowsのダウンロード: https://tesseract-ocr.github.io/tessdoc/Downloads.html

必要なPythonライブラリのインストールコマンド: pip install Pillow PyMuPDF pytesseract

OCR_pdf.py 技術ドキュメント

ai.OCR_pdf.ocr_from_pdf(pdf_path, lang='jpn', output_dir='pdf_images')

PDFファイルから光学文字認識（OCR）を実行し、抽出された全テキストを連結して返します。

PDFの各ページは一時的に高解像度画像として変換・保存され、 Tesseract OCRによってその画像からテキストが抽出されます。 OCR処理後、一時画像は削除されます。DPIを高く設定することで、より鮮明な画像が生成され、OCR精度が向上する可能性があります。エラー発生時も、可能な限り一時ディレクトリのクリーンアップを試みます。

パラメータ:

pdf_path -- (str) OCR処理を行うPDFファイルのパス。
lang -- (str) Tesseractが認識する言語。例えば 'jpn' (日本語)、'eng' (英語)、または 'jpn+eng' (日本語と英語の複合) など。
output_dir -- (str) PDFから抽出した一時画像を保存するための一時ディレクトリのパス。このディレクトリは処理後に削除されます。

戻り値:

(str) PDF全体から抽出された全てのテキストを連結したもの。ファイルが見つからない場合や処理中にエラーが発生した場合は、エラーメッセージを含む文字列を返します。