OCR_pdf プログラム仕様

PDFファイルからテキストを光学文字認識(OCR)で抽出するPythonスクリプトです。

このスクリプトは、PyMuPDFとPytesseractライブラリを使用してPDFの各ページを画像に変換し、 Tesseract OCRエンジンで画像からテキストを抽出します。 一時的な画像ファイルは処理後に自動的に削除されます。

使用前に以下のライブラリとTesseract OCR for Windowsをインストールしてください。 Tesseract OCR for Windowsのダウンロード: https://tesseract-ocr.github.io/tessdoc/Downloads.html

必要なPythonライブラリのインストールコマンド: pip install Pillow PyMuPDF pytesseract

OCR_pdf.py 技術ドキュメント

ai.OCR_pdf.ocr_from_pdf(pdf_path, lang='jpn', output_dir='pdf_images')[ソース]

PDFファイルから光学文字認識(OCR)を実行し、抽出された全テキストを連結して返します。

PDFの各ページは一時的に高解像度画像として変換・保存され、 Tesseract OCRによってその画像からテキストが抽出されます。 OCR処理後、一時画像は削除されます。DPIを高く設定することで、 より鮮明な画像が生成され、OCR精度が向上する可能性があります。 エラー発生時も、可能な限り一時ディレクトリのクリーンアップを試みます。

パラメータ:
  • pdf_path -- (str) OCR処理を行うPDFファイルのパス。

  • lang -- (str) Tesseractが認識する言語。例えば 'jpn' (日本語)、'eng' (英語)、 または 'jpn+eng' (日本語と英語の複合) など。

  • output_dir -- (str) PDFから抽出した一時画像を保存するための一時ディレクトリのパス。 このディレクトリは処理後に削除されます。

戻り値:

(str) PDF全体から抽出された全てのテキストを連結したもの。 ファイルが見つからない場合や処理中にエラーが発生した場合は、 エラーメッセージを含む文字列を返します。