OCR_image プログラム仕様

OCR_imageモジュール

このモジュールは、Tesseract OCRを利用して画像ファイルからテキストを抽出するための機能を提供します。 指定された画像ファイルパスと言語設定に基づき、文字認識処理を実行し、結果のテキストを返します。

関連リンク: OCR_image.py テクニカルドキュメント

ai.OCR_image.ocr_from_image(image_path, lang='jpn')[ソース]

画像ファイルから文字認識を行い、抽出されたテキストを返します。

詳細説明:

Pillowライブラリを使用して画像を読み込み、pytesseractを用いてOCR処理を実行します。 ファイルが見つからない場合や、OCR処理中に何らかのエラーが発生した場合は、 適切なエラーメッセージを文字列として返します。

パラメータ:
  • image_path -- str: OCR処理を行う画像ファイルへのパス。

  • lang -- str: OCRエンジンが認識に使用する言語。 'jpn' (日本語) や 'eng' (英語) などの言語コードを一つ、 または 'jpn+eng' のように '+' で複数指定できます。 デフォルトは 'jpn' です。

戻り値:

str: 画像から抽出されたテキスト。ファイルが見つからない場合や OCR処理中にエラーが発生した場合は、エラーメッセージ。