docx2img プログラム仕様

概要: Word文書をPDFに変換し、さらにそのPDFを画像ファイルに変換するスクリプト。

詳細説明: このスクリプトは、Microsoft Word文書 (.docx) をPDF形式に変換し、 その後、変換されたPDFファイル内の各ページを個別のPNG画像ファイルとして出力します。 WordからPDFへの変換にはcomtypesライブラリを介したWordアプリケーションのCOMオートメーションを使用し、 PDFから画像への変換にはPyMuPDF (fitz) ライブラリを使用します。 変換された画像は指定された出力ディレクトリに保存されます。

関連リンク: docx2img.py 技術ドキュメント

converter.docx2img.convert_pdf_to_images(pdf_file, out_dir)[ソース]

概要: 指定されたPDFファイルをページごとにPNG画像に変換し、保存します。

詳細説明: PyMuPDF (fitz) を使用してPDFファイルを開き、各ページをピクセルマップとして抽出し、 PNG形式で指定された出力ディレクトリに保存します。 出力ディレクトリが存在しない場合は、この関数内で自動的に作成されます。 出力される画像ファイル名は 'page_1.png', 'page_2.png' のようになります。

パラメータ:
  • pdf_file (str) -- 入力PDFファイルのパス (例: 'output.pdf')

  • out_dir (str) -- 画像ファイルを保存する出力ディレクトリのパス (例: 'images_doc')

戻り値:

なし

戻り値の型:

None

converter.docx2img.convert_word_to_pdf(word_file, pdf_file)[ソース]

概要: 指定されたWord文書をPDFファイルに変換します。

詳細説明: Microsoft WordアプリケーションのCOMオブジェクトを介してWord文書を開き、 PDF形式で保存します。Wordアプリケーションは非表示モードで実行されます。 変換が成功した場合は"変換成功。"と表示し、失敗した場合はエラーメッセージを表示し、 例外を再発生させます。処理の完了後にはWordアプリケーションを確実に終了します。

パラメータ:
  • word_file (str) -- 入力Word文書のパス (例: 'document.docx')

  • pdf_file (str) -- 出力PDFファイルのパス (例: 'output.pdf')

戻り値:

なし

戻り値の型:

None