check_office_file_type プログラム仕様

Officeファイルのタイプを判別するためのユーティリティスクリプト。

このスクリプトは、指定されたファイルのMIMEタイプや内部構造(ZIPアーカイブとしての内容)を 検査することで、Microsoft Word、Excel、PowerPointのいずれであるかを判別します。

関連リンク: 技術ドキュメント: check_office_file_type.py

converter.check_office_file_type.judge_office_file_type_by_content(filepath)[ソース]

ファイルのMIMEタイプに基づいてOfficeファイルのタイプを判別します。

python-magic ライブラリを利用して、指定されたファイルのMIMEタイプを検出し、 それがWord, Excel, PowerPointのいずれかのOpenXML形式であるかを識別します。

パラメータ:

filepath -- str: 判別するファイルのパス。

戻り値:

str: 判別されたOfficeファイルのタイプ('Word', 'Excel', 'PowerPoint')または'Unknown (MIMEタイプ)'。

converter.check_office_file_type.judge_office_file_type_by_zip(filepath)[ソース]

ファイルをZIPアーカイブとして開き、内部構造に基づいてOfficeファイルのタイプを判別します。

OpenXML形式のOfficeファイル(.docx, .xlsx, .pptxなど)が実際にはZIPアーカイブであるという特性を利用します。 特定の内部ファイル(word/document.xml, xl/workbook.xml, ppt/presentation.xml)の存在を確認することでタイプを識別します。 ファイルが有効なZIPアーカイブでない場合は、その旨を返します。

パラメータ:

filepath -- str: 判別するファイルのパス。

戻り値:

str: 判別されたOfficeファイルのタイプ('Word', 'Excel', 'PowerPoint')、 'Unknown (OpenXML ZIP)'、または'Not a ZIP-based Office file'。