- ベストアンサー
パスワードがかかったPDFファイルをhtmlに変換
パスワードがかかったPDFファイルをhtmlに変換したいと考えています。 具体的には、EDINETに載っている有価証券報告書です。 このPDFファイルは、閲覧は誰でも可能なのですが、編集できないようにパスワードがかかっています。 これをhtmlに変換したいのですが、どのような手段が考えられるでしょうか。 なお、無料に越したことは無いですが、多少のお金がかかっても構いません。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
編集できないようにしてるものを バラしてHTMLにすれば 「編集できてしまうもの」になりますよね。 それ 倫理的に大丈夫なんでしょうか? まず其れを相手に確認しないと しりませんよ 陶然パスワードがかかっているのなら、絵として取り込んで作り変えるしか方法はありませんので その報告書を画面に出しておいて プリントスクリーンキーを押して スクリーンショットを取って画像編集ソフトで 各パーツに分解して HTML化すれば できますが、すべてが画像という時点で、何ぼでも編集可能ですので 報告書を製作した会社の信頼を失墜させたり、嘘の報告に書き換えて訴えを起こすことも可能です。
その他の回答 (2)
結局は1番さんの回答になりますが、仮想プリンターで画像として出力する。 それをhtmlに変換してもよいし、再度AcrobatでPDFにしてhtmlに書き出してもよい、1番さんが回答されたようにOCRソフトで文字情報に直すという方法もあるけど、読み合わせをしないと誤字脱字の可能性はある(それ用に音声読み上げソフトも買ってインストールしてあります)。 ネットで探していたら、こういった動作を自動で行う「Free PDF Unlocker」というフリーソフトを見つけました。 説明によれば、これはパスワードを解析してクラックするのではなく、開いたPDFファイルをコピーして新しいPDFファイルを作るというもののようです。 それ以上はわかりませんので、自分で検索してみてください。 念のために言いますが、パスワードを解除するわけではなく、単に内容をコピーするソフトですから、パスワードがないと開けないファイルは対象外になります。
- DIooggooID
- ベストアンサー率27% (1730/6405)
参照可能な情報でしたら、OCRソフトウェアを利用して、 直接、文字認識する方法があります。
補足
処理したいのは、「EDINETに載っている有価証券報告書」です。 抽出したいのは文中のテキストデータですので、画像にしてしまうとやりたいことは達成できません。 私の意図は文中のデータを抽出することで、内容を書き換えて悪用したりはしません。 何より、EDINETに厳正なる原本が載っているので、 まともな人ならばEDINETのファイルを見るでしょうから、誰かを惑わすことにはならないと思います。