検索可能になっていないPDFを、ScanSnap付属アプリでOCR処理をして検索可能なPDFにする方法(ScanSnapでスキャンした1ページのPDFにJPGとして追加してからOCR処理する)
前提
- Mac
- MacBook Pro
- macOS Big Sur
- ScanSnap
問題
- 検索可能になっていないPDF(ScanSnap以外で作成された画像のみのPDF)は、そのままではScanSnap付属アプリでOCR処理できない。
解法
- ScanSnapでスキャンした1ページのPDFを用意しておき、そこにOCR処理したい全ページをJPGとして挿入したPDFを作ってから、それをOCR処理すればいい。
手順
- ScanSnapでスキャンした「1ページのPDF」を用意する(
base.pdf
と呼ぶことにする)。
- 何ページのPDFでもいいけれど、ScanSnapでスキャンしたPDFをベースにするのがポイント。
- 「新たにOCRを掛けたいPDF」を用意する(
input.pdf
と呼ぶことにする)。
- ImageMagickのconvertコマンドで
input.pdf
の全ページをjpgファイルに分解する。
- たとえば、
convert -density 300 input.pdf output-%03d.jpg
のようにする(300が適切かどうかは不明)。
- Macのプレビューアプリを使って、
base.pdf
アプリを開き、output-000.jpg
,
output-001.jpg
, … をページとして挿入する。
- 何百ページもまとめて挿入すると非常に時間が掛かるので、様子をみながら少しずつ挿入する。
- できたPDFを保存する(
target.pdf
と呼ぶことにする)。
- Finderで
target.pdf
のコンテキストメニュー(副ボタンタップ、二本指タップ)から「Scan
to Searchable PDF」を選んで開く。
- この操作は環境によって違うかもしれません。要するにScanSnap付属のOCRアプリで
target.pdf
を処理するという意味です。
- 検索可能なPDFが
target_OCR.pdf
のようなファイル名で作成される。
参照
関連ツイート
https://twitter.com/hyuki/status/1418478966310981633