PDFBox - 人類みんなごくつぶし

http://www.pdfbox.org/

Javaから使えるPDFライブラリで、「帳票やフォームからPDFを作る」というのはいくつかあるけど、PDFからコンテンツを抽出するってのが、なかなかなかった(知らなかった)。PDFBoxだと、とりあえずテキスト抽出機能はある。

こんな感じ

package hoge;

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class Test2 {

    public static void main(String[] args) throws Exception {
        
        PDDocument doc = PDDocument.load("hoge.pdf");
        PDFTextStripper stripper = new PDFTextStripper();
        String text = stripper.getText(doc);
        System.out.println(text);                
    }
}

でも、日本語が化けちゃうなぁ。うーむ。。。