PDFBox
Javaから使えるPDFライブラリで、「帳票やフォームからPDFを作る」というのはいくつかあるけど、PDFからコンテンツを抽出するってのが、なかなかなかった(知らなかった)。PDFBoxだと、とりあえずテキスト抽出機能はある。
こんな感じ
package hoge; import org.pdfbox.pdmodel.PDDocument; import org.pdfbox.util.PDFTextStripper; public class Test2 { public static void main(String[] args) throws Exception { PDDocument doc = PDDocument.load("hoge.pdf"); PDFTextStripper stripper = new PDFTextStripper(); String text = stripper.getText(doc); System.out.println(text); } }
でも、日本語が化けちゃうなぁ。うーむ。。。