NekoHTMLが付けるMetaタグ
NekoHTMLで以下のHTMLをパースすると
<HTML> <HEAD> <META content="text/html; charset=Shift_JIS" http-equiv="Content-Type"> </HEAD> <BODY> ... </BODY> </HTML>
わざわざ余分なMetaタグをつけてくれるのですが(以下の※)。
<HTML> <HEAD> <META http-equiv="Content-Type" content="text/html; charset=UTF-8">※← <META content="text/html; charset=Shift_JIS" http-equiv="Content-Type"> </HEAD> <BODY> ... </BODY> </HTML>
config.setFeature("http://cyberneko.org/html/features/scanner/ignore-specified-charset", true);
してから読み込むと、ちゃんと文字化けするので、元のHTMLのMetaタグのShift_JISというのを認識しているみたいなのに、なぜわざわざタグを一つつけるのだろう?うーむ。DOMツリーから後でMETAタグを削るか。変なの。