ぽんぽこ日記

プログラミング、読書、日々の生活

2010-09-15から1日間の記事一覧

アジア言語圏のPDFのテキスト抽出 - 2

前回の続きです。ponpoko1968.hatenablog.com PDFの文字列描画命令は、TJ、Tj演算子のオペランド文字列のエンコードとキャラクタセットは、先だって実行されたTmオペレータのフォントの指定に従っています。 たとえば、 /C2_0 1 Tf 0 Tc 4.093 0 Td <0DFA0F6…