ぽんぽこ日記

プログラミング、読書、日々の生活

2010-09-01から1ヶ月間の記事一覧

PDFの文書構造を取り出す

今回は、PDF文書の目次情報を取得する方法について記します。アウトラインそのものはPDFカタログの「Outlines」から取得できます。このエントリは木構造になっているので、深さ優先で、「First」項目をスキャンし、木をスキャンし終わったら「Next」項目をス…

アジア言語圏のPDFのテキスト抽出 3

フォント情報から文字コードを得る方法です。まず、Font情報はそのフォントを使用するページのResourceとして登録されているので、その情報を取り出します。 CGPDFPageRef page; // page ページオブジェクトを取得。。。 CGPDFDictionaryRef pageDict = CGPD…

アジア言語圏のPDFのテキスト抽出 - 2

前回の続きです。ponpoko1968.hatenablog.com PDFの文字列描画命令は、TJ、Tj演算子のオペランド文字列のエンコードとキャラクタセットは、先だって実行されたTmオペレータのフォントの指定に従っています。 たとえば、 /C2_0 1 Tf 0 Tc 4.093 0 Td <0DFA0F6…

iPhoneシミュレータでOCUnitを実行する

前回のエントリで、XCodeのデバッガ上でOCUnitのテストを実行したいと書いたが、UIが絡まないようなロジックテストであれば思いの外簡単に実現できたので共有。まず、新規ターゲットとしてCocoa Touchアプリケーションを追加。 ターゲットを右クリック「情報…

OCUnitでテストメソッドを選択的に実行する

小ネタですが。。本来のユニットテストの趣旨とはことなるが、動作がよくわからないクラスやAPIを試してみるときなど、試行錯誤しながらコードを書いていくときに、テストプログラムを書いて試してみては、書き換えてまた別の方法を試したりと、選択的にテス…