OCRソフト

OCRソフトを使った内職。1500ページ超。スキャン含む。

間違えやすい文字の一覧なんてえのは、この時代、どこかに公開されているだろうなあ、と思ったら、ありました。

http://www.planaria.org/prr/ver1/charlist.html

でも、このデータを組み込んで効率化するのは結構面倒くさい。一字ずつの単純な変換は無意味だから、単語レベルでの変換にしなくてはいけない。一括変換の長大なリストをつくることはできても、それを自動にやるうまい方法が見つからない。

青空文庫」の入力・校正のアドバイスも参考にはなるけど、機械的な効率化の話は出ていない。

http://www2s.biglobe.ne.jp/~LUNA/bsc/edit/edit_2.html

結局、手作業ということなんだよなあ。