童謡の歌詞

2枚組の童謡CDを取り込んだデータに歌詞情報を付加してみた。歌詞をどこぞの DBから拾ってくるコンポーネントを入れてみたが案の定データは無し。メジャーな童謡ならぐぐれば歌詞ぐらい出てくるだろうとは思ったが CDのと細部まで一致するとは限らない。というわけで歌詞カードスキャンして OCR して透明テキスト付き PDF化、そっからコピペして歌詞タグに埋める作戦。
1ページずつめくりながらのスキャンは面倒だけど 30分もかかってないと思う。
日本語OCRは結構間違える。。。校正に結構な時間がかかる。
そっから改行とかを整え直しつつ1曲1曲コピペ。
何日かに分けて作業したけど、合わせたら丸1日ぐらいの作業量?
もう1組の童謡CDでもやろうかとは思ってるけど、それ以外の CDはパスだな。歌詞カードをスキャンするとこまでは全CDでやりたいと思ってるけど、テキストに起こすのは割に合わん。むしろどうやって簡単に PDF表示させるか考える方が良さそう。