本とエンタメ、あとパソコンにスマホも

好きなことだけやってます。

ゼロ円で「自炊」、電子書籍できました(その1)

f:id:haru507-ht:20211121190935j:plain


★ 初めてのスマホ

 この夏、ガラケースマホに替えた。機種は Google Pixel 4a。
 5年ほど前から8インチのアンドロイドタブレットを利用していたのでおおよその使い方は理解しているつもりだったのだが、スマホを使い込むにしたがってその性能・機能の進化には驚かされることばかりだ。
 「グーグルレンズ」もその一つ。

 

 そもそもは、スマホで蔵書管理できるアプリがあることを知り、「Readee」を使い始めたのがきっかけだった。
 スマホのカメラで本の裏表紙のバーコードを写すだけで書誌データが書影とともに簡単に登録できてしまう事に感動してしまった。
 蔵書には古い本も多く、バーコードはおろかISBNコードすら付いていないものもあったが、シリ-ズ名や作者名でも検索・登録することができ、サクサクと 10日間で2千冊余りを登録できた。
 未読小説本の管理が主目的だったので、あらすじ等も確認できるアプリを選んだのだが、データベースとなる楽天ブックスにもあらすじ登録のないものがけっこうあったため、手入力するか諦めるかどうしようかと迷っていたところ、「グーグルレンズ」で簡単に登録できることがわかったのだ。
 半ページを越える長いあらすじもあったが、カメラで写して「グーグルレンズ」のOCR機能で難なくテキストデータ化して登録できた。
 進化した機能に感心しながら登録データをながめていたとき、ふと、「これなら、本文そのものもテキストデータに――電子書籍にできるんじゃないの?」と気付いてしまったのだ。


★ 電子書籍を作ってみよう

 ちょうど「Readee」に登録しようとしていた本の中に、日に焼けたように紙が茶色になってしまった古い薄めの小説があったので、試しに本文ページを写真に撮ってグーグルレンズで文字認識させてみた。
 なんと、認識率99%超!
 字下げした行頭や読点の後に半角スペースが余分に入ってしまうのを別にすれば、文庫本1ページ分に誤読が3~4文字程度しかなく、充分実用に耐えるものだった。
 かつて、フラットベッドスキャナーを買ったときに付属のOCRソフトを試した際には認識率が95~96%ほどしかなく、1行のうちに2箇所も3箇所も誤読があって校正する気力もなくなってしまうくらいだったことからすれば、もう雲泥の差だった。
 最初は10ページくらいづつ、途中からは20ページくらいづつをテキスト化して校正していった。
 記号の半角全角誤変換や改行時に一文字抜け落ちてしまうことがときたまある程度で、ほとんど修正する必要もなくスムーズに読み進めることができたのが感動的だった。

 手順としては、
 1.左手で文庫本を開いて持って
 2.右手のスマホで1ペ-ジ分を撮影
 3.撮った写真をグーグルレンズに読み込ませ
 4.文字を認識させて「コピー」を選び、エディター等に「貼付け」する
と単純なものだ。

f:id:haru507-ht:20211121190452j:plain
f:id:haru507-ht:20211121190504j:plain
f:id:haru507-ht:20211121190513j:plain


 照明が暗かったりページに反りがあったりしても、難なく読み取ってくれた。
 ただ、4G を WiFi に切り換え忘れていた際には、認識に倍以上の時間がかかったり、エラーが頻発してしまうことがあった。う~ん、OCR認識はデータ通信してるってことなのかな。

 また、文字部分を撮影フレームギリギリまでアップにして写した方が文字認識率が高くなるようで、うっかり離して写したときにはたちまち誤読が増えてしまった。

 さらに、自分の場合は、
 0.あらかじめ、パソコンでグーグルクロームを立ち上げておく
 1~3.
 4.文字を認識させたあとに「パソコンにコピー」を選ぶ
 5.パソコンで立ち上げたエディターに連携したデータを貼り付け、校正する
の手順で行った。
 仕組みをよく理解していないのだが、スマホとパソコンの両方で同じグーグルアカウントにログインしておくと、グーグルレンズで読み取ったテキストをパソコンに転送してクリップボードに一時保存できるというものらしい。
 OCR認識の際に余分に入ってしまった半角スペース等を、パソコンのエディターで一括置換・削除してから校正作業にとりかかっている。


★ 出来映えは?

 結果、約2週間かけて全247ページをテキストデータ化できた。150,666文字、444KB。
 本を解体することなく、手持ちの機材のみで――追加投資ゼロ円で電子書籍化できたことに、とても満足している。
 OCRの誤読が少なく、ほぼ再読しながらの校正作業であったため、さほどストレスを感じることもなく「読書」を楽しめた。

 この、電子書籍化にかけた時間と労力が成果物に見合うものかどうかについての判断はひとまず置くとして、自分としては大好きだった作品を「劣化させることなく半永久的に残すことができる」ようになったことが、とても満足だ。
 ネットをのぞいてみると、往年のファンから再刊を希望する声もみられる作品だったので、せっかく労力をかけて電子化したこともあり、希望者にコピーを贈ってあげたい、この作品をもう一度広めたい、といった気持ちに駆られるが……ダメですもんね。ハイ、わかってます。
 青空文庫に寄贈して、版権切れ後に公開してもらうよう予約することは可能なのかな?

f:id:haru507-ht:20211123083055j:plain

 

 次は、「校正しない」電子書籍化にチャレンジしてみたいと思う。
 なにせ、今回電子化した作品は日本語版で全20巻(+1)のシリーズであり、まだ19冊(+1)も残っている。
 1冊を電子化するのに2週間近くもかかっているようでは、ほかの本が読めなくなってしまう。
 いかに、お金をかけず、労力をかけずに電子書籍化できるかが今後の課題、ということで。

 

★★ 追記
 電子テキスト化の2冊目として、ロバート・シルヴァーバーグの「いばらの旅路」を選んでみた。
 先日、「小惑星ハイジャック」で久しぶりにシルヴァーバーグを読んで、いやいや、もっと良いのがあったでしょ、とシルヴァーバーグを再読してみたくなったのだ。
 早川書房東京創元社とサンリオの文庫は持っていたが、「いばらの旅路」は図書館で見つけて読んだだけだったので、今回ネットで探してそろえることができた。

 入手できた本は発行から半世紀が過ぎて劣化が進んでおり、このままボロボロになってしまうのがなんだかしのびなく思えて、「このさい再読に併せて電子化してしまおうか」と考えたのだ。
 約2週間(実働は土日を含む7日間)でOCR処理したものを読みながら校正し、全235ページ2段組み、182,614文字(551KB)を電子テキスト化することができた。
 一言一句を照合・校正するものではなく、段落の区切りに注意しながら読んでいって違和感を覚えた部分を中心にチェックしたくらいのもので、まだまだ校正漏れは残っているかもしれない。
 テキスト型の電子化は校正が必須となり、画像型の電子化に比べて効率は格段に落ちてしまうのだが、時間をかけた分だけ深く読み込めたような気がしている。
 さて、残りの本はどうしようか。