CMUのリキャプチャ技術、文字認識技術99%

古い書籍のディジタル化のためにOCR(文字読み取り)技術が使われますが、これは、特に文字が汚れているときに問題が起きます。これを、人海戦術で補おうという試みで99%の認識率が得られたそうです。

研究チームはこの技術を応用し、書籍のデジタル化で、二つのOCRによる読み取り結果が食い違った文字の画像を表示し、利用者に入力してもらう仕組みに改良。迷惑メール・迷惑ブログ対策と、書籍デジタル化の「一石二鳥」を狙った。

技術的詳細は、こっちのほう。

reCAPTCHAはこれを応用し、書籍のデジタル化においてコンピュータが認識できなかった単語の画像を人間に判読してもらうことで、義務的にランダムな文字を打ち込むだけだった認証作業を、生産的な仕事に変えるものだ。

グリッド・コンピューティングでは、ネットの端末に仕事を分散させることで膨大な演算量を得ます。リキャプチャ技術は、ネットの端末を使っている人間に仕事をさせることで、アルゴリズムの精度を高めます。というか、これ、アルゴリズムを一定以上練る必要が無いな。
感覚的には、映画マトリックスの「人間エネルギーで動くコンピュータ」とあまり違わない方向です。つまり、人間がコンピュータを手伝うって方式。
ブックマークを覗いてみると「エログリッド・コンピューティング」という言葉がありました。キャプチャがエロサイトでもよく使われるので、人間の性欲に後押しさせてコンピューティングをやっているという揶揄でしょう。
すごい技術ではあるのですが、私のような悲観論者はいろいろ考えてしまいます。

仕事の成果は誰のものか
以前「ユーザーが入力して作り上げた」CDDBが、著作権でもめたことがある。入力した人は著作権を持たないか
みんなの力を俺に分けてくれ!
と、主人公が叫んだら、友達がばたばた倒れて言ったな。武装錬金。リキャプチャ技術が広く普及すると、ネットアプリケーションを使うたびに、いつも誰かのために何かの仕事をさせられるようになるのだろうか。すでにグーグルは検索バーから検索ワードの変換候補の統計情報を入手できる。
伝説的な犯罪
昔、銀行のコンピュータの演算丸めで切捨てが起きたとき、自分の講座に入金させていた犯罪者がいる、ということがまことしやかに言われていた。一次情報は知らない。

もう一度繰り返しますが、リキャプチャは人間がコンピュータを手伝うためのインフラです。コンピュータって、人間の手伝いをする機械じゃありませんでしたっけ。

/* -----codeの行番号----- */