文字認識精度が教えてくれるAI開発能力
以前にご紹介したビジネス向けQQことTencent TIM。このTIMに付属機能としてOCR(光学文字認識)がついているのをご存知だろうか。ひょっとすると特定分野で中国のAI開発能力は、日本のそれを抜いているのかもしれない。
OCRとは?
TIMを使い始めた経緯は、ハード更新をしたためにWindows 10へバージョンアップをするはめになったためである。もともとQQ Internationalを使っていたので乗り換えなのだが、その良さについてはお伝えしたとおりだ。
このTIMには、OCR機能が実は付いている。ちなみに、”OCR”を聞いたことない人向けに単語の解説すると、画像から文字を認識させる技術のことである。
光学文字認識(こうがくもじにんしき、Optical character recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能やマシンビジョンの研究分野として始まった。研究は続けられているが、OCRの中心はその実装と応用に移っている。紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することで機械翻訳や音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研究分野としては、パターン認識、人工知能、コンピュータビジョンが対応する。
このOCRで一番身近な例が、NECが開発し郵便局で使われている郵便物振り分けマシーン(郵便区分機)である。これは郵便局に集められた郵便物を宛先(主に郵便番号)をもとに配達先ごとに振り分けてくれる機械だ。
この文字認識は難易度の高い分野で、文字とそれ以外の背景をどうやって認識するのか?が問われる技術である。
TIMにはこの機能が搭載されており精度が高いのだ。
Tencent TIMの隠れた機能
この機能とても便利なのだが、なぜかメインメニューには出てこない。
どうやって使うのか?であるが、たとえばチャットやグループなどに貼り付けられた画像に文字が書かれているとする(当サイト運営のQQ日本人会から拝借)。
この画像部分をクリックすると、画像にフォーカスがかかり拡大される。ここで右下にある画像用のサブメニューをクリックすると出てくるのだ。
サブメニューの上から2つ目『提取图中文字』(画像から文字を取り出す)が、今回紹介するOCR機能だ。
これを選択すると、画像ファイルがサーバに送付されてサーバが解析してくれる。
解析をはじめると、量にもよるが数秒で結果が帰ってくる。
白地文字なら、ほぼ100%
この手のOCRで問題になるのが、その精度である。そこで今回は、”NHKの社員が北海道に強烈な寒気が迫っているにもかかわらず外出し、救援の男性を死に至らしめるというNHK潰れろ”な記事を使った。
記事の拡大版がこちら。
実際にサーバで解析させた結果が以下の画面。
このままだとどの程度の精度かわかりづらい。そこで、記事(画像)と読み取り後の文章をテキストエディタで比較してみる。
画像中の記事
大雪持續不停地下,直到3月2日傍晚,北海道各地積雪深度已經接近3公尺,是有紀錄以來最深的一次。1輛從札幌開往旭川的JR函館線列車,下午1點左右,因積雪太深,受困在深川市約3小時。當局趕緊協助120名乘客,改搭巴士前往目的地。
1名休假中的NHK記者,2月28日去林中打獵,不料因為大雪受困,他打電話要求道路救援,3名救援人員前往不料也受困。
由於除雪車遲遲不來,其中28歲的道路救援人員,自願出去搜尋,沒想到半路凍死。還好另外3人,3月2日被警消發現時安然無恙。NHK事後發表聲明,對死者表達哀悼,並且為造成相關人員的困擾,誠摯道歉。
読み取り結果
大雪持續不停地下,直到3月2日傍晚,北海道各地積雪深度已經接近3公尺,是有紀錄以來最深的一次。1輛從札幌開往旭川的JR函館線列車,下午1點左右,因積雪太深,受困在深川市約3小時。當局趕緊協助120名乘客,改搭巴士前往目的地。
1名休假中的NHK記者,2月28日去林中打獵,不料因為大雪受困,他打電話要求道路救援,3名救援人員前往不料也受困。
由於除雪車遲遲不來,其中28歲的道路救援人員,自願出去搜尋,沒想到半路凍死。還好另外3人,3月2日被警消發現時安然無恙。NHK事後發表聲明,對死者表達哀悼,並且為造成相關人員的困擾,誠摯道歉。
比較結果がこちら。比較にはサクラエディタの差分検索を使っている。
結果は、パーフェクト-完全一致である。当初、記事を2度コピーするなどのコピペし間違えかと思った。改めてやってみたのだが、やはり一致する。すばらしいの一言だ。
一度、文字データとになれば応用ができる。たとえば、TIMには翻訳機能がついている。読み取り文章をそのまま英語の翻訳に投げ込めば、中英翻訳が瞬時にできるのだ。ユーザは1クリック、2クリックで画像から翻訳までできてしまう。
もっとも、ビジネス向けの機材やソフトであれば、このレベルの精度はよくある。ただ、それをクラウドベースで個人に提供するのがすばらしい。
斜め文章や写真でも解析
私がもっとも驚いたのは、文章の体裁になっていない文字でもしっかり読み取るところだ。たとえば、以下のような写真に入った広告である。今回は某デリバリサービスのものを拝借した。
先ほどと異なり背景は白色ではない写真だ。このため、色情報が複雑である。さらに、文字の一部は背景色と近似であるため可視性が悪い。
これを読み取らせてみると…
斜めに文字が書かれているため、文字のエリアを認識し、補正をしながら解読をする。そのため、白地文字と比べると時間が多少かかる。
結果がこちら。
完全ではないが、斜めに書かれている文章を認識し、読み取れているのがわかるだろう。
可視性が悪い部分の読み落とし(例えば四川の四は、若干潰れている)や間違いはあるものの、十分及第点を超えている。
ちなみに、文字認識はそんな難しいの?と思う方は、以下の専業の方が書かれているコラムを読んでいただきたい。
完全統制社会はもう間近
これらの技術開発を支える背後は、政府による完全統制が考えられる。
たとえば、現在の技術でも反政府・反体制をほのめかす内容が文字データであれば事前察知ができる。そこで最近は、ユーザも隠語や画像に埋め込むなど手段が多彩になった。このOCR技術を使えば、たとえ画像であっても検知ができる。
また、防犯カメラなどに移っている身分証を読み取り、瞬時に割り出すなど(権力者側の)夢は広がりそうだ。
搭載しているAI(人工知能)が衛星利用測位システム(GPS)や顔認証システム、そして当局がまとめた犯罪者のデータベースとつながっており、例えば街なかで、信号無視した人物を捉えた際、まず顔認証システムで個人を特定。その人物が当局の犯罪者データベース内の人物と一致すれば、GPSを使って居場所を即座に探し出し、近くで警報が鳴り、警察官が駆けつける、という仕組みなのです。
顔認証による身分証のデジタル化は実験ベースであるが、すでに開始されている。
これに画像から文字を認識できるようになれば鬼に金棒だ。今までであれば人海戦術でも無理だった、24時間365日監視も可能になる。あとは、くまなくカメラを取り付けて、ネットで結べばいいだけなのだ。
顔認識は中国はトップクラスの技術力を持っているので、もともと紙で管理していたモノと実際のモノが一致することで社会統制は鬼に金棒となるだろう。
2015年にセンスタイムは世界的な画像認識コンテストの「ImageNet」で1位を獲得し、さらにその地位を強固にした。
さらにこういった動向データを読み解くことで、将来的な犯罪予知の可視化なども検討しているようだ。例えばだが、武器になりそうなものをWeChatで大量に購入し政治的に不安定な場所へ当該人が移動したら警告が出るなどの活用ができるだろう。
AI開発の目的がはっきりしているので、開発にかける費用も人員も群を抜く。その先にある完全統制社会まで、もう間近なのかもしれない。
コメント