音声データを文字データに変換する精度が向上

中国インターネット
この記事は約5分で読めます。

24時間、あなたをウオッチング

テンセント(英語:Tencent 中国語:腾讯)が提供するコミュニケーションアプリのQQやTIM、WeChat(微信)には、音声データを文字データに変換する機能が搭載されている。文字起こしと呼ばれる機能だ。気づかない間に精度がとても上がっているのでご紹介。

声を文章に解析・変換

文字起こしとは、どういったものかご存知だろうか?

たとえば、QQやTIMなどででチャットをしていたとする。お互いにパソコンなどキーボードで快適に文字が打てる環境であればいいのだが、スマホなどでポチポチ文字を打つのはとても苦痛だ。とりわけ中国人の快適さ(めんどくさがり)への追求はとても高いので、こんな風に音声データで返された経験はないだろうか?

日本でよく使われるLINEにも同じようなボイスメッセージ機能がある。しかし、日本人同士だと相手がいつ見られるかわからないことや相手が再生できる状況なのかわからないので、文字で送ってくる感覚がある。

私もLINEやFacebook Messanger、TIMにWeChatと複数使っているが、ボイスメッセージを送ってくるのは中国人友達だけ。で、こういったボイスメッセージを社内で仕事しているときに、受け取ると正直困る。同僚に聞かれたらまずい内容だったらどうしよう?となる。

そこで役に立つのが、音声データを解析して文章にしてくれる機能。つまり、文字起こしである。

それぞれの音声データの下に解析した文章を添えて表示してくれるのだ。

声を文字にしてくれるVoice Input(音声入力)は身近な存在であるし、これに人工知能(AI)と組み合わせでは、iOSに搭載されているSiriが有名だ。そのアウトプット版というわけだ。

音声解析AIを公開

ちなみに、使い方はとてもかんたん。

QQやTIMなどで前述のような音声データを受け取ったときに、長押しをするとこんなサブメニューが出てくるのだ。

”转文本”(QQでは转文字)をタッチすると、サーバ側で解析をして、文章にして返してくれるのだ。聞き取れない場合や意味不明な場合も適当に文章化するのではなく、”喔,什么都没有听到(なにも聞き取れないよ)”と返してくれる。なかなか利口だ。

この機能、古くはパソコン版QQで提供されていたのが”いつの間にか”消えて、スマホ版に実装されている。

その頃のバージョンでは、読み取り精度が悪すぎて酷評を受けていた。その後、改良に改良を重ねたようで、現在のバージョンでは方言を含む中国語をかなりの精度で読み取ってくれる。2010年前半にAndroidのGoogle Voice Inputを使ったとき、その精度に驚かされたものだが、中国もそれに追いついたようだ。

そんな音声認識のAI機能、テンセントがオープンプラットフォームとして公開している。現在の仕様では、8MBのデータ(約5分)まで解析してくれるとのこと。

非空且长度上限8MB,建议分片单次请求时长200-300ms

语音识别-腾讯AI开放平台

Googleの音声認識が100ヶ国語以上に対応しているのに対して、テンセントのそれは中国語に特化している。今後は、他の言語へも展開するようで、順次提供されるとのこと。

只支持中文普通话语音识别,后续开放更多语种的识别能力

データ化の先にあるネガポジ分析

以前に別記事でOCR機能(画像データの文字データ化)を紹介したのを覚えているだろうか。

ビジネス版QQことTIMのOCR機能が秀逸-中国のAI開発能力は日本を抜いた?
文字認識精度が教えてくれるAI開発能力 以前にご紹介したビジネス向けQQことTencent TIM。このTIMに付属機能としてOCR(光学文字認識)がついているのをご存知だろうか。ひょっとすると特定分野で中国のAI開発能力は、日本のそれを抜...

こちらも同じプラットフォーム上で公開されており、その仕様を見ることができる。

腾讯优图OCR基于腾讯领先的深度学习算法,利用光学字符识别技术,将图片上的文字内容,直接转换为可编辑文本。不仅能精准快速识别身份证、名片、营业执照、驾驶证等卡证类信息,更有通用OCR和手写体识别技术支持更多场景、任意版面的文字信息获取,大大提高了工作效率和用户体验。

优图OCR

功能体验では、手元にある画像やほかのサイトにあるURIを貼っつけて試すことができるなど、純粋に遊べる。

こういった手書きデータもほとんど間違えない読み取り精度、外国人のおかしな中国語も聞き取れる精度、中国AIのレベルは賞賛に値する。

さらにさらにである。

こういった画像や音声を文字データ化した上で、発言者がどういった感情を抱いているのか?を解析する試みもプラットフォーム化されている。

いくつかある例文を見ている限りでは、形態素解析を行って含まれる単語がポジティブなのか、ネガティブなのかを判定しているだけのようではある。

単にデータ化するだけでは、それがいいことなのか悪いことなのかがわからない。そこに人が介在すると、それが限界になる。それを突破しようとする試みはあっぱれではないか。

マイクもカメラもシールで対策を

こういった便利な機能をポジティブな場面で使う分にはいい。しかし、こと中国の場合は監視目的に使われるのは当サイトでもたびたび言及している。

監視カメラによるAI顔認証はすでに運用開始
中国ではAIによる顔認証が既に実戦投入されており、実績を残せる段階に到達した。世界指折りのシステムを国内に張るだけの技術力を持ちながら、チョイチョイいけずなことをする中国様をご紹介。 6万人の観客から容疑者を特定 中国メディアの報道によれば...

実はQQやTIM、WeChatが密かに録音や録画をしていて、勝手に解析、監視されていたらどうだろうか。

たとえば、中国政府を批判するような発言を居酒屋でぐだ巻いてしゃべったとする。それを録音、解析されて、激昂しているのが判明したら、位置情報から管轄する警察が端末IDから個人を特定して逮捕!などというまるでSF映画のようなことをやりかねない。

そんなとき、ITの賢人から対策を学べる。

少し前の話だが、Facebookのマークザッカーバーグがアップロードした写真が話題になった。

You might think that the founder and CEO of Facebook would have some sort of unbeatable state-of-the-art software installed on his laptop to repel hackers.

Picture that shows Mark Zuckerberg’s a bit paranoid

そのときの写真がこちら。赤枠部分をよく見て見ると…

アナログながらシールでふさいでいるのだ。原始的ながらとても効果的である。物理的にふさいでしまえばソフトは手が出せない。

10元ショップに行けば気軽に買えるシロモノで自己防衛。いかがだろうか?

コメント

タイトルとURLをコピーしました