なんとなく綴ってみた

アクセスカウンタ

zoom RSS マイクロソフトの音声認識システム、「人と同等」レベルに到達……日本では微妙だが。

<<   作成日時 : 2017/08/25 10:32   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

米マイクロソフトの英語圏での認識性能がマイルストーンを超えたようだ。ただ、それはあくまで英語圏の話であり、研究員が開発したというレベルなので、製品には落とし込まれていないようだが、この先それが落とし込まれると、Cortanaなどの性能は上がるだろう。あくまで、これは英語圏の話だが……

実はWindowsに搭載されているCortanaの日本語認識性能は可レベル(優ではなく、良でもない、まあ動くレベル)である。Google Now!(現在はAssistant)やSiriの方が遙かに高いし、別途購入するAmiVoiceドラゴンスピーチなどの方がまだトレーニングレベルは高いだろう。

これは、日本でCortanaがあまり浸透しない理由でもある。
https://japan.cnet.com/article/35106247/


<普及しない日本の音声認識コマンダー>

日本で何故この手の技術があまり進化しないのかというと、単純に使う人が少ないからだ。日本人は、基本的にコンピューターと音声対話をすることを嫌う特性がある。何より、人前で機械(コンピュータ)に向かって喋るなど、恥ずかしいと思う人も多い。

まあ、実際に使えば便利だが……。よほど手が離せないときに限られたり、人があまり見ていない場所でこっそり使う人が多いだろう。ただし、日本人はそれにキャラクター(アバターや人や動物の形をした殻)があると喜んで近づく傾向があるので、形から入るという傾向もあるのは確かだ。

それが、MicrosoftのようなPCメーカーには徒となる。何故なら、SiriやGoogle Now!はそうはいっても、携帯電話、スマートフォンとして誰もが持ち歩いているため、少しずつ使われているが、Windowsは日本では利用率が徐々に低下している。会社ぐらいでしか使わない人も多く、そもそも家庭でも検索に音声を使う人は少ない。

だから、日本ではCortanaがあまり成長していない。私も、最近はほぼ使わない。時々語彙を確認するぐらいである。結果的に音声入力や音声コマンダーとして普及するのは、上記したようなソフトウェアが中心になり、しかもそれを必要とするビジネスが中心となる。だから、余計に流行らないという悪循環になるわけだ。

それに、日本語は英語など他の言語より判断が難しい。言葉にすると楽でも、文章にすると、漢字とカタカナ、ひらがなという3つの文字形態があるため、日本語入力の概念と組み合わせるわけだが、日本語入力の変換性能がなかなか誤字を減らせない辺りを考えるとお察しできるレベルだと分かるだろう。

だから、マイクロソフトは最近MS-IMEを強化しているわけだ。これの精度がさらに上がっていかないことには、人と同じレベルにはならない。


ただ、一つだけ例外の産業がある。
それが、放送分野であり、特にNHKの字幕生成システムに使われる音声認識は凄いレベルであることは知られている。まあ、これも実際には放送で使われる用語を中心に変換しているという部分もあるのだろうが、2015年の段階でかなり高い変換性能を持っていた。
https://www.nhk.or.jp/strl/vision/r5/r5-2.htm


検索というレベルでは、GoogleのAssistantが最も進んでいるだろう。こちらが成長しているのは、検索エンジンで縦横に映像や音声を検索してきたからだと思われる。また、You Tubeなどのサービスがあることで、そこにある音声を、照合しキャプション(音声データを字幕に変換する作業)をしていることも大きい。Googleは無料・有料問わずサービスの広がりを、別のサービスの糧にするのが上手なメーカーである。

Siriも面白語彙の検索という点では、よく出来ている。しかし、日本語環境でCortanaはまだこれらに追いつているとは言えない上に、精度がこれらよりまだ低い。これは、日本だけの話ではなく、Cortanaの精度は国によってまちまちなのだ。どうしても、この精度は集めるサンプルの量に依存するため、言語圏によって偏りが産まれるのだ。


<日本では、Googleの方が先を行くか……>

現状を考えるとMicrosoftが一気に日本市場で音声認識の性能を上げるのは難しいだろう。何より現状では、AppleやGoogle方がサンプルを集める機会は多く、きっとこれからもGoogleやAppleの方がサンプル数は増えていくと思われる。

そう考えると、日本ではマ社がこの技術を成長させるには、何か別の計画が必要になる。マイクロソフトが今使っているのは、MSNやOne Drive、後はAzure(クラウド)、そして社内のテスターとパートナー企業のデータぐらいと思われる。マイクロソフトが果たして、日本でも音声認識を大幅に向上させたいと思っているかというと、現状ではたぶん可能性が低い。

何故なら、Windows Mobileが普及しない上に、Cortanaの音声認識使用率も低いからだ。
だから、たぶんIMEの精度向上の方に今は力を置くのだろう。
その後、商機があれば日本でも本格的に精度向上を目指して行動するようになるかもしれないが、それでもGoogleの方が、この先も自然音声認識では一歩か二歩先を行っているかもしれない。



エムシーツー 音声認識ソフト AmiVoice SP2 USBマイク付
エムシーツー
2012-11-30

amazon.co.jpで買う
Amazonアソシエイト by エムシーツー 音声認識ソフト AmiVoice SP2 USBマイク付 の詳しい情報を見る / ウェブリブログ商品ポータル




【送料無料】ドラゴンスピーチ11 Lite 日本語版 音声認識ソフト・音声入力ソフト  737227
HRKS ストア
セット内容 ドラゴンスピーチ11 Lite 日本語版 インストールDVD ドラゴンスピーチ11 Li


楽天市場 by 【送料無料】ドラゴンスピーチ11 Lite 日本語版 音声認識ソフト・音声入力ソフト  737227 の詳しい情報を見る / ウェブリブログ商品ポータル



テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
マイクロソフトの音声認識システム、「人と同等」レベルに到達……日本では微妙だが。 なんとなく綴ってみた/BIGLOBEウェブリブログ
文字サイズ:       閉じる