音声認識

2023.07.30

AI・Digital Marketing

AIスピーカーのお陰でスマホやPCと音声でやり取りすることが当たり前になりましたね。

音声入力はかなり以前から注目されていました。例えば、自動車の運転中。ドライバーが車載器の操作画面をじっくり見ながら、指先で操作したら危険で仕方ありません。
乗用車のカーナビの操作には、音声入力が以前から使われていました。当初は音声の認識率が低く、運転中の車内という音響環境の悪さも手伝って、ご認識が多かったようです。

音声認識技術を使って語学のトレーニングを行うことにはIBMなどが昔から取り組んでいて、日本でもベネッセなどが実用化していました。
学習者がパソコンのマイクに向かって外国語を話すと、音声認識が発音の正確さを判定してくれるというものです。
けれども、多くの場合、発音が下手だと正しく認識されず、「NG」判定されるだけでした。もともと母国語にない発音は、聞いても区別できないそうです。日本人の英語学習の場合の「l」と「r」や、「h」と「f」、「s」と「th」などが身近な例です。耳で聞いて区別できないので、区別して発音することも苦手で当然ということのようです。

昨今のAIの進展で、「下手な」発音も発話者の意図を汲んで理解してくれる音声認識技術が登場してきています。
これであれば、「NG」判定によって学習が先に進まないということはなさそうです。

音声認識は忙しい現場でも活用されます。医師がカルテを入力する場合や、薬剤師が処方箋情報を入力する場合に、音声認識が広く使われています。

最近では、厨房での料理人による情報入力にも音声認識が使えないか試されているようです。自動車の運転同様に、料理人たちは両手が塞がっているし、もし、タッチパネルなどを触って作業指示などの情報を入力するとなると衛生面に課題が生じます。

手で操作できないシーンはたくさんあります。工事現場、イベント会場、歩行中、運動中などなど。
効率化だけでなく、安全性を向上させるためにも、両手や視線の注意を向けることなくシステムとインタラクションすることには大きなメリットがあります。

「アリババと40人の盗賊」では、盗賊が隠した岩穴の戸は「開けゴマ」という呪文で開きます。まるで現代の声紋認証のようですね。

＜参考情報＞