• 公開日:2020年06月02日
  • | 更新日:2022年10月14日
音声認識

音声認識でハンズフリー操作。ボイストリガー機能のメリットとは?

近年、スマートスピーカーのように、話しかけるだけで機器を操作できる音声認識システムに企業の注目が集まり、導入を検討する技術者が増えています。一連の音声認識システムを正常に動作させるために不可欠なのが、音声認識処理の入り口にあたるボイストリガーです。しかし、ボイストリガーという言葉は聞いたことがあっても、その具体的な機能は何なのか、導入することでどのようなメリットが得られるのかは、よくわからないと感じている人も多いようです。
そこで今回は、音声認識システムに欠かせないボイストリガーについて、知っておきたい基本とメリット、実現の課題を紹介します。

ボイストリガーとは?知っておきたい基本を紹介

そもそもボイストリガーとはどのようなものでしょうか。

前回の記事で、音声認識システムは「音声前処理」「ボイストリガー」「自然対話認識」「音声合成」というプロセスに分けられることを紹介しました。この中でボイストリガーは、入力された音声データを捕捉し、データ内にあらかじめ設定した“キーワード”があった場合にコマンドを実行して、一連のアクションを発生させる機能です。コマンド実行のきっかけとなる特定の単語・短文を「トリガーワード」と呼びます。

自然発話認識では非常に高い処理能力を必要とするため、一般的にクラウドを使ったサービスが選ばれます。一方、ボイストリガーは自然発話認識ほどの高度な処理を必要としないため、ボイストリガーのみを実装する場合には、クラウドを使用することなく、トリガーワードからの判断・処理を行わせることができます。

複数のトリガーワードを設定することで、様々な命令を実行させることが可能です。

また、ボイストリガーと自然発話認識の両方を活用し、トリガーワードを検出した後に自然発話認識機能に移行することで、対話機能も実現できます。

ボイストリガーの活用により、音声認識を開始するためのトークスイッチが不要となり、様々な機器のハンズフリー操作が実現できるのです。

 

図.1 トリガーワードによる命令

図.1 トリガーワードによる命令図.2 ボイストリガー

図.2 会話でのボイストリガー対応

ボイストリガーのメリットとは?幅広いシーンでの活用に期待

ボイストリガーの導入によって得られるメリットとして、主に次の3点が挙げられます。

(1)人間にとって自然な感覚で操作できる

トリガーワードを言うだけで操作できるため、ボタンやタッチパネルよりも、人間にとって自然な感覚で操作できます。デジタル機器の扱いに不慣れなユーザでも、抵抗感が生じません。

(2)作業を中断せずにハンズフリーで使える

手を使わずに操作できるため、運転中、作業中など、手がふさがっている場面や、汚れている場面でも、作業を中断することなく機器を利用できます。利便性はもちろんのこと、作業の効率化にもつながります。

(3)複雑化した操作用デバイスを脱却できる

新しい機能を追加したくても「操作用デバイスにこれ以上ボタンを増やせない」「操作が複雑化してわかりづらくなる」など、物理的に困難なケースがあります。ボイストリガーの活用により、高度な機能も音声でシンプルに操作できます。

こうしたメリットから、ボイストリガーは、業務用設備や医療用機械、家庭用電子機器など、幅広いシーンでの活用に期待が寄せられています。

ボイストリガーの導入における課題とは?開発に着手する前の検討が重要

一方で、ボイストリガーの実装には次のような課題があります。

(1)ボイストリガー自体の専門的な知識が必要で、自作は難しい

ボイストリガーはネットワークに接続することなく、マイコン・プロセッサに対するソフトウェアで実現できますが、音声データからトリガーワードを解析するためには基本的に独自の技術が使われており、アルゴリズムは公開されていないことが多いため、自作することはかなり困難でしょう。

(2)ボイストリガーの技術によっては、多数の音声データサンプルが必要になる

ボイストリガーを実現するためには、同じトリガーワードで様々な人の音声サンプルを使用し、学習させながら実現する方法も採用されることがあります。その場合、独自の音声サンプルを用意する時間とコストが必要になります。独自のトリガーワードを作ることも多く、その際は既存の音声データを活用できず、いちからサンプルを用意しなければいけません。

(3)ユーザ像が多岐にわたり、音声認識の難易度が高い

同じ単語でも、話し手の年齢や性別、方言などによって、コンピュータには大きな差異のある音声として認識されます。そのため、想定されるユーザの年齢層や性別などによって音声認識エンジンの調整が必要になります。ユーザ像が多岐にわたる製品では、ターゲットを定めにくいため、音声認識の難易度が高まります。

上に挙げたような課題は、開発に着手する前に詳しい検討が必要です。もし事前の検討が不十分なまま導入に踏み切ると、開発段階で多くの課題に直面し、製品化の中断や、結果的に使い勝手の悪い製品になるといった事態を招くからです。

いかがでしたでしょうか。
今回は、音声認識処理の中で、コマンド実行のきっかけとなるボイストリガーについて紹介しました。
ボイストリガーの導入についてさらに詳しく知りたい方は、近日公開予定の次記事「デモを公開!音声認識を実現するマクニカとグレープシステム社のソリューションとは」もぜひご一読ください。
お問い合わせはこちらから!