DNNとは?ポイントが理解できる5つのステップ
~DNNを搭載した補聴器のメリットとは?~
オーティコンは、聞こえに悩む人々の生活を変えるべく力を尽くしています。その実現に、最先端技術の開発と活用は欠くことができない要素です。オーティコンの新世代補聴器「オーティコン・モア」に高度な人工知能のひとつ「DNN(ディープ・ニューラル・ネットワーク)」を採用したのはまさにその理由です。このような技術は、聴覚の分野では新しいものです。DNNとはどのようなもので、聞き取りにどのように役立つものなのでしょうか?
複雑に聞こえますが、ご説明していきましょう
DNN(ディープ・ニューラル・ネットワーク)という言葉を初めて聞くという方も、実は知らず知らずにその技術を使っているかもしれません。言語翻訳や画像検索ツールといった比較的身近なものから、医療の分野では、米国UCLA(米国カリフォルニア大学ロサンゼルス校)にてDNNを用いてがん細胞と非がん細胞との区別を学ばせ開発された、がん細胞を検出する医療診断*1など非常に幅広い分野で利用されています。そして現在、オーティコン補聴器の信号処理にも利用されています。実際DNNはどのように機能するのでしょうか。
自ら特徴を見つけ出す学習を重ねていく
DNN(ディープニューラルネットワーク)とは、人が自然に行う様々なタスクを、コンピュータを使い、さまざまな経験から反復と失敗を重ね学習していく人の脳の学習方法を模倣していく機械学習(深層学習)の一種です。
DNNが登場する以前は、例えばコンピュータに画像を認識させ、それぞれの違いを識別させるためには、対象となる画像が「犬」であれば「耳の形」や「鼻の色」「目の位置」などに着目し、犬とはどのようなものか人間が明確なルールを設定する必要がありました。
これに対してDNNの一般的な考え方は、『犬とは黒い鼻とふさふさした耳を持っている生物だ』というようなかっちりとしたルールを人がコンピュータに示す代わりに、例えば1,000枚の異なる犬の写真をサンプルとして、コンピュータの中でDNNを訓練していきます。DNNは人の脳と同じように訓練と失敗を繰り返しながら、時にはたくさんのサンプルの中から人には気づかないような特徴を見つけ出し、自ら「犬」について学んでいきます。
実際DNNのニューラルネットワークとは、脳の神経回路の一部であるニューロンのつながりを模倣した構造を持っており、より高度な推論を可能としています。学習のプロセスは、赤ちゃんの脳が様々なものの名前や音の意味を覚え成長していく過程に似ています。
ここからDNNの学習の仕組みを5つのステップとともに見ていきましょう
- まずコンピュータに、画像や音などの情報を入力します。例えば、トランペットの音をインプットするとしましょう。私や皆様と違いコンピュータは、それが何であるかは知りません。
- コンピュータは、受け取った音を(コンピュータ内の)DNNに通します。学習中のDNNはその音を分析し、例えば音が高い、低いなど音が持つ特徴についての情報を整理していきす。
- 学習プロセスの最後に、DNNは集めた特徴からトランペットの音かどうかを推論して答えを出力します。
- DNNの学習に携わるエンジニアは、入力した音とDNNが導き出した答えとを比較して「正解」または「不正解」のフィードバックをコンピュータ―に戻します。
- DNNは受け取ったフィードバックを基に、どこを間違ったのかを学び直し、推論判断していく力を強化していきます。
この1~5のステップは、膨大な異なるトランペットの音を使い、何度も繰り返され、コンピュータが瞬時に「トランペットの音」について認識できるようになるまで繰り返されます。わたしたちの脳の学びと同じです。
なぜ補聴器にDNNが?
従来の補聴器は、数学的な理論的モデルや、人が厳密に定義したルールに基づいて、音声を強調したり周囲の騒音を低減したりしていました。しかし、これでは環境の変化に対応できないこともあります。補聴器は、音が持つニュアンスのすべてをキャッチできずにミスを犯してしまうことがありました。
オーティコンでは、この補聴器の音声信号処理について一から見直しDNNの採用を決めました。補聴器のためのDNNでは、実際の世界から集めた音の情景についての膨大なデータを基に、家族の集まりやレストラン、交通量の多い道路や公共交通機関など、1,200万もの実際の音のシーンについてそれぞれの音を識別し分析、整理、バランスをはかる方法を学ばせ、新たな補聴器「オーティコン モア」にこの学習済みのDNNを直接搭載しました。具体的に聞こえにおいてどんなメリットがあるのでしょうか。
DNNを搭載した補聴器のメリットとは?
私たちは周囲に興味をひかれる会話があれば耳を傾け、街頭などのがやがやした場所でも自分の名前を呼ばれれば反応できる一方、関心のない音は無視することもできます。実際、これを可能にしているのは脳の働きです。
最近の研究でこの脳本来の働きを活かすには、脳はありとあらゆる音の情景を必要としていることが分かりました*2。人が音を聞く時には、音の性質や方向に関係なく、脳の聴覚中枢では周囲にあるすべての音を常にスキャンし、周囲の音の情景を再現します。この再現ができることで、聞く音を選び、またその他の重要でない音や声は、背景に押しやることができます。
DNNのお話に戻りましょう。オーティコン モアのDNNは周囲の音環境やその変化を詳細に認識して、脳に理想的な聞こえを届けるためにはどう対処すべきかを学習済みです。
DNNを利用した補聴器では、脳が音の全体像にアクセスできることにより、賑やかなレストランなどでも例えば周りの人の会話についていきながらも、テーブルの上のお皿やフォークなどの音、後ろに立っているウェイターの声などもすべての音がバランスよく増幅され、より自然であるがままの情景を捉えることができます。
これは、DNNがより意味のある音情報を、バランスをはかりながら脳に届けるため、音がよりクリアになり、会話の声もより明瞭に捉えることができるからです。実際に、オーティコン・モアのDNNを使用した場合、脳内で音の全体像が60%鮮明になるという研究結果が出ています*3。
このように音の情報がクリアになることで、脳は大切な会話についていきながら、同時にその場の雰囲気を作り出すその他の音源に対してもオープンになり、負担になることなく聞くことができます。
高度な人工知能であるDNNのインテリジェンス機能を利用した新たな音声処理技術では、脳が最適に働くために必要な情報を届けることで脳の聞く働きをサポートします。聞こえの低下によって忘れていた音を再発見したり、賑やかな場所と静かな環境の双方で脳への負担を減らすことで、健康維持へと貢献することができます。
◇「オーティコン モア」についての詳細はこちらから
参考
*1 Bahram Jalali, Claire Lifan Chen, and Ata Mahjoubfar, University of California, Los Angeles (UCLA)
www.mathworks.com/company/newsletters/articles/cancer-diagnostics-with-deep-learning-and-photonic-time-stretch.html (英文)
*2 O’Sullivan et al. (2019); Puvvada & Simon (2017) オーティコン ブレインヒアリング パンフレット
*3 オーティコンホワイトペーパー「オーティコン モア クリニカルエビデンス 新しいブレインヒアリングの利点について」
【本件に関するお問い合わせ先】
オーティコン補聴器 (PR:藤原、プロダクトマネジメント:渋谷)
TEL:044-543-0615 FAX:044-543-0616 E-mail:info@oticon.co.jp