人はなぜ初対面の人の言葉が分かるのでしょうか? そして、1歳半前後の幼児でも、言葉の意味は別として、人の言葉をちゃんと聞き分けます。なぜなのでしょうか? 人間のこの不思議ですばらしい能力に驚嘆させられると同時に、音声による情報伝達のしくみに強い興味が湧いてまいります。
そこで、この疑問に挑戦すべく、独自の仮説を打ち立ててみました。それは「音声を構成する全ての音素が特定の周波数スペクトルで表現される」というものです。この仮説が正しければ、周波数スペクトルを用いて1音節毎に音素を求め、それらをつなぎ合わせることで、音声認識が行えることになります。音声認識環境に影響を受けにくい、ロバスト性の高い音声認識法を目指して、母音と子音それぞれについて検証してみました。
結論としては、 音声データを分析して得られた周波数スペクトルを元に、分析区間内での各周波数成分の含有比率(以後、振幅比率と呼びます)を求めて検討した結果、仮説通り特定の周波数スペクトルが、一定の強度割合以上に存在するかどうかで母音や子音が表現できることが分かりました。
私たちは日常、会話をすることにより何気なく他人との意志の疎通をはかっていますが、この音声の中に、人にしか分からない母音や子音の特徴が散りばめられていて、その暗号を互いにキャッチボールしているのだと思うと、なんだか不思議な気持になります。
それにしても「ち」や「つ」などの複雑な音声を、いとも簡単に作り出す人間の能力には驚かされてしまいます。
幼児が、ママやパパといった言葉を最初に発するというのも、それなりの理由があったということが分かった気がします。
また、ガ行やバ(b)行、ダ行などの濁音についても、人類は実にうまい方法で濁音を作り出したものだと感心するばかりです。
人の脳には、おそらく生まれつき何種類もの周波数分析器が備わっていて、生まれ落ちてから物心がつくまで毎日毎日、何千回何万回も聞かされたいろいろな人の言葉のスペクトルパターンが、しっかりと刻み込まれているのでしょうか。そして未知音声のスペクトルパターンと、脳に蓄積されたスペクトルパターンが瞬時に照合されて言葉が認識されるのでしょうか。人が発している言葉は、短いものだと0.0何秒位ですから、如何に認識速度が速いかが分かります。筆者の経験では、手術後の意識があまりはっきりしていない状態でも、人間は人の声、特に身内の人の声には敏感に反応します。おそらく体に染みついた母国語の強靱さは想像以上のものがあるのでしょうか。
私見ですが、将来的には、音声を補聴器で一旦認識した後、特徴周波数を強調した音声波を耳に送ることで、聞き易い補聴器への改良等、聴覚分野での応用が期待できるのではないかと考えます。
このホームページは、以下の内容で構成されています。
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
このWebサイトについてのご意見、ご感想は、 でお送りください。
本ホームページで入手された情報は、出典を明記の上、ご利用ください。