【第2回】簡単に実践：Speech Recgnitionを用いた音声認識 - Pythonによるデータ分析・機械学習ブログ

本記事では、Speech Recgnitionを用いた音声認識について紹介します。特に、「音声データ（.wav）から音声認識を行う方法」と「マイクからの音声データから音声認識を行う方法」を紹介します。

リンク

Speech RecgnitionのGithub リポジトリは下記です。exampleフォルダにサンプルコードが格納されています。

それでは環境構築をしていきます。本記事ではWindows 11でpython3.8の環境で構築を進めていきます。仮想環境venvを起動して環境構築をします。pip installでは、マイクからの音声取得のためにpyaudioのインストールを行います。

まずは、音声データ（.wav）を用いて音声認識を実施します。音声データサンプルは下記ページの「CM原稿（せっけん）」を使用させていただきました。

こちらのmp3ファイルをwavファイルに変換して用います。下記のコードが音声データから音声認識を実施するコードです。

上記を実行すると「無添加のシャボン玉石けんならもう安心天然の保湿成分が含まれるため肌に潤いを与え健やかに保ちますお肌のことでお悩みの方は是非一度無添加シャボン玉石けんをお試しくださいお求めは 0120-0055-950」の文字列を取得することができました。

次に、マイクからの音声で音声認識を行います。下記のコードを実行して、「Listening Start!」と表示されたらPCのマイクに向かって声を発してください。「Listening End!」と表示されるまでの音声で音声認識されます。

今回は「こんにちは　よろしくお願いします。」と声を発してみました。その結果が以下です。ひとまず音声認識できているのが確認できました。

リンク

本記事では、Speech Recgnitionを用いた音声認識について紹介しました。今回は音声データやマイクの音声から音声認識する方法を確認しました。これからますます進歩する技術と思いますので、リアルタイムに音声認識できることを期待しましょう！