Pythonによるデータ分析・機械学習ブログ

Pythonによるデータの前処理・グラフ化、機械学習、統計解析、画像処理、Webスクレイピング、自然言語処理の基礎について紹介していきます。

MENU

【第2回】簡単に実践:Speech Recgnitionを用いた音声認識

はじめに

本記事では、Speech Recgnitionを用いた音声認識について紹介します。特に、「音声データ(.wav)から音声認識を行う方法」と「マイクからの音声データから音声認識を行う方法」を紹介します。

 

 

1. Speech RecgnitionのGithubリポジトリ

Speech RecgnitionのGithubリポジトリは下記です。exampleフォルダにサンプルコードが格納されています。

github.com

 

2. 動作環境の構築

それでは環境構築をしていきます。本記事ではWindows 11でpython3.8の環境で構築を進めていきます。仮想環境venvを起動して環境構築をします。pip installでは、マイクからの音声取得のためにpyaudioのインストールを行います。

 

3. 音声データ(.wav)から音声認識

まずは、音声データ(.wav)を用いて音声認識を実施します。音声データサンプルは下記ページの「CM原稿(せっけん)」を使用させていただきました。

pro-video.jp

こちらのmp3ファイルをwavファイルに変換して用います。下記のコードが音声データから音声認識を実施するコードです。

上記を実行すると「無添加シャボン玉石けん ならもう安心 天然の保湿成分が含まれるため 肌に潤いを与え 健やかに保ちます お肌のことでお悩みの方は是非一度無添加シャボン玉石けんをお試しください お求めは 0120-0055-950」の文字列を取得することができました。

 

4. マイクからの音声データから音声認識

次に、マイクからの音声で音声認識を行います。下記のコードを実行して、「Listening Start!」と表示されたらPCのマイクに向かって声を発してください。「Listening End!」と表示されるまでの音声で音声認識されます。

今回は「こんにちは よろしくお願いします。」と声を発してみました。その結果が以下です。ひとまず音声認識できているのが確認できました。

 

 

 

おわりに

本記事では、Speech Recgnitionを用いた音声認識について紹介しました。今回は音声データやマイクの音声から音声認識する方法を確認しました。これからますます進歩する技術と思いますので、リアルタイムに音声認識できることを期待しましょう!