Pythonによるデータ分析・機械学習ブログ

Pythonによるデータの前処理・グラフ化、機械学習、統計解析、画像処理、Webスクレイピング、自然言語処理の基礎について紹介していきます。

MENU

【第1回】簡単に実践:Whisperを用いた音声認識

はじめに

 近年、AI技術の発展に伴って多くの技術が開発および実装・活用されています。その技術の一つに音声認識があります。音声認識とは、人間の発話を記録した音声データに対して、コンピューターが音と文字とをパターンマッチングし、テキストに変換する技術をいいます。(AI技術の進化に伴う音声認識とは?システムの仕組みや音声認識技術の活用事例、メリットを解説)この音声認識技術を用いることで、議事録や書類といった書き物の自動入力や人間の声に対して音声認識で意味を理解してロボットが行動するなどの活用が可能となります。この音声認識技術の社会実装がますます加速することが予想されますので、その技術について触れておくこと、簡単に理解していくことが重要となっていきます。

 2022年9月に高性能な音声認識技術であるWhisperが発表されています。なんとこのWhisperは日本語でも音声認識が可能で、簡単に実践することができます。

 本記事では、Whisperを用いた音声認識の方法をGoogle Colaboratoryを用いて紹介し、簡単にWhisperの実践を行ってみます。

SAMURAI TERAKOYA

 

1. Whisper

whisperのオープンソースは以下になります。

github.com

上記のリンクから詳細が見れますが、日本語の音声認識における単語誤り率は5.3%となっています。かなりいいのではないでしょうか!

 

2. Google Colaboratoryを用いたWhisperによる音声認識

Google Colaboratoryを用いたWhisperによる音声認識の方法を紹介します。

精度に関わる部分として採用するモデルが重要になります。下図のようなモデルが提供されていますが、容量に余裕があるならば「large」モデルを選択すると良いと思います。

さらに、今回使用する音声は以下のサンプル音声(G-01 CM原稿(せっけん))を採用させていただきました。

pro-video.jp

それではGoogle Colaboratoryでの音声認識の内容を以下に記載します。最後の4行で音声認識を実行することができました。しかもかなり精度よく音声認識できました。

 

SAMURAI TERAKOYA

 

おわりに

本記事では、Whisperを用いた音声認識の方法をGoogle Colaboratoryを用いて紹介しました。これからの時代は音声認識技術の活用がますます加速することが予想されますので、ぜひその技術に触れていきましょう!