【第1回】簡単に実践：Whisperを用いた音声認識 - Pythonによるデータ分析・機械学習ブログ

はじめに

　近年、AI技術の発展に伴って多くの技術が開発および実装・活用されています。その技術の一つに音声認識があります。音声認識とは、人間の発話を記録した音声データに対して、コンピューターが音と文字とをパターンマッチングし、テキストに変換する技術をいいます。（AI技術の進化に伴う音声認識とは？システムの仕組みや音声認識技術の活用事例、メリットを解説）この音声認識技術を用いることで、議事録や書類といった書き物の自動入力や人間の声に対して音声認識で意味を理解してロボットが行動するなどの活用が可能となります。この音声認識技術の社会実装がますます加速することが予想されますので、その技術について触れておくこと、簡単に理解していくことが重要となっていきます。

　2022年9月に高性能な音声認識技術であるWhisperが発表されています。なんとこのWhisperは日本語でも音声認識が可能で、簡単に実践することができます。

　本記事では、Whisperを用いた音声認識の方法をGoogle Colaboratoryを用いて紹介し、簡単にWhisperの実践を行ってみます。