スターウォーズ全編を7分で文字起こし！Groqの超高速APIで「Whisper v3」を無料で使う方法

ありえないほど安く、ありえないほど速い、まさに革命的な「Whisper」のクラウドサービスが登場した。

CPUでもGPUでもない、AIに特化した超高速チップ「LPU」を開発するスタートアップ企業「Groq」が提供するWhisperのAPIサービスだ。

なんと、OpenAI公式のWhisper APIと比べても、料金が12倍安い上に、スピードも6倍以上高速化しており、とんでもない衝撃だ。

音声をテキスト化するSpeech-to-Textモデルの世界に、圧倒的な高速化と価格破壊が、同時にもたらされてしまったのだ。

しかも、現在はGroqの提供するAPIサービスを無料で利用することができる。

本記事では、Groq CloudのWhisper APIの凄さと、誰でも簡単に無料で使う方法を紹介する。

そもそも音声認識AIの「Whisper」モデルとは？

英語でも日本語でも、会議や講演会の音声ファイルを、非常に高い精度で文字起こししてくれるAIモデル「Whisper」。

ChatGPTで知られるOpenAIが開発したSpeech-to-Textモデルで、OpenAIのAPIサービスでは、音声1時間あたり0.36ドル（＝約55円）で提供されている。

このWhisperモデルは、オープンソースで公開されているため、Microsoft AzureやReplicateなど、他のクラウド企業も、Whisperによる文字起こしサービスを提供している。

Groq社は、AIモデルに特化したチップのLPUを使ったクラウドサービス「Groq Cloud」を提供しており、これまで、Metaの開発するオープンソースLLM「Llama 3」でも、圧倒的なスピードで世間を驚かせてきた。

この「Groq Cloud」のLPU上で動作するWhisperが、ほとんどすべての競合サービスのスピードを超えてしまうほどの性能を有しているのだ。

GroqのWhisper APIと他社サービスの比較

LLMや音声認識モデルなど、様々なAIサービスのベンチマーク結果を掲載しているサイトである「Artificial Analysis」で、Whisperのプロバイダーのパフォーマンスを比較したランキングを見ることができる。

記事執筆現在（2024年7月）、Groqはぶっちぎりのトップに君臨しており、1秒間で212秒もの音声を文字起こしできる脅威の「212倍速」のスピードを誇る。

しかも、1000分間（＝16時間超）の音声を文字起こししても、わずか0.5ドル（＝約77円）という、バグのような価格設定になっている。

プロバイダ	モデル	1秒あたりの音声処理	1000分あたりの料金
Groq	Whisper, v3, Large	212秒	$0.5
Fal	Wizper (カスタム)	206秒	$0.5
Fal	Whisper, v3, Large	98秒	$1.1
Replicate	WhisperX (カスタム)	63秒	$1.1
Replicate	Whisper, v3, Large	44秒	$1.5
Microsoft	Whisper, v2, Large	37秒	$6
OpenAI	Whisper, v2, Large	36秒	$6

Whisperモデルプロバイダの速度ランキング（2024年7月23日時点）

ちなみに、全てのスターウォーズの映画シリーズを合計すると25時間になる。

Artificial AnalysisがXでポストしているが、GroqのWhisper APIを使えば、スターウォーズ全編をたったの7分で文字起こしでき、しかも0.75ドルしか掛からないということだ。

GroqのWhisper APIを無料で簡単に使う方法

APIといっても、プログラミングの知識がなくても、誰でも簡単に使えるので安心して欲しい。

Groq CloudのAPIサービスは、将来的には上記のような格安の従量課金制で提供される予定だが、記事執筆現在（2024年7月）はまだ有料プランがリリースされておらず、「Free」プランのみが存在する。

「Free」プランでは、なんとWhisper APIを含めて、Groq Cloudを無料で使用することができる。

一定の使用量の制限（Rate Limit）はあるようだが、筆者程度の使用頻度では、まだ止められたことがない。

Groq Cloudのトップページにアクセスして、メールアドレスを登録するだけで、すぐにGroq CloudのAPIを試すことができる。

会員登録が完了すると、「Playground」というブラウザ上でGroqが提供するAIモデルをテストできるインターフェースが表示される。

このインターフェース上では、自分でコードを書かずとも、分かりやすい画面で、Whisper APIを実際に使ってみることができる。

画面右側の「Model」プルダウンメニューで「whisper-large-v3」を選択し、「Start Recording」でPCのマイクで録音を開始するか、「Select File」で既存の音声ファイルをアップロードする。

「Language」プルダウンメニューで、日本語などの言語を予め指定しておけば、文字起こしの精度が改善される。

音声ファイルのサイズには、25MBまでの制限がある。また、ファイル形式も豊富に対応されており、flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webmに対応している。

実際に、20分間のmp3ファイルをアップロードして「Submit」ボタンをクリックしてみると、10秒程度のすごいスピードで、瞬時にテキストが表示された。

書き起こされたテキストは、「Segments」タブでタイムスタンプ付きのテキスト、「Text」タブでプレーンテキストを確認することができる。

会議の議事録を文字起こししたり、動画のテロップ付けのために動画音声をテキスト化したり、さまざまな活用方法がありそうだ。

しかも、無料かつスピードも爆速なので、こんなに実用的なサービスはない。

Whisper APIの速度リアル比較：Groq vs OpenAI

前掲の表の通り、OpenAIのAPIサービスは、現在でもWhisperの旧バージョンであるv2を使っており、速度も遅く、料金も高い。

プロバイダ	モデル	1秒あたりの音声処理	1000分あたりの料金
Groq	Whisper, v3, Large	212秒	$0.5
OpenAI	Whisper, v2, Large	36秒	$6

Artificial Analysisのベンチマーク（再掲）

最新のWhisperのv3を実装し、それでいてOpenAIの約6倍の速度、12分の1の価格を実現しているGroqのAPIを使わない理由がない。

Whisperモデルの音声認識を活用したいならば、OpenAI公式APIより、絶対にGroqを使うべきだ。

とはいえ、実際に試してみないと、本当にこれだけの差があるのかは分からない。

OpenAIとGroqのWhisper APIの文字起こし速度を測定するPythonスクリプトを用意して、実際にAPI経由で両サービスを使った場合の速度を比較してみた。

速度の検証に使ったPythonスクリプト

以下が筆者が用意した、レスポンスのスピードを測定するためのコードだ。

mp3ファイルを指定して、APIリクエストを出してから、文字起こしのレスポンスを得るのにかかった時間を計測し、秒数と文字起こし結果のテキストを表示するようにしている。

こちらはOpenAIのWhisper APIを使用したバージョンである（APIキーは環境変数）。

import time
from openai import OpenAI
import os

def transcribe_audio(audio_path):
    client = OpenAI()
    transcription = ""
    if audio_path:
        try:
            with open(audio_path, "rb") as audio_file:
                start_time = time.time()
                transcription = client.audio.transcriptions.create(
                    model="whisper-1", 
                    file=audio_file, 
                    response_format="text"
                )
                end_time = time.time()
                elapsed_time = end_time - start_time
                print(f"Transcription time: {elapsed_time:.2f} seconds")
        except Exception as e:
            print(f"Failed to process audio file: {e}")
    else:
        print("No audio file provided for transcription.")
    return transcription

def main():
    filename = input("MP3ファイル名を入力してください (例: example.mp3): ")
    audio_path = os.path.join(os.getcwd(), filename)
    
    if filename.endswith(".mp3") and os.path.isfile(audio_path):
        transcription = transcribe_audio(audio_path)
        
        if transcription:
            print("Transcription result:")
            print(transcription)
        else:
            print("No transcription available.")
    else:
        print("エラー: 有効な.mp3ファイルを指定してください。")

if __name__ == "__main__":
    main()

Groqが提供するAPIは、OpenAIのAPIと互換性があり、ほとんどコードを変えることなく使用できるのでありがたい。

上記のコードについて、from groq import Groqした上で、client = Groq()と書き換え、モデルをmodel="whisper-large-v3"とするだけで良い。