ありえないほど安く、ありえないほど速い、まさに革命的な「Whisper」のクラウドサービスが登場した。
CPUでもGPUでもない、AIに特化した超高速チップ「LPU」を開発するスタートアップ企業「Groq」が提供するWhisperのAPIサービスだ。
なんと、OpenAI公式のWhisper APIと比べても、料金が12倍安い上に、スピードも6倍以上高速化しており、とんでもない衝撃だ。
音声をテキスト化するSpeech-to-Textモデルの世界に、圧倒的な高速化と価格破壊が、同時にもたらされてしまったのだ。
しかも、現在はGroqの提供するAPIサービスを無料で利用することができる。
本記事では、Groq CloudのWhisper APIの凄さと、誰でも簡単に無料で使う方法を紹介する。
そもそも音声認識AIの「Whisper」モデルとは?
英語でも日本語でも、会議や講演会の音声ファイルを、非常に高い精度で文字起こししてくれるAIモデル「Whisper」。
ChatGPTで知られるOpenAIが開発したSpeech-to-Textモデルで、OpenAIのAPIサービスでは、音声1時間あたり0.36ドル(=約55円)で提供されている。
このWhisperモデルは、オープンソースで公開されているため、Microsoft AzureやReplicateなど、他のクラウド企業も、Whisperによる文字起こしサービスを提供している。
Groq社は、AIモデルに特化したチップのLPUを使ったクラウドサービス「Groq Cloud」を提供しており、これまで、Metaの開発するオープンソースLLM「Llama 3」でも、圧倒的なスピードで世間を驚かせてきた。
この「Groq Cloud」のLPU上で動作するWhisperが、ほとんどすべての競合サービスのスピードを超えてしまうほどの性能を有しているのだ。
GroqのWhisper APIと他社サービスの比較
LLMや音声認識モデルなど、様々なAIサービスのベンチマーク結果を掲載しているサイトである「Artificial Analysis」で、Whisperのプロバイダーのパフォーマンスを比較したランキングを見ることができる。
記事執筆現在(2024年7月)、Groqはぶっちぎりのトップに君臨しており、1秒間で212秒もの音声を文字起こしできる脅威の「212倍速」のスピードを誇る。
しかも、1000分間(=16時間超)の音声を文字起こししても、わずか0.5ドル(=約77円)という、バグのような価格設定になっている。
プロバイダ | モデル | 1秒あたりの音声処理 | 1000分あたりの料金 |
---|---|---|---|
Groq | Whisper, v3, Large | 212秒 | $0.5 |
Fal | Wizper (カスタム) | 206秒 | $0.5 |
Fal | Whisper, v3, Large | 98秒 | $1.1 |
Replicate | WhisperX (カスタム) | 63秒 | $1.1 |
Replicate | Whisper, v3, Large | 44秒 | $1.5 |
Microsoft | Whisper, v2, Large | 37秒 | $6 |
OpenAI | Whisper, v2, Large | 36秒 | $6 |
ちなみに、全てのスターウォーズの映画シリーズを合計すると25時間になる。
Artificial AnalysisがXでポストしているが、GroqのWhisper APIを使えば、スターウォーズ全編をたったの7分で文字起こしでき、しかも0.75ドルしか掛からないということだ。
GroqのWhisper APIを無料で簡単に使う方法
APIといっても、プログラミングの知識がなくても、誰でも簡単に使えるので安心して欲しい。
Groq CloudのAPIサービスは、将来的には上記のような格安の従量課金制で提供される予定だが、記事執筆現在(2024年7月)はまだ有料プランがリリースされておらず、「Free」プランのみが存在する。
「Free」プランでは、なんとWhisper APIを含めて、Groq Cloudを無料で使用することができる。
一定の使用量の制限(Rate Limit)はあるようだが、筆者程度の使用頻度では、まだ止められたことがない。
Groq Cloudのトップページにアクセスして、メールアドレスを登録するだけで、すぐにGroq CloudのAPIを試すことができる。
会員登録が完了すると、「Playground」というブラウザ上でGroqが提供するAIモデルをテストできるインターフェースが表示される。
このインターフェース上では、自分でコードを書かずとも、分かりやすい画面で、Whisper APIを実際に使ってみることができる。
画面右側の「Model」プルダウンメニューで「whisper-large-v3」を選択し、「Start Recording」でPCのマイクで録音を開始するか、「Select File」で既存の音声ファイルをアップロードする。
「Language」プルダウンメニューで、日本語などの言語を予め指定しておけば、文字起こしの精度が改善される。
音声ファイルのサイズには、25MBまでの制限がある。また、ファイル形式も豊富に対応されており、flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webmに対応している。
実際に、20分間のmp3ファイルをアップロードして「Submit」ボタンをクリックしてみると、10秒程度のすごいスピードで、瞬時にテキストが表示された。
書き起こされたテキストは、「Segments」タブでタイムスタンプ付きのテキスト、「Text」タブでプレーンテキストを確認することができる。
会議の議事録を文字起こししたり、動画のテロップ付けのために動画音声をテキスト化したり、さまざまな活用方法がありそうだ。
しかも、無料かつスピードも爆速なので、こんなに実用的なサービスはない。
Whisper APIの速度リアル比較:Groq vs OpenAI
前掲の表の通り、OpenAIのAPIサービスは、現在でもWhisperの旧バージョンであるv2を使っており、速度も遅く、料金も高い。
プロバイダ | モデル | 1秒あたりの音声処理 | 1000分あたりの料金 |
---|---|---|---|
Groq | Whisper, v3, Large | 212秒 | $0.5 |
OpenAI | Whisper, v2, Large | 36秒 | $6 |
最新のWhisperのv3を実装し、それでいてOpenAIの約6倍の速度、12分の1の価格を実現しているGroqのAPIを使わない理由がない。
Whisperモデルの音声認識を活用したいならば、OpenAI公式APIより、絶対にGroqを使うべきだ。
とはいえ、実際に試してみないと、本当にこれだけの差があるのかは分からない。
OpenAIとGroqのWhisper APIの文字起こし速度を測定するPythonスクリプトを用意して、実際にAPI経由で両サービスを使った場合の速度を比較してみた。
速度の検証に使ったPythonスクリプト
以下が筆者が用意した、レスポンスのスピードを測定するためのコードだ。
mp3ファイルを指定して、APIリクエストを出してから、文字起こしのレスポンスを得るのにかかった時間を計測し、秒数と文字起こし結果のテキストを表示するようにしている。
こちらはOpenAIのWhisper APIを使用したバージョンである(APIキーは環境変数)。
import time
from openai import OpenAI
import os
def transcribe_audio(audio_path):
client = OpenAI()
transcription = ""
if audio_path:
try:
with open(audio_path, "rb") as audio_file:
start_time = time.time()
transcription = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
response_format="text"
)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Transcription time: {elapsed_time:.2f} seconds")
except Exception as e:
print(f"Failed to process audio file: {e}")
else:
print("No audio file provided for transcription.")
return transcription
def main():
filename = input("MP3ファイル名を入力してください (例: example.mp3): ")
audio_path = os.path.join(os.getcwd(), filename)
if filename.endswith(".mp3") and os.path.isfile(audio_path):
transcription = transcribe_audio(audio_path)
if transcription:
print("Transcription result:")
print(transcription)
else:
print("No transcription available.")
else:
print("エラー: 有効な.mp3ファイルを指定してください。")
if __name__ == "__main__":
main()
Groqが提供するAPIは、OpenAIのAPIと互換性があり、ほとんどコードを変えることなく使用できるのでありがたい。
上記のコードについて、from groq import Groq
した上で、client = Groq()
と書き換え、モデルをmodel="whisper-large-v3"
とするだけで良い。
速度の検証に使ったサンプル音声
検証のため、それなりの長さの適当な音声が必要になる。
今回は、3人が英語で会話をしている約21分間の音声を用意した。
米国の著名な起業家であるポール・グレアム氏が出演するインタビュー番組から、音声だけを拝借してきたものである。
文字起こしスピードの比較
文字起こしされたテキストの中身は、若干Whisper v3を用いているGroqの方が、複数人が同時に喋っている場面など難易度の高いシーンの精度が高い印象がある。
とはいえ、おおむね両者とも似たクオリティの文字起こし結果が得られた。
ただ、そのスピードが全く異なる。
21分間のサンプル音声のテキストが、APIからレスポンスとして帰って来るまでにかかった時間は、以下の通りだ。
- Groq Cloud : 11.83秒
- OpenAI API : 59.40秒
GroqのWhisper APIは、OpenAIの5.02倍の速度で文字起こしが完了している。
これは、前掲のArtificial Analysisのベンチマーク結果(GroqはOpenAIの5.88倍)とも一致する結果である。
サーバーへの音声ファイルのアップロード時間が含まれるため、純粋なWhisperの処理能力のみの厳密な比較ではないものの、ベンチマークは机上の空論ではなく、現実の生活で使用する場合でも、スペック通りの超絶スピードが体感できることがわかった。
爆速・激安のWhisper APIが拡げる応用可能性
以上で紹介した通り、Groq Cloudで提供されているWhisper APIは、「212倍速」という脅威的なスピードで音声ファイルをテキスト化することができ、しかも、16時間超の音声をテキスト化しても、わずか0.5ドル(=約77円)しか掛からないという、とんでもないサービスだ。
幸いなことに、現在は、Groq CloudのFreeプランを使用すれば、Whisper APIを無料で利用できる。
プログラミングの知識がない人であっても、Groq Cloudがブラウザ上で提供しているお試し機能(Playground)を使用することで、直感的なインターフェースで、ファイルをアップロードして簡単に文字起こしができる。
1時間程度の音声ならサクッと無料でテキスト化することができるので、議事録を作る際や、動画にテロップ入れをする際など、日常生活でも活用の場がありそうだ。
また、さらに高度な応用を考えることもできる。
例えば、当サイトで過去に紹介している通り、MacやiPhoneの「ショートカット」アプリで、WhisperとGPT-4oを組み合わせると、いつでもどこでもワンタップで呼び出せる超正確な音声入力を実現することができる。
このショートカットで、GroqのWhisper APIを組み込み、GPT-4o miniなどの高速なLLMと組み合わせると、正確さを保ちつつ、さらに高速な音声入力が可能になる。
もちろん、GPT-4oによる誤字脱字の微修正が不要なら、GroqのWhisper API単体で、爆速の音声入力ショートカットを実現することもできる。
本記事も参考に、GroqのWhisper APIのスピードを、ぜひ体験してみてほしい。