音声認識AIがどんどん進化して、無料であっても、非常に正確に文字起こしができるツールが多数登場している。
議事録作成や音声ファイルの文字起こしを行うツールには、月額制の有料サービスも多い。しかし有料だと、個人で気軽に使ってみるには若干ハードルが高い。
本記事では、無料または激安で利用できるにも関わらず、非常に高い精度での音声や動画の文字起こしが可能なアプリやWebツールをまとめてみた。
議事録の作成や、動画やボイスメモのテキスト化など、仕事や日常で発生する文字起こし・書き起こしを、AIを使って自動化して、大幅な時短を実現しよう。
本記事で紹介するツールには、それぞれ長所や特徴があり、ニーズに合わせて使い分けることをオススメする。
登場するツールを、それぞれごく簡潔に整理すると、次のようになる。
ツール | 利点 | 欠点 |
---|---|---|
LINE CLOVA Note | ・スマホアプリで簡単に使える ・話者の識別ができ議事録に便利 ・字幕ファイル(.srt)も作れる | ・月間300分の利用制限 |
Incredibly-Fast-Whisper (Replicate) | ・かなり高速 ・話者の識別ができ議事録に便利 | ・わずかにお金がかかる (10分の音声で約2.4円) |
Gemini 1.5 Pro (Google AI Studio) | ・利用制限なし | ・使い方が分かりにくい |
Whisper (Google Colaboratory) | ・利用制限なし ・字幕ファイル(.srt)も作れる | ・かなり遅い |
以下では、上記の表の上から順番に、各ツールの使い方と、その特徴を解説していく。
- 無料のスマホアプリで分かりやすく、話者識別もできるLINE CLOVA Noteを使う方法
- 激安かつ話者識別もできるIncredibly-Fast-Whisperを、GPUクラウドサービスのReplicate上で使う方法
- 画面は分かりにくいが、無料で文字起こしができるGemini 1.5 ProをGoogle AI Studio上で使う方法
- 無料で非常に低速だが、YouTube用の字幕ファイルも出力できるWhisperの公開モデルをGoogle Colaboratory上で使う方法
筆者のおすすめは、LINE CLOVA Noteを中心に使いつつ、無料の月間300分を超えてしまった分は、Incredibly-Fast-Whisperで埋め合わせるという方法だ。
Incredibly-Fast-Whisperは、300分の音声を文字起こししても80円以下と激安(1ドル150円で推計)なので、かなり実用的な手段だと言える。
文字起こしするサンプル音声の用意
この記事では、以下の2種類の音声を用意して、それぞれのツールでの文字起こしを試していく。
- iPhoneのボイスメモアプリで録音した、男女2人が話している1分間の会話
- YouTubeに上がっている約10分の動画の音声
前者は、最近の画像生成AIの発展について、男女が話している日本語の音声だ。
後者は、YouTubeで適当に見つけてきた約10分のニュース動画(2023年のAmazonの配達員に関するニュース)から、音声ファイルを.mp3形式で抽出したものだ。
これらを使って、それぞれの音声文字起こしツールに読み込ませ、基本的なテキスト抽出のほか、話者の識別機能や、動画の字幕ファイルでのタイムスタンプの機能などを試していく。
1. LINE CLOVA Note:話者識別もできる議事録アプリ
LINE CLOVA Noteは、LINEが提供する音声文字起こしツールで、PCブラウザでも、iPhoneやAndroidスマートフォンアプリでも、無料で利用することができる。
zoomなどのWeb会議の音声をアップロードして文字起こししたり、iPhone / Androidアプリ内で録音した音声をそのままテキスト化したり、さまざまな使い方ができる。
1ヶ月間あたり300分のクレジットが付与されて、300分間の音声を無料で文字起こしすることができる。
(ベータ版の期間中は、スマホで録音を文字起こしするのは無制限で利用できるという。)
ブラウザ版にアクセスして、LINEのアカウントでログインして設定画面を開くと以下のような画面になる。残りの分数が閲覧できるほか、頻繁に使う単語を事前に登録しておくことで、書き起こしの精度を高めることなどもできる。
それでは、実際にiPhone版のCLOVA Noteのアプリを使って、1分間の会話と、10分間のニュースのサンプル音声を書き起こしさせてみる。
スマホアプリでは、アプリ内で録音を開始することもできるし、端末上に保存したmp3やm4aファイルを読み込ませることも可能である。
今回は、iPhoneのボイスメモアプリで録音したm4aファイルをiCloud Driveに保存した上で、それをLINE CLOVA Noteに読み込ませてみた。
文字起こしを開始する前に、どのような音声ファイルの種類かを選択する画面になる。複数人での日常会話なのか、個人メモのために一人で喋った音声なのかによって、何らかの最適化が背後で行われているのかもしれない。
サンプル音声の文字起こしにかかるスピードを測定してみたところ、1分間の会話の音声は、およそ10秒ちょっとで文字起こしされた。
10分間のニュースの音声も、20秒強ほどで文字起こしされて、処理スピードは非常に高速であると感じられる。
ニュース音声の文字起こし結果は以下の通りだ。高速な処理でありながら、かなり正確に聞き取れていることが分かる。
話者の識別についても正確に行われており、ニュースのアナウンサーと、インタビュー相手のセリフが、ちゃんと参加者1、参加者2と区別されて認識されている。
テキストをクリックすると、該当部分の音声を再生することもできるので、もし間違いがあっても、音声を聞き直して修正ができるので心強い。
一方、男女2人の1分間の画像生成AIに関する会話の文字起こし結果は以下の通りだ。話者の識別は正確に行われており、2人の発言の切れ目がちゃんと認識されている。
ただし、Stable Diffusion、Midjourneyなどの固有名詞が登場する部分の聞き取りは、うまくできていない。
多くの音声認識モデルでも同様のことが起きるが、通常の会話文や一般名詞の聞き取りには長けているが、サービス名や固有名詞には、あまり対応できないということだろう。
また、ニュース音声に比べ、会話音声では、その他の部分も結構聞き間違いが目立った。
例えば、「AIが・・・AIが作った画像って」という発言者のどもり・言い直しを、「映画AIが」と聞き間違えている箇所などだ。
おそらく、ニュース音声でのプロのアナウンサーによる発話は、そもそもハキハキして聞き取りやすいため精度が高いが、素人がゴニョゴニョ喋っていると、聞き取りのエラーも起きやすいのだろうと思われる。
文字起こしされたテキストは、プレーンテキストファイルのほか、Word、Excel、YouTube動画の字幕として使えるSRTファイルなど、さまざまな形式でダウンロードが可能だ。
参加者の識別や、タイムスタンプを含めるかどうかも選べるため、用途に応じて最適なテキスト形式で文字起こし結果を入手できる。
総合的な評価としては、これだけ高精度な文字起こしを、無料で誰でも簡単に使えるインターフェースで利用可能にしてくれているのは素晴らしい。
正確な文字起こしのためには、できるだけハキハキ喋る必要はあるが、仮に多少の聞き間違いがあったとしても、ゼロから議事録を作るよりは、圧倒的に作業が効率化できることだろう。
月間300分しか使えないため、1時間のMTGの文字起こしなどをすると、月に5回しか利用できないことに注意が必要だ。
LINE CLOVA Noteの利点
- LINEアカウントがあれば簡単に使える
- 複数人の会話でも、話者別に発言をまとめてくれるので、議事録作成時にかなり便利
- iPhoneボイスメモ→CLOVA Noteとスマホ内で作業が完結
LINE CLOVA Noteの欠点
- ハッキリ喋らないと聞き取りミスが目立つ
- 月間300分の利用枠がすぐに足りなくなる
2. Incredibly-Fast-Whisper:クラウドGPUで話者識別付き文字起こし
「Whisper」は、ChatGPTなどを開発しているOpenAIが、無料で公開している音声認識AIモデルである。
高性能なGPUが必要になるものの、GPUさえあれば、誰でも無料で利用できるオープンソースモデルだ。
NVIDIAのRTXシリーズなどの高性能なGPUを積んだPCを所有しているならば、そのPC上でWhisperを使うことが可能だが、多くの人はハイスペックなGPUなんて持っていないだろうから、レンタルサービスを使うことになる。
「Replicate」は、そうしたGPUを格安・秒単位でレンタルしてくれるWebサービスである。初回登録時には、無料で利用できる枠も付与されるので、しばらくは無料で試すことができる。
Replicate上では、Whisperをはじめ、さまざまなAIモデルが簡単に利用できるように公開されており、僅かなお金を支払うことで、超ハイスペックなGPU上でAIモデルを使うことができる。
ここでは、Replicate上にある、非常に高速に動作するようにカスタマイズされたWhisperモデルである「Incredibly-Fast-Whisper」を使ってみる。
「NVIDIA A40」という普通に買うと150万円を越える超ハイスペックGPUを使って、非常に高速な文字起こしが可能である。
ReplicateでIncredibly-Fast-Whisperを使う基本の方法
Replicateを使用するには、GitHubのアカウントが必要になるので、まずはGitHubのアカウントを作ろう。
アカウントが準備できたら、ReplicateのトップページからGitHubアカウントでログインする。
Replicateにログインしたら、画面上部の検索ボックスで、「fast whisper」などと検索して、vaibhavs10/incredibly-fast-whisper
を選択する。
Incredibly-Fast-Whisperを開くと、画面左側で音声ファイルのアップロードや、言語の指定をすることができ、「Run」ボタンをクリックすることで、文字起こしの処理が始まる。
Replicateに初回登録した際には、明確に時間数は明かされていないものの、無料の利用枠が付与されているので、当分は無料で文字起こしを利用することができる。
もし、無料枠を超えてしまった場合には、課金が発生することになるが、Incredibly-Fast-Whisperが使用しているGPU「NVIDIA A40 (Large)」の利用料金は1秒あたり0.000725ドル(=0.1円)と非常に安価だ。
ちなみに10分の音声であっても、20秒で文字起こしできたので、2円ほどしかかからないことになる。
Whisper × pyannoteAIによる話者識別を有効にする方法
通常のWhisperモデルには、複数人の発言が含まれる音声で、話者を識別する機能はない。
この点、Incredibly-Fast-Whisperは、「pyannoteAI」というオープンソースのDiarizationモデル(話者識別)を組み合わせることで、話者の識別も可能にしている。
pyannoteAIのオープンモデルは、Hugging Face上で公開されている。
Incredibly-Fast-Whisperのオプションで、diarise_audio(話者識別)オプションをオンにし、Hugging Faceの自分のアカウントのトークンを入力することで、pyannoteAIによる話者識別が利用できる。
Hugging Faceのトークンを入手するには、まずHugging Faceのアカウントを登録して、設定画面の「Access Tokens」メニューから、新規のトークンを作成し、「diarization」などと分かりやすい名前をつけておく。
トークンは作成時にしか表示・コピーできないので、Incredibly-Fast-Whisperにコピペするだけでなく、どこか安全な場所にメモっておくと良い。
また、pyannoteAIを利用するには、Hugging Face上にあるpyannote/speaker-diarization-3.1およびpyannote/segmentation-3.0の二つのレポジトリに事前に連絡先情報を提供して、アクセス権を得ておく必要がある。
とは言っても、以下のようなフォームに企業名・学校名だけ入力して、「Agree and access repository」をクリックすれば良いだけだ。
Whisper+Diarizationによるサンプルファイルの文字起こし結果
まず、1分間の男女の画像生成AIに関する会話を、Diarizationを有効にしたIncredibly-Fast-Whisperで書き起こししてみた結果が以下である。わずが5.1秒で、話者識別ありの文字起こしが完了した。
高い精度で書き起こしが行われているが、JSON形式で出力されるため、プログラミングに慣れていない人にとっては、若干扱いにくい出力結果である。
そこで、Replicateのアウトプットをコピペして、簡単に会話形式のテキストに変換できる非常にシンプルなGoogle Colabのノートブックを作成してみた。
まずはReplicateのアウトプットの右上にあるコピペボタンをクリックして、クリップボードにJSONをコピーする。
そして、以下のGoogle Colabのノートブックにアクセスして、下部のテキストボックスにJSONをペーストすれば、誰でも簡単にJSONを会話形式のテキストに変換することができる。
ここでも、CLOVA Noteの時と同様に、Stable DiffusionやMidjourneyなどの固有名詞がうまく聞き取れておらず、カタカナで表記されてしまっている。
固有名詞を含めた正確な聞き取りとテキスト化をするには、もう一工夫が必要になる。
ChatGPTを使って誤字脱字を修正させる方法
会話文としてプレーンテキストで整理したい場合、もう一つの方法として、JSONの出力結果を丸ごとコピーしてChatGPTに投げる方法もある。
以下のようなプロンプトを与えて、テキスト部分の抜粋と、ついでに、固有名詞の表記を整えたり、聞き取りミスを修正するように指示すれば、一石二鳥で、クリーンな会話文を得ることができる。
以下の音声をAIが書き起こした結果のJSONを、テキスト部分のみを抜粋し、以下のような会話文の形式で整理せよ。
SPEAKER00: 明日の天気は晴れますかね?
SPEAKER01: 雨と聞きましたよ。
なお、固有名詞は正式名称・表記に改め(例:グーグル→Google)、聞き取りミスと思われる誤字脱字は修正せよ。
**ReplicateからJSONテキストをコピペ**
「アイディア出し」を「アイディア大事」と間違えてしまっている点はあるが、GPT-4oによるサポートもあり、全体としてはかなり正確にテキスト化が行われている。
Whisperモデルから書き起こされたテキストをそのまま使うよりも、GPT-4oの力で微修正を加えた方が、人間が修正しなければならない作業を大幅に省力化できてオススメだ。
また、10分のニュース音声を、Incredibly-Fast-Whisperを使って話者識別付きで文字起こししても、22秒と非常に速いスピードで結果が出力された。
これまた、出力結果のJSONをChatGPTに丸コピして、GPT-4oモデルに整理させた結果が以下である。こちらも正確に聞き取れていることがわかる。
話者の識別については、ニュース音声では、アナウンサー、インタビューする人、インタビューされた人など多様な人物が登場するので、ところどころ間違っている箇所もあるが、話者の切り替わりはちゃんと認識できているので、議事録作成時には十分助けになることだろう。
CLOVA Noteのようにアプリ上で巻き戻しながら音声を確認する機能がないので、便利さでは劣るものの、非常に安価に長時間の音声を文字起こしすることができる。
話者識別機能もついているので、企業などで長時間のMTG音声を毎月何回も文字起こししなくてはならない場合などに、最も有力な選択肢になるだろう。
CLOVA Noteの300分間の無料クレジットを使い切ってしまったら、Replicate上でIncredibly-Fast-Whisperを使ってみることをオススメする。
Incredibly-Fast-Whisperの利点
- 300分の音声を文字起こししても数十円で、有料ツールの中では最安レベル
- 貴重な話者識別機能も利用できるため、議事録作成に役立つ
- ハイスペックGPUを使った高速な文字起こしが可能
Incredibly-Fast-Whisperの欠点
- 結果がJSON形式で、初心者には扱いにくい
- 無料試用期間を過ぎたら課金が発生
3. Gemini 1.5 Pro:Google AI Studioで無料で使う裏技
Geminiは、Googleが開発する大規模言語モデルである。ライバルのOpenAIが開発するChatGPTのように、ブラウザ上でAIとチャットができる。
Geminiは、テキスト情報だけでなく、音声や画像、ビデオなど、さまざまな形式のファイルに対応したマルチモーダルなAIなので、音声の書き起こしを行わせることも可能だ。
ただし、精度が高いGemini 1.5 Proという最新・最高性能のモデルを使うには、通常はGemini Advancedという月額2900円かかる有料サービスを利用せねばならないし、しかも現時点ではGemini Advancedが音声ファイルのアップロードに対応していない。
しかし、実は無料かつ無制限で、Gemini 1.5 Proを使って、音声ファイルを文字起こしさせる裏技的な方法が存在する。
「Google AI Studio」というエンジニア向けのサービス内で行うので、少しだけインターフェースが分かりにくいが、一度使い方を覚えれば簡単だ。
以下ではGemini 1.5 Proを使った文字起こしの手順を解説していく。
まず、Google AI StudioにGoogleアカウントを使ってログインする。
すると、以下のようなプロンプトをテストするための開発者向けインターフェースが表示される。
右側で、Gemini 1.5 ProやGemini 1.5 Flash、Gemini 1.0などのAIモデルを選択することができる。音声認識はできるだけ正確に行いたいので、Gemini 1.5 Proを選択するのが良い。
Googleドライブにアップロードされたファイルを読み込ませることができるので、画面下部のテキストボックスの横にある「+」マークをクリックして、文字起こしをしたいmp3ファイルをGoogleドライブにアップロードする。
その上で、「Run」ボタンを押すだけで、文字起こしが実行できる。
マルチモーダルな大規模言語モデルなので、音声ファイルを渡すとともに、適切なプロンプトを与えることで、書き起こしの結果をより見やすく整理させることもできる。
1分間の会話音声のサンプルの文字起こしを、以下のプロンプトで行わせてみた。
添付の会話を録音した音声を文字起こしして下さい。文字起こしの結果は、文語体で読み易く整理して下さい。話者の切り替わりごとに、改行を加えて下さい。
文字起こしされた結果が以下である。残念ながら、話者の識別は正確には行えなかったが、音声に忠実に書き起こしが行えていることが分かる。
「AIが・・・AIが」と言い淀んだ箇所についても、そのまま忠実に書き起こされており、CLOVA Noteのような書き取りミスは少ない。
一方、10分間のニュース音声を文字起こししてみると、70秒ほどを要して、LINE CLOVA Noteと比べるとスピードが結構劣る印象だ。
また、LINE CLOVA Noteと違って話者の識別ができないので、10分の音声となると、1つの長いテキストになってしまい、かなり情報が見にくくなる。
総合的な評価としては、音声ファイルをGoogleドライブにアップするだけで、簡単に、無料で、無制限に文字起こしが可能なので、利便性は非常に高い。
しかし、LINE CLOVA NoteやIncredibly-Fast-Whisperと比べてしまうと、話者の識別ができなかったり、文字起こしのスピードが遅かったりと、若干見劣りする部分はある。
LINE CLOVA Noteの300分の利用制限を消化したくないが、ちょっとした文字起こしをしたい、という場合に使うことをオススメする。
Gemini 1.5 Proの利点
- 利用制限がなく、何度でも、何分でも無料で使える
- プロンプトを工夫すれば、議事録を作らせることも可能
Gemini 1.5 Proの欠点
- Google AI Studioの使い方を覚える必要がある
- 話者識別などの便利機能はない
4. Whisper:公開モデルをGoogle Colabで使う
話者の識別が不要で、また文字起こしに時間がかかっても良い、という場合には、無料の公開モデルであるWhisperを、これまた無料で利用できるGoogle Colaboratoryというサービス上で利用する方法がある。
1時間の音声を書き起こすのに15分以上かかることもあるが、特に急いでいないのであれば、これが最も安く、利用制限もなく、文字起こし結果も正確である。
また、YouTubeの字幕ファイルとしてそのままアップロードできるSRTファイルを出力させることも可能なので、地味に便利だ。
これは、当サイトで過去に作成したGoogle Colabノートブックで、誰でもGoogleアカウントさえあれば無料で利用することができる。
ただし、Google Chromeでしか動作しないので、Safariなど別のブラウザを使用している人は注意してほしい。
Google Colabは、ブラウザ上で利用できるPython環境で、無料ユーザーであっても、NVIDIA Tesla T4という程々の性能のGPUを利用することができる。
Replicateなどの超高性能なGPUクラウドと比べると、かなり速度は見劣りするが、無料で利用できるのだから使わない手はない。
上記のノートブックを開いたら、右上の「接続」メニューから、「ランタイムのタイプを変更」を開き、T4 GPUを選択する。
GPUにタイプを変更したら、あとは「ランタイム」メニューから「すべてのセルを実行」して、画面の指示に従っていけば、音声ファイルをアップロードして、テキスト化することができる。
ただし、Google Colab上に、Whisperモデルをインストールすることから始まるため、ファイルをアップロード可能な状態になるまでにも、少し時間がかかる。
ファイルをアップロードすると、その音声ファイルを、T4 GPU上で動作するWhisperモデルを使って低速に文字起こしを行うため、本記事で紹介した他のツールと比べると、かなりスピードは劣る。
実際に、サンプルファイルの1分間の会話音声を与えてストップウォッチで測ってみたところ、テキストが出力されるまでに25秒ほどかかった。本記事で紹介したツールの中では、最も遅いスピードである。
書き起こしの精度としては、同じWhisperモデルを使っているので、当然ながらIncredibly-Fast-Whisperと同じクオリティだ。
上記のノートブックには、出力されたテキストを、.txt
ファイルでGoogleドライブに保存する機能や、.srt
ファイルとしてタイムスタンプ月の字幕ファイルを出力する機能も実装してある。
より詳しい使い方は、「無料で簡単に音声書き起こしAIが使えるWebアプリを作った:Google Colabで実装するWhisper v3」という過去記事を参照して欲しい。
総合評価としては、無料で利用制限なく、どれだけ長い音声ファイルでも文字起こしできるという点で便利だが、話者の区別はできないため、複数人の会話の場合には読みにくさは残る。
自分1人のボイスメモなどを文字起こしする、といった用途には最適だろう。
Whisper + Google Colabの利点
- 利用制限がなく、何度でも、何分でも無料で使える
Whisper + Google Colabの欠点
- スピードが遅いため、1時間など長時間の音声ファイルは待ち時間が非常に長い
- 話者識別などの便利機能はない
最新のAIツールの力で仕事効率化
本記事では、4つのツールで、音声ファイルをテキスト化するSpeech-to-Textモデルを活用する方法を解説してきた。
発言者の区別が可能な音声認識AIですら、LINE CLOVA Noteなら無料で利用できるし、有料のReplicateを使ったとしても数円で10分間の音声を文字起こしすることができる。
かつては話者識別をサクッと行うことは難しかったが、pyannoteAIなどオープンソースで公開されているDiarizationツールが充実してきたことで、話者識別さえ無料で簡単に行えるようになってしまった。
すごい勢いでAI技術が進歩し、ネット上に便利ツールが溢れかえる中、いまだに手作業で文字起こしをしているとしたら大きな問題だ。
本記事を参考に、最新の音声認識AIモデルの力を体感してみて欲しい。