無料で高精度文字起こし！Gemini 1.5 Pro・Flashによる議事録作成の裏技

Googleが開発する大規模言語モデルである「Gemini」には、実はあまり知られていない使い道として、無料で使える超高精度の文字起こしツールとしての顔がある。

2024年4月に登場したフラグシップモデル「Gemini 1.5 Pro」と、2024年5月にGoogle I/Oで発表されたばかりの軽量高速版「Gemini 1.5 Flash」は、ライバルOpenAIの最新モデル「GPT-4o」と同じく、音声などのマルチモーダルな入力にも対応している。

音声での入力に対応しているということは、録音した会議の音声なども読み込ませることができるということ。

Nottaなどの文字起こしに特化した専用のAIツールを使わなくても、オールインワンの大規模言語モデルであるGemini 1.5 Proを使えば、非常に高速かつ高精度な音声のテキスト書き起こしが利用できてしまうのだ。

しかも、ブラウザ上の「Google AI Studio」でGeminiモデルを使っている限り、利用料金は無料。

Gemini 1.5 Proはテキストの処理能力も優れているため、文字起こしした音声を、そのまま議事録として要約することも1画面で完結する。

Google AI Studio × Geminiの組み合わせは、超高精度、超高速の最新AIによる音声書き起こし＋議事録生成を、無料で使い放題という隠れた優良ツールなのである。

この記事では、そんな裏技的なGeminiの活用法を、プログラミングや開発ツールを使ったことのないビジネスパーソンでも簡単に理解できるように、Google AI Studioの使い方を含めて丁寧に解説していく。

Googleが開発するLLM「Gemini」の全貌

Googleが開発する大規模言語モデルである「Gemini」シリーズは、ChatGTPのGPT-4やGPT-3.5などのように、ユーザーとの対話によるテキストの生成で高い性能を持つAIモデルだ。

ただGeminiは、テキストだけでなく画像や音声、動画など様々な形式のデータを理解し、それらを組み合わせて処理することができるマルチモーダルなAIである。

初代の「Gemini 1.0」には、Ultra、Pro、Nanoの3つのサイズがあり、より大きいほどより高性能なモデルとなっていた。

2024年4月に登場した「Gemini 1.5 Pro」は、従来の最重量・最高性能のGemini 1.0 Ultraと同等の性能を持つが、より軽量になったモデル。

そして2024年5月にGoogle I/Oで発表されたばかりの「Gemini 1.5 Flash」は、Gemini 1.5 Proよりも軽量高速で、利用料金も非常に安価なモデルとなっている。

ChatGPTのようなWeb上のチャットインターフェースでGeminiを利用したい場合は、ブラウザで利用できるGeminiのチャットUIが提供されている。

Gemini 1.0は無料でも利用可能だが、月々2900円を課金すると使える「Gemini Advanced」では最上位の「Gemini 1.5 Pro」が利用でき、Gmail、Google ドキュメントなどの中でGeminiを利用できるようになる。

例えば、Gmailでは適切な返信文を提案してくれたり、ドキュメントでは文章の校正や要約を行ってくれたりする。

2900円は高額にも思えるが、2TBのGoogleドライブの容量もおまけでついてくるので、それほど悪くない料金設定だ。

一方、開発者向けに提供されているツール群として、「Google AI Studio」もある。

こちらは、上記のチャットUIのように大衆向けに使いやすくされたアプリではなく、エンジニアが、Geminiを組み込んだアプリを作る際に、様々なプロンプトのテストなどを行うことができる環境だ。

モデルの設定を細かく編集できるようになっており、プロンプトとAIの回答を組み合わせて、意図した通りの動作をするかを検証できるようになっている。

若干使い方を理解するのに戸惑うものの、最上位のGemini 1.5 Proも無料で試すことができてお得だ。簡単な構造を理解すれば、一般ユーザーでも十分利用できる。

この記事では、無料で最上位のGemini 1.5 Proが利用でき、Googleドライブ上に保存した音声ファイルの読み込みなども可能な「Google AI Studio」を使って、音声の書き起こしを行う方法を解説していく。

Google AI Studioの基本的な使い方

まずはGoogle AI for Developersのページにアクセスする。

「Google AI Studioにログイン」というボタンをクリックして、Googleアカウントでサインインをしよう。

アカウントへのログインが完了すると、Google AI Studioの以下のような画面が開く。

注意事項などに同意すれば、早速Geminiの各モデルを使ったチャットが利用できる。

Google AI Studioの画面上では、中央でChatGPTやGemini Advancedのようなチャット形式のUIで、質問・プロンプトを打ち込み、「Run」をクリックすると、その質問に対するAIの回答が表示されるようになっている。

右上のモデル選択では、Gemini 1.0 Pro、Gemini 1.5 Pro、Gemini 1.5 Flashを選ぶことができる。

最も高性能なモデルを使用したければGemini 1.5 Proを、スピード重視ならばGemini 1.5 Flashを選ぶのが順当だろう。

若干癖があるものの、Geminiのブラウザ版と殆ど使い心地は変わらないので、単にGemini 1.5 Proの性能を試したいとか、音声の書き起こしだけを頼みたいという場合は、Google AI Studioだけで十分なケースが殆どだろう。

Google AI StudioでのGeminiによる文字起こし

Google AI Studioを使えるようになったら、いよいよ音声ファイルをGemini 1.5 Pro / Flashに読み込ませ、文字起こしを行わせる方法を解説していく。

書き起こす音声サンプルファイルの用意

どのような音声ファイルでも良いが、Geminiに読み込ませる.mp3ファイルを用意する。
zoomなどのオンライン会議ツールの録音音声や、ボイスメモで録音した自分の声などを、mp3形式で保存しておけばよい。

この記事では、Gemini 1.5 Pro / Flashの性能をテストするため、適当に見つけた自治体の委員会の録音データを文字起こしして内容を確認してみることにする。

偶然見つけた程よい長さの音声ファイルで、特に何の意図もないが、尾張旭市が公開している総務委員会の録音ファイルを用いた。これは、5分強の委員会でのやりとりが記録された音声ファイルだ。

「尾張旭市」という自治体名も聞き取りにくいし、使われている用語も「市税」など難しい言葉ばかりだし、録音されたマイクの音声の質もそこまで完璧に綺麗とは言えないし、Gemini 1.5 Proの日本語力や文字起こし力を検証するのに適したデータだと思う。

Google AI StudioとGoogleドライブの接続

Geminiに音声ファイルを読み込ませるには、Google AI Studio上で直接録音するか、Googleドライブにアップロードしたファイルを読み込ませるかの二択だ。

議事録を作るような用途の場合は、すでに録音したファイルが他に存在しているケースが殆どであろうから、Googleドライブへの接続はマストだ。

Google AI Studioのプロンプト入力欄の左側にある「＋」ボタンをクリックすると、「Allow Drive Access」というGoogleドライブとの接続メニューがあるので、これをクリックする。

すると、ポップアップが開き、自分のGoogleアカウントとの接続を許可するよう求められるので、許可するだけで接続が完了する。

接続が完了すると、Googleドライブ上にすでにあるファイルを指定するか、新たにファイルをアップロードしてGoogleドライブに格納するかを選択することができる。

ここでは、HPから入手してきた.mp3ファイルを新たにアップロードしたいので、「Upload to Drive」を選択し、mp3ファイルをGoogleドライブにアップロードする。

ブラウザ上でアップロードが促されるので、ローカルに保存したmp3ファイルをドラッグ&ドロップすると、即座にチャットにファイルが添付される。

これでファイルを添付して書き起こしを指示する準備は完了だ。

Gemini 1.5 Pro / Flashに文字起こしを指示するプロンプト

OpenAIの音声認識モデルのWhisperなどは、音声認識に特化しているので、その分、音声に入っていない文章をでっち上げてしまったり、勝手に何かを書き加えてしまったりといった心配が少ない。

一方で、Geminiの場合は、もともとテキスト生成も可能な大規模言語モデルなので、音声の内容によっては、原文を変えないように指示しないと、英語を全部日本語に翻訳してしまったり、音声の内容に基づいて何か新しい話を始めてしまったり、思わぬ動きをする場合がある。

したがって、しっかりと、音声の書き起こしを行うこと、原文を変えないことなどを指示することが重要だ。

シンプルなプロンプトだが、今回は以下の指示を行った。

この会議の録音音声を、日本語で書き起こしてください。原文は可能な限り変更せず、「えーっと」「え」などの意味のない音声のみ削除してください。

今回の音声ファイルならではの問題として、話者の口癖で「えー」といった声が多数入っているので、書き起こした結果が読みにくくなってしまうため、そうした無駄な発話はカットして欲しいとお願いした。

こうした細かい依頼が可能なのも、マルチモーダルなGeminiならではの利点である。

あとは、書き起こしに使用したいモデルを選択して、「Run」をクリックすれば良いだけだ。

Gemini 1.5 Proの方が高性能だが、書き起こしに時間がかかる。

Gemini 1.5 Flashはずっと早く書き起こしが完了するが、日本語の複雑な文章などだと、あまり正確に聞き取れないこともある。

用途と目的に合わせてモデルを選択しよう。

Gemini 1.5 Pro / Flash の文字起こし性能比較

上記の音声ファイルに対して、両モデルとも同じプロンプトを使って、Gemini 1.5 ProとFlashの両方で文字起こしを行ってみた。

5分51秒の音声ファイルで、Proは29.6秒、Flashは16.5秒で書き起こしが完了し、Flashの方がざっくり2倍のスピードで書き起こしが完了した。

書き起こされた結果は以下のとおりである。

Gemini 1.5 Proでの書き起こし結果

市の自治体名、「雑損控除」「市税条例」などの正確な聞き取りなど、かなり実用的なレベルの正確な文字起こしができていることが分かる。

「副市長」が「福祉長」になってしまっていたり、「税務課長」が「全務課長」になってしまっていたり、同音異義語などのミスタイプはあるが、プロンプトで出席者の情報を事前に与えておいたり（例：「この音声は副市長と税務課長が参加する市役所における総務委員会の録音データです」とプロンプトに含めるなど）、文字起こし後に人間がわずかに微調整すれば済むレベルのミスに留まっている。

議事録の自動生成用に使っても全く問題ない水準の文字起こし精度だと言えよう。

Gemini 1.5 Flashでの書き起こし結果

Flashも、思ったよりは及第点の聞き取りができているように思われる。

しかしながら、「尾張旭市」という固有名詞は聞き取れておらず、「市税条例」も「自然条例」と聞き間違えており、致命的に文意が変わってしまっている。

また、「この条例は交付の日から施行しようとするものでございます。」という発言を、「この条例は、公平な負担の観点から策定しようとするものでございます。」とこれまたかなり致命的な聞き間違いをしている。

3時間に及ぶ超長い音声データを、とりあえずざっくり書き起こしたい、といった用途では、非常に高速に書き起こしてくれるGemini 1.5 Flashを使う価値はありそうだ。

一方で、正確性が求められるビジネスミーティングの文字起こしや、1時間以内の音声の書き起こしであれば、最も性能の高いGemini 1.5 Proを利用するのが無難だろう。

文字起こし結果から議事録を生成するプロンプト

Google AI StudioでGemini 1.5 Proに文字起こしをさせたら、そのまま議事録として要約するようプロンプトで指示すれば、議事録の作成まで完結させることができてしまう。

ここでは、以下のようなプロンプトを使って、書き起こしたテキストを、議事録として要約するように要求した。

書き起こし結果が正確である必要があるので、文字起こしにもGemini 1.5 Proを使用し、文字起こし・議事録作成ともに両方ともGemini 1.5 Proに行わせている。

以上の会議音声の書き起こしを基に、自治体の総務委員会の議事録として整理してください。議事録には、議題ごとのまとめ、重要な決定事項、次回の会議で取り上げる予定の事項などを含めてください。音声から分からなかった情報は空欄とすること。議事録は明確で簡潔にまとめ、読みやすい形式で提供してください。

すると、見事なまでに必要な情報を捉えた議事録が生成された（スクリーンショットに収まりきっていないが、上部には日付、場所、参加者などの議事録の定番項目もきちんと書き出されている）。

元々の音声書き起こしの段階で、「税務課長」を聞き間違えてしまったので、それを要約した議事録でも「税務課長」は聞き間違えたままだが、聞き間違えた箇所以外はほぼ完璧な議事録ができている。

超実用レベルの文字起こし〜議事録作成が一気通貫

以上のように、Google AI StudioでGemini 1.5 Proモデルを使えば、音声ファイルをアップロードして、音声の文字起こしから、文字起こしされたテキストに基づく議事録の作成までを、一つのAIモデルで完遂することができる。

かつては、音声認識AIのWhisperモデルで書き起こしたテキストを、コピペしてChatGPTに打ち込んで議事録化させるなど、複数のAIの力を借りねばならなかった工程が、1つのAIで完結するようになってしまった。

Gemini 1.5 Proのような、テキスト・画像・音声などの異なる形式のインプットを一度に処理することのできる「マルチモーダル」なAIならではのユースケースと言えるだろう。

有料の文字起こしサービスや議事録作成サービスが多数ある中で、Google AI Studioの使い方を知っておくだけで、無料で、好きなだけ、最新のGoogleのAIを使った文字起こしを使い放題なので、この記事を参考に、ぜひ使い方をマスターしてほしい。