AIじゃないよ

【2025年最新】無料で使える超高精度のAI文字起こしオススメ2選&議事録ワークフロー

当サイトはアフィリエイト広告を一部掲載しています。

2025年、AIによる音声認識技術の進歩により、もはや人間が議事録を作成する必要は無くなった、といっても過言ではない。

もしあなたが、まだAI文字起こしツールを使ったことがないならば、あまりの精度とスピードの進歩に驚くはずだ。

「精度の高いAI文字起こし・議事録ツールは、どうせ有料で、料金も高いんでしょ?」と思っている人も多いかもしれないが、現在では、無料であっても超高精度なAI音声認識モデルが、多数登場している。

本記事では、無料で利用できるAI文字起こしツールの使い方を解説するとともに、ChatGPTやGeminiなどを駆使して、文字起こし結果を議事録の形に整えるまでの一連のワークフローを紹介する。

この記事を読むだけで、議事録や会議録の作成、動画への字幕付け、ポッドキャストの書き起こし、外国語の動画や音声の翻訳など、様々な音声→テキスト化に関する業務の生産性が、大きく改善することだろう。



全社会人が使いこなすべき2つのAI文字起こしサービス

音声ファイルをアップロードすると、それを瞬時にテキストへと変換してくれるAI文字起こし・書き起こしサービスは、多数存在する。

その中でも、Nottaなどの有料ツールと比べても、非常に精度が高く、それでいて無料で利用できてしまうモデルが以下の二つである。

それぞれ特徴が異なるので、用途によって使い分けよう。

サービス名AIモデル名料金特徴
Google AI StudioGemini 2.5 Pro無料・話者の区別が可能でMTG音声に最適
・同じ画面でそのまま議事録化も可能
Groq CloudWhisper Large v3無料・超高速(25時間の音声を5分で文字起こし)
・タイムスタンプ付きでテキスト化可能

本記事では、それぞれのサービスに、実際にミーティングの音声ファイルをアップロードして、文字起こしを行う方法を詳細に解説していく。

AI文字起こし→ChatGPTで議事録作成も自動化できる時代

また、せっかく文字起こしをするならば、単に音声をそのままテキスト化するだけでなく、議事録やインタビュー録のような文書形式に整理するところまで、AIを駆使して一気に実行してしまいたい。

そこで、以下では、単なる文字起こしに留まらず、

  • ミーティングの録音やインタビューの録音などの音声ファイルを、テキストに書き起こす
  • 書き起こされたテキストを、議事録形式のアウトプットに整形する

という一連の手順を、スクリーンショットなどを交えながら、詳しく解説していく。

前述の通り、大きく2種類のサービスを用いた方法を紹介する。

  1. 「Google AI Studio」のみを用いて、音声のテキスト化と、議事録への整形まで完結
  2. 「Groq Cloud」を用いて音声をテキスト化したのち、「ChatGPT」を用いて整形

Gemini 2.5 Pro:実は無料!話者識別もできて議事録化も可能

Googleが開発する大規模言語モデルであるGeminiシリーズは、テキストだけではなく、音声・画像なども理解できるマルチモーダルなAIモデルだ。

現状最新で、最も高精度な「Gemini 2.5 Pro」モデルを使えば、音声ファイルをアップロードして、その中身をGeminiが解読し、テキスト化させることが可能である。

Gemini 2.5 Proを利用するには、通常はGemini Advancedの有料プランへの登録が必要だが、実は「Google AI Studio」というツールを経由することで、無料で利用することができる。

まずはGoogleアカウントにログインした状態で、「Google AI Studio」にアクセスしてみよう。

画面左上の「Chat」メニューを開き、画面右上のモデル選択で最新の「Gemini 2.5 Pro Preview」を選択する。

画面中央がチャット画面であり、ChatGPTやGeminiなどの一般的なAIチャットアプリと同様に、選択したモデルとの会話を行うことができる。

テキストボックス横にある「+」ボタンをクリックして、「Upload File」を選択すると、画像ファイルや音声ファイルをアップロードすることができる。

サンプルとして、OpenAIの新機能の発表ライブ配信の音声を読み込ませ、文字起こしして、議事録化させてみる。

今回の音声に限らず、GeminiによるMTG文字起こしに活用できるよう、以下のようなプロンプトテンプレートを用意した。

Geminiは、音声中の複数の人物の声の聞き分けまで可能なので、話者識別を前提にして、セリフ形式で文字起こしさせるプロンプトとなっている。

## 指示

添付の音声ファイルを、話者を区別して文字起こしして下さい。

話者の氏名が分かる場合には、

(田中)こんにちは。
(山田)こんにちは。宜しくお願いします。

という(名字)の表示を文頭に行い、話者が不明である場合には、(男性1)(女性3)(不明)などと表示して下さい。

## 音声の概要

2025年5月16日に行われたOpenAIによる新製品「Codex」のリリースライブ配信の音声。Codexとは、ChatGPTの新機能で、クラウド上で動作するソフトウェアエンジニアリングエージェントである。

## 音声に含まれる人物

Greg Brockman, Jerry Tworek, Joshua Ma, Hanson Wang, Thibault Sottiaux, Katy Shi, and Andrey Mishchenko

音声の中に登場する人物の名前や、音声に含まれるトピックが事前にわかる場合、プロンプトの中で予め伝えておいた方が、文字起こしの精度が高まる。

ミーティングの議事録などを依頼するときは、その会議の議題、参加者、日付、重要な単語・専門用語などを伝えておくと、正確に議事録化が可能なはずである。

音声ファイルを添付して、上記のプロンプトを打ち込んだら、画面右下の「Run」をクリックすると、文字起こしが開始される。

すると、以下のように、見事に音声の内容がテキスト化された。

プロンプトで指示した通り、話者の氏名が表示され、セリフ形式で分かりやすくなっている。

Geminiを利用する最大のメリットは、単なる音声の文字起こしだけでなく、議事録への整形まで、一気通貫で実施できてしまうことだ。

Geminiは、LLMとしての知能も持ち合わせているので、文字起こし結果を、議事録化するように指示を与えれば、会議の内容を要約した文書も続けて生成してくれる。

例えば、次のようなプロンプトを与えて、先ほど文字起こしした内容を踏まえて、音声の情報のサマリーを作成させてみる。

文字起こしの結果を踏まえて、発表された新機能のサマリーを作成して下さい。

このように、音声のアップロード、文字起こし、議事録化までを、「Google AI Studio」上でGeminiに指示を与えるだけで、ものの5分〜10分で完了できてしまう。

議事録化のプロンプトを工夫すれば、自社や自部署の指定のフォーマットで議事録を作成させることも可能だ。もちろん、議事録以外にも、インタビューサマリーや、他言語への翻訳など、あらゆるタスクを実行させることができる。

議事録化に役立つプロンプトテンプレートも用意したので、自社のニーズに合わせてカスタマイズして活用してほしい。

# 指示
あなたは議事録の作成を専門とするプロフェッショナルライターです。
会議の文字起こし結果を踏まえて、誰が読んでもすぐ現状とタスクが把握できる、簡潔な議事録(1 ページ以内)を作成してください。

# 会議の概要
- 開催日時     : {{日付をここに入力}}
- 参加者       : {{参加者氏名や肩書をここに入力}}

# 出力フォーマット(厳守)
【会議概要】  
- 主な目的 : …  
- 結論     : …

【決定事項】  
1. …  
2. …

【アクションアイテム】  
| 担当 | タスク                 | 期限 | 進捗 |
|------|------------------------|------|------|
|      |                        |      |      |

【未解決・保留】  
- …

# ルール
- 原文をコピーせず要約する。曖昧な点は「★要確認」と明示。
- 私語や雑談は除外。数字・期日・担当は正確に。
- 出力は日本語、Markdown 形式、箇条書き。
- 指示とフォーマット以外の文章は追加しない。

Groq × Whisper:270倍速の爆速で超正確な文字起こし

「Groq」は、大規模言語モデルに特化したGPUに代わる超高速なチップ「TPU」を開発するスタートアップ企業だ。

そのGroqが、「Groq Cloud」というサービスで非常に速度の速いAIツール群を提供している。それらの中でも、音声の文字起こしに特化した「Whisper v3」というAIモデルを使用する。

Groq Cloudは、フリープランなら無料で利用でき、一般的な個人使用のレベルでは、十分すぎる利用量が与えられる(Whisperの場合:1日あたり8時間分の音声まで無料)。

Whisperは、OpenAIが開発したオープンソースのSTT(Speech-to-text)モデルで、モデル自体が無料配布されているため、Groqをはじめとするクラウド各社がWhisperモデルを使った文字起こしサービスを無料〜安価に提供している。

Whisperの文字起こしの精度は非常に高く、しかもGroq上で使えば信じられないほどスピードが速いので、長時間の音声を即座にテキスト化したい場合などに役立つ。

使い方は、Groq Cloudにアカウント登録をした上で、ログイン後に「Playground」というメニューをクリックする。

すると、Google AI Studioのようなチャット画面が表示されるので、上部のモデル選択プルダウンで、「whisper-large-v3」を選択する。

「Select File」ボタンをクリックして音声ファイルをアップロードする。

画面右側のメニューでは、音声の言語を指定できるプルダウンがあるので、日本語の会議音声であれば「Japanese」を選択しておく。

他にも、「Verbose JSON」をオンにすると、タイムスタンプなどもついた詳細なログが入手可能だが、将来的にYouTubeの字幕に変換するなどの予定がなければ、オフのままで良いだろう。

音声のアップロードと、言語の指定が終わったら、あとは「Submit」ボタンをクリックするだけだ。

Geminiのような話者識別機能はないが、本当に一瞬で文字起こしが完了するので、長時間の会議の記録を、議事録にするほどではないが、とりあえずテキスト化だけして保管しておきたい、というような用途で活躍してくれる。

シンプルながら正確な文字起こしを、スピーディーに実行できるのが、Groq × Whisperの何よりの強みだ。

日本語の識別性能も非常に高く、ほとんど誤字脱字なく、正確に文字起こししてくれる。

また、文字起こしの結果を、ChatGPTやGeminiにコピペして、上記で紹介した議事録作成のプロンプトテンプレートなどを用いて、議事録形式に整形させること等も、もちろん可能である。

ちなみに、GroqのWhisperがどれだけ高速かというと、AIサービスの性能評価を行っている「Artificial Analysis」によるWhisperの速度を比較したランキングによれば、Groqは1秒あたりに270秒ほどの音声ファイルの文字起こしが可能と評価されている。

270倍速で文字起こしができるということは、スターウォーズの全映画シリーズを合計した「25時間」の音声であっても、わずか「5分半」でテキスト化が可能であるという計算になる。

Geminiは、話者の識別まで可能で便利だが、文字起こしに結構時間がかかる。用途に合わせて、GeminiとGroqを使い分けることをオススメする。



Make a comment

*
*
* (公開されません)