【2025年最新】無料で使える超高精度のAI文字起こしオススメ2選＆議事録ワークフロー

2025年、AIによる音声認識技術の進歩により、もはや人間が議事録を作成する必要は無くなった、といっても過言ではない。

もしあなたが、まだAI文字起こしツールを使ったことがないならば、あまりの精度とスピードの進歩に驚くはずだ。

「精度の高いAI文字起こし・議事録ツールは、どうせ有料で、料金も高いんでしょ？」と思っている人も多いかもしれないが、現在では、無料であっても超高精度なAI音声認識モデルが、多数登場している。

本記事では、無料で利用できるAI文字起こしツールの使い方を解説するとともに、ChatGPTやGeminiなどを駆使して、文字起こし結果を議事録の形に整えるまでの一連のワークフローを紹介する。

この記事を読むだけで、議事録や会議録の作成、動画への字幕付け、ポッドキャストの書き起こし、外国語の動画や音声の翻訳など、様々な音声→テキスト化に関する業務の生産性が、大きく改善することだろう。

全社会人が使いこなすべき2つのAI文字起こしサービス

音声ファイルをアップロードすると、それを瞬時にテキストへと変換してくれるAI文字起こし・書き起こしサービスは、多数存在する。

その中でも、Nottaなどの有料ツールと比べても、非常に精度が高く、それでいて無料で利用できてしまうモデルが以下の二つである。

それぞれ特徴が異なるので、用途によって使い分けよう。

サービス名	AIモデル名	料金	特徴
Google AI Studio	Gemini 2.5 Pro	無料	・話者の区別が可能でMTG音声に最適・同じ画面でそのまま議事録化も可能
Groq Cloud	Whisper Large v3	無料	・超高速（25時間の音声を5分で文字起こし）・タイムスタンプ付きでテキスト化可能

本記事では、それぞれのサービスに、実際にミーティングの音声ファイルをアップロードして、文字起こしを行う方法を詳細に解説していく。

AI文字起こし→ChatGPTで議事録作成も自動化できる時代

また、せっかく文字起こしをするならば、単に音声をそのままテキスト化するだけでなく、議事録やインタビュー録のような文書形式に整理するところまで、AIを駆使して一気に実行してしまいたい。

そこで、以下では、単なる文字起こしに留まらず、

ミーティングの録音やインタビューの録音などの音声ファイルを、テキストに書き起こす
書き起こされたテキストを、議事録形式のアウトプットに整形する

という一連の手順を、スクリーンショットなどを交えながら、詳しく解説していく。

前述の通り、大きく2種類のサービスを用いた方法を紹介する。

「Google AI Studio」のみを用いて、音声のテキスト化と、議事録への整形まで完結
「Groq Cloud」を用いて音声をテキスト化したのち、「ChatGPT」を用いて整形

Gemini 2.5 Pro：実は無料！話者識別もできて議事録化も可能

Googleが開発する大規模言語モデルであるGeminiシリーズは、テキストだけではなく、音声・画像なども理解できるマルチモーダルなAIモデルだ。

現状最新で、最も高精度な「Gemini 2.5 Pro」モデルを使えば、音声ファイルをアップロードして、その中身をGeminiが解読し、テキスト化させることが可能である。

Gemini 2.5 Proを利用するには、通常はGemini Advancedの有料プランへの登録が必要だが、実は「Google AI Studio」というツールを経由することで、無料で利用することができる。

まずはGoogleアカウントにログインした状態で、「Google AI Studio」にアクセスしてみよう。

画面左上の「Chat」メニューを開き、画面右上のモデル選択で最新の「Gemini 2.5 Pro Preview」を選択する。

画面中央がチャット画面であり、ChatGPTやGeminiなどの一般的なAIチャットアプリと同様に、選択したモデルとの会話を行うことができる。

テキストボックス横にある「＋」ボタンをクリックして、「Upload File」を選択すると、画像ファイルや音声ファイルをアップロードすることができる。

サンプルとして、OpenAIの新機能の発表ライブ配信の音声を読み込ませ、文字起こしして、議事録化させてみる。

今回の音声に限らず、GeminiによるMTG文字起こしに活用できるよう、以下のようなプロンプトテンプレートを用意した。

Geminiは、音声中の複数の人物の声の聞き分けまで可能なので、話者識別を前提にして、セリフ形式で文字起こしさせるプロンプトとなっている。

## 指示

添付の音声ファイルを、話者を区別して文字起こしして下さい。

話者の氏名が分かる場合には、

（田中）こんにちは。
（山田）こんにちは。宜しくお願いします。

という（名字）の表示を文頭に行い、話者が不明である場合には、（男性1）（女性3）（不明）などと表示して下さい。

## 音声の概要

2025年5月16日に行われたOpenAIによる新製品「Codex」のリリースライブ配信の音声。Codexとは、ChatGPTの新機能で、クラウド上で動作するソフトウェアエンジニアリングエージェントである。

## 音声に含まれる人物

Greg Brockman, Jerry Tworek, Joshua Ma, Hanson Wang, Thibault Sottiaux, Katy Shi, and Andrey Mishchenko

音声の中に登場する人物の名前や、音声に含まれるトピックが事前にわかる場合、プロンプトの中で予め伝えておいた方が、文字起こしの精度が高まる。

ミーティングの議事録などを依頼するときは、その会議の議題、参加者、日付、重要な単語・専門用語などを伝えておくと、正確に議事録化が可能なはずである。

音声ファイルを添付して、上記のプロンプトを打ち込んだら、画面右下の「Run」をクリックすると、文字起こしが開始される。

すると、以下のように、見事に音声の内容がテキスト化された。

プロンプトで指示した通り、話者の氏名が表示され、セリフ形式で分かりやすくなっている。

Geminiを利用する最大のメリットは、単なる音声の文字起こしだけでなく、議事録への整形まで、一気通貫で実施できてしまうことだ。

Geminiは、LLMとしての知能も持ち合わせているので、文字起こし結果を、議事録化するように指示を与えれば、会議の内容を要約した文書も続けて生成してくれる。

例えば、次のようなプロンプトを与えて、先ほど文字起こしした内容を踏まえて、音声の情報のサマリーを作成させてみる。

文字起こしの結果を踏まえて、発表された新機能のサマリーを作成して下さい。

このように、音声のアップロード、文字起こし、議事録化までを、「Google AI Studio」上でGeminiに指示を与えるだけで、ものの5分〜10分で完了できてしまう。

議事録化のプロンプトを工夫すれば、自社や自部署の指定のフォーマットで議事録を作成させることも可能だ。もちろん、議事録以外にも、インタビューサマリーや、他言語への翻訳など、あらゆるタスクを実行させることができる。

議事録化に役立つプロンプトテンプレートも用意したので、自社のニーズに合わせてカスタマイズして活用してほしい。

# 指示
あなたは議事録の作成を専門とするプロフェッショナルライターです。
会議の文字起こし結果を踏まえて、誰が読んでもすぐ現状とタスクが把握できる、簡潔な議事録（1 ページ以内）を作成してください。

# 会議の概要
- 開催日時     : {{日付をここに入力}}
- 参加者       : {{参加者氏名や肩書をここに入力}}

# 出力フォーマット（厳守）
【会議概要】  
- 主な目的 : …  
- 結論     : …

【決定事項】  
1. …  
2. …

【アクションアイテム】  
| 担当 | タスク                 | 期限 | 進捗 |
|------|------------------------|------|------|
|      |                        |      |      |

【未解決・保留】  
- …

# ルール
- 原文をコピーせず要約する。曖昧な点は「★要確認」と明示。
- 私語や雑談は除外。数字・期日・担当は正確に。
- 出力は日本語、Markdown 形式、箇条書き。
- 指示とフォーマット以外の文章は追加しない。