AIじゃないよ

音声認識AIで議事録・原稿・ノートを書き起こす究極ワークフロー

当サイトはアフィリエイト広告を一部掲載しています。

近年のAIの発展は目覚ましく、ChatGPTを代表とする文章生成AIが話題になって久しい。
しかし、文章生成AIだけでなく、音声認識による自動文字起こしをするサービスのレベルも信じられないほど向上していることをご存知だろうか。

口で喋った音声を自動で文字に変換し、さらに、その文章をChatGPTなどの文章生成AIによって編集・ブラッシュアップすることで、ほぼ手を動かさずに長文を書き上げることが可能になっている。

この記事では、私が実践している効率的な文章作成ワークフローを紹介する。
このワークフローを真似することにより、長い文章やメールを書くことはもちろん、会議の議事録作成なども飛躍的に効率化することができるだろう。

ワークフローを3つのステップに分けて解説し、初心者でも会社や自宅で簡単に再現できるように配慮した。



ステップ1:文章化したい音声ファイルを用意する

本題に入る前に、当然ながら文字起こしするためには、元の音声ファイルが必要になる。

文章化する音声の具体的なイメージとしては、主に以下のようなものがあるだろう。

  1. iPhoneやAndroidなどのボイスメモアプリで、自分の声を録音したファイル
  2. zoomやTeamsなどの複数人でのWeb会議を録音したファイル
  3. 大学の授業やシンポジウムを、ボイスレコーダーを使って録音したファイル

自分1人でスマホに声を吹き込んで、手を動かさずにメールをサクッと書いたり、会社の議事録作成作業を自動化したり、大学の授業のノートを全部AIに作らせるなんてことも可能だ。

大学教授が喋る内容を必死で追いながら、苦労して紙のノートにシャーペンでノートを取っていたあの頃を思うと、実に隔世の感がある。
現代のテクノロジーをフル活用して、生産性を飛躍的に向上させよう。

今回は、サンプルとして、「この記事そのもの」を私がiPhoneのボイスメモに吹き込んで、ブログ記事の下書きを作ってみた。

言い間違えを何度もしたり、喋ることを考える空白の時間が含まれていても、書き起こしには何の影響もないので、気軽にボイスメモに喋り続ければ良い。

ステップ2:自分に合った音声認識アプリを選ぶ

さまざまな音声認識AIが登場しているが、無料で利用できる簡易なものから、ハイクオリティだが有料なものまで存在する。

この記事では、LINEが提供する無料の文字起こしアプリ「LINE CLOVA Note」と、ChatGPTを開発するOpenAI社が提供する無料の音声認識AIモデル「Whisper」を利用する二通りの方法を紹介する。

無料かつスマホで手軽に使える「LINE CLOVA Note」と、少しだけ手間はかかるが1度使い方を理解すれば超ハイクオリティで無限に文字起こしができる「Whisper」で、自分の用途に合わせて選んでみよう。

月間300分まで無料!簡単スマホアプリ「LINE CLOVA Note」

LINEの音声認識アプリの魅力は、なんといっても無料で、iPhoneなどのスマホアプリを使って、初心者でも超簡単に文字起こしが可能であることだ。

ただし、1ヶ月あたり300分の音声データまでしか利用できないという制限がある。

複数人の声が入っている音声ファイルの場合、発言者の区別までしてくれるため、会議の音声などをテキスト化するのにもとても便利だ。

話し言葉をかなり忠実に文字化するため、会議の音声などだと「えっと」「あのー」「えー」といったフレーズまで書き起こされる。あとから少しテキストを編集しないとスッキリした文章にはならない。

iPhoneで実際に使ってみた際の利用方法は以下のようになる。

まずはiPhoneに元から入っている「ボイスメモ」アプリに自分の音声を吹き込む。録音した音声の右にある(・・・)メニューをタップして、「共有」を選び、共有先のアプリから「CLOVA Note」をタップする。

するとCLOVA Noteアプリが開き、音声の種類を聞かれるので適切なものを選ぶ。この選択の仕方によって、音声認識AIがそのシチュエーションに最適化されると思われる。

LINE CLOVA内で書き起こす音声ファイルの種類を選択する


アップロードが完了すると、テキストとしてCLOVA Noteアプリ内で閲覧が可能になる。テキストは.txtファイルなどとしてエクスポートすることも可能だ。

書き起こしが完了したテキストをLINE CLOVAからテキスト形式でエクスポートする


この記事の後半のステップで紹介するが、あとでこのテキストをAIを使って編集をすることになるので、.txtとしてGoogle Driveなどに書き起こされた文章ファイルを保存しておくことをお勧めする。

この記事の後半のステップで紹介するが、あとでこのテキストをAIを使って編集をすることになるので、.txtとしてGoogle Driveなどに書き起こされた文章ファイルを保存しておくことをお勧めする。

無料で公開されている超高精度文字起こしモデル「Whisper」

Whisperは、ChatGPTを開発しているOpenAI社が無料で公開している音声認識モデルだ。
英語はもちろん、日本語であっても、漢字を一字一句間違わず、信じられないほど高精度の書き起こしを提供してくれる。

プログラミングを全くしたことがない人には、少し使うのに手間がかかるが、当ブログでは、誰でも簡単に、プログラミングなしでWhisperで音声ファイルの書き起こしができるミニアプリを用意している。

Google ColaboratoryというGoogleアカウントを持っている人ならば誰でも使えるPythonの環境で、Whisperモデルを読み込んで、ユーザーがアップロードした音声ファイルを、テキストファイルとして文字起こししてGoogleドライブに保存してくれる優れものだ。

もちろん、全て無料で利用できる。

使い方の詳細は以下の記事で解説しているので、この記事を参考に行ってみてほしい。

ちなみに余談だが、Whisperには、公開のモデルを上記のようなGoogle Colabなどを使って実装する方法もあるが、OpenAIが提供している有料のAPIサービスを経由して利用する方法もある。

APIの方がより高度な指示が可能で、「えっと」「あのー」などの無駄な音声を削って書き起こして欲しい、などといった細かな指示を加える(プロンプト)こともできる。
また、Google Colab上でモデルを動かすよりも、遥かに高速である。

有料でしか利用できないが、10分間の音声で6セント(1ドル145円なら約9円)と非常に安価なので、それほど問題ない。

APIを使用するためには、上の記事で紹介しているのとは違うPythonコードを書く必要がある。
例えば以下のようなコードで、APIを使ってテキストを抽出できる。’prompt’の部分を編集すれば、書き起こす文章の形式について様々な指示を与えることが可能だ(文体、口調、「えっと」などを含む/含まない)。

実際に自分のMac上でやってみたところ、10分の音声だと30秒ほどで完了した。得られた結果を、.txtファイルとして書き出せば良い。

from openai import OpenAI

client = OpenAI(api_key="あなたのAPIキーをここに入力")

prompt = "これはテクノロジーブログにおけるChatGPTに関する記事の口述です。"

audio_filename = input("Enter the name of the audio file: ") # テキスト化したいファイルを入力
audio_file = open(audio_filename, "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1", 
  file=audio_file, 
  response_format="text",
  prompt=prompt
)

print(transcript)

この記事では二つの選択肢を紹介したが、日々新しいサービスが生まれているので、より便利な音声認識アプリが次々と登場してくるだろう。

今後も頻繁に音声認識AIを利用した書き起こしを利用する可能性が高い人はWhisperを、PCが苦手・とにかく楽な方法が良い人はLINE CLOVA Noteを利用することをお勧めしておく。

ステップ3:書き起こされた文章をChatGPTで整理・要約する

音声認識AIが書き起こしてくれたテキストは、そのままだと文の切れ目などが分かりにくく、とても読みにくい文章になってしまう。

実際にWhisper APIによって書き起こされた、このブログ記事を私が口述したものが以下の画像のようなものだ。

完璧に全てのテキストが狙った通りに書き出されているものの、改行や段落がないため見にくいし、10分間あまり考えずに喋り続けたので、同じようなことを何度も言っている箇所があるなど、もう少しスッキリした文章にしたい。

これらを手作業で改行したり削除したりするのは非常に面倒で、結局時間がかかってしまう。そこで、修正・編集・要約の作業もAIにお任せしてしまう。

OpenAIのChatGPTに、「この書き起こしされたテキストを整理せよ」と指示して、ステップ1で作成したテキストを渡すと、簡単に文章の整理をすることが可能だ。

ただし、ChatGPTに単純にお願いすると、勝手に必要な情報を削除してしまったり、元の音声と随分異なる文章が完成してしまうことがある点には注意が必要だ。

いろいろ試してみたが、以下のようなプロンプトを与えることで、文意を守った上で、適切な改行・段落を加えた読みやすい文章を生成してくれた。

ポイントは、「元の文章に含まれているトピックや情報が失われないように、網羅性に注意して、削除する文は最小限に留めて下さい。」と伝え、勝手に重要な箇所を省略してしまわない様に指示をすることだ。

口頭で喋った音声を書き起こした文章を以下に提供します。
段落や改行を適切に加え、トピックの切り替わりに合わせて適切な見出しをつけ、書き言葉を用いて、読みやすく整理して下さい。
誤字脱字や、言い間違いなどは修正や削除を行なっても良いですが、元の文章に含まれているトピックや情報が失われないように、網羅性に注意して、削除する文は最小限に留めて下さい。:

ChatGPTにこのプロンプトを与えた上で、ステップ1で作成したテキストファイルの中身をコピペして、文章を整形してもらう。
文章が長すぎる場合は、いくつかに分割してこの作業を行う必要があるかもしれない。

ChatGPTにも、チャットインターフェースだけでなくAPIがあるので、簡単なプログラミングができる人は、APIを使用した方が、一気に長文のプロンプトを読み込ませることが可能なので良いだろう。

上記のプロンプトでは、ブログ記事を執筆することを前提に、「トピックの切り替わりに合わせて適切な見出しをつけ、」という指示を行っている。
この点は、ビジネスメールを書きたい場合は「この内容をビジネスメールとして取引先に送信することを想定して、段落や改行を適切に加え、」などと、自分が必要としている文章のスタイルを指示するといいだろう。

音声入力+タイピングを組み合わせる方法も

この記事で紹介したステップは、「すでに音声ファイルを持っていて、ファイル全体を文字起こししたい」ようなシナリオを想定している。

具体的には、誰かにインタビューを行ったり、大学の授業を受けたりして、その様子をボイスレコーダーで録音した音声ファイルを持っているとか、ズームなどのオンラインミーティングツールでミーティングそのものを録音し、その音声ファイルを持っているような場合だ。

このような場合には、最新のAIの音声認識モデルを使って、ファイル全体をテキストとして書き起こし、それを編集するのが非常に効率的だろう。
この記事で紹介したステップに従って、AIによる文字起こしのパワーを体感してほしい。

反対に、そもそも自分で文章をPCやスマホに打ち込んでいるようなシーンで、 音声入力によってタイピングの手間を省略するような用途では、他にももっと便利な手段がある。

例えば、Macでは、音声入力を可能にする機能が初めから備わっている。
Macで音声入力機能を有効にする手順は、以下のとおりだ。

  1. システム環境設定を開く
  2. キーボード設定にアクセスする: システム環境設定ウィンドウで「キーボード」アイコンをクリック。
  3. 音声入力のオプションを探す: 「キーボード」設定内で「音声入力」または「ディクテーション」のタブを探す。
  4. 音声入力を有効にする: 「音声入力をオンにする」または「ディクテーションをオンにする」を選択する。
  5. 言語を選択する: 日本語、英語など、音声入力に使う言語を選択できる。通常は日本語で良い。
  6. ショートカットを設定する: 音声入力を起動するためのショートカットキーを設定。「Fn」キーを二回押すなど。

これで、Macで音声入力機能が有効になる。どのようなアプリを開いている時でも、キーボードで「Fn」キーを連打すれば、音声入力を開始できる。

筆者の場合、家でパソコンの前に座っていて、何かドキュメントを作るときにはMacの音声入力機能をタイピングと組み合わせ使っている。
打ち込むのが面倒な長文のテキストを音声認識によって打ち込めるので、手の疲労をかなり抑えることができる。
何か変換ミスがあった時などに、細かく手直しできるのもメリットだ。

それに対して外出中や外部とのオンラインミーティングなど、落ち着いてノートテイクができないシチュエーションにおいては、iPhoneのボイスメモアプリやzoomなどの録音機能を使って、 ミーティングの内容や自分の考えていることをまとめて録音しておいて、この記事で紹介するAIを使った方法で文字起こしをしている。

自分がどのような用途に音声入力、もしくは文字の書き起こしを利用したいかを考え、最適なツールを選ぼう。

1円もお金をかけずに完璧な文字起こしをする最強アシスタント

現代の生活では、紙にペンで文章を書く機会は随分減ったと思う。私自身、過去5年ほどを振り返って、ペンでメモを取った記憶がほとんどない。PCでタイピングをした方が、よっぽど効率的に、スピーディーに、文章を作成できるからだ。

しかし、音声認識AIの発展によって、もはや人間がPCにタイピングをすることすら、時代遅れになってしまうのではないかと思っている。

社会人であれば、仕事時間の結構な割合を、メールを打ったり、原稿を書いたり、メモを書いたりする時間に費やしている人も多いのではないか。
また、学生ならなおさら、教授の話を必死でメモしたり、レポートをWordに打ち込んだり、長文をタイピングして手が疲れてしまうことも多いであろう。

この記事で紹介したスマホのボイスメモに録音→音声認識AIで書き起こし→ChatGPTで整理というワークフローを使えば、ほとんどのタイピング作業が必要なくなるか、あるいは大幅に簡略化することができるはずだ。

メモ帳とペンを持ち歩いていたのが10年前、PCやタブレットを持ち歩いていたのがここ数年だとすれば、これからは録音ができるスマホやボイスレコーダーだけ持ち歩けばOKで、人間が手を動かす必要性は減っていくかもしれない。

このブログ記事自体も、私がこのワークフローを使って、ボイスメモに録音した音声を下書きとして作成したものだ。記事のアイディアを考えてから実際に公開するまでの時間を大幅に短縮することができたと思う。

AI技術を活用した効率的な生産性向上手法は、今後も引き続きブログで紹介予定なので、ぜひフォローして欲しい。



Make a comment

*
*
* (公開されません)