ChatGPTで知られるOpenAIが開発した、「Whisper」という超高精度な音声認識モデルをご存知だろうか?
最近では、ChatGPTのスマホアプリのボイス機能(音声対話機能)でも、Whisperモデルが音声認識のために使われている。
Whisperの音声認識は驚くほど正確で、日本語で漢字やカタカナ、アルファベットを混ぜたような文章を喋っても、正確に書き起こしてくれる。
この記事では、MacやiPhoneで文章を書く際に、OpenAIのWhisperのAPIを使って、非常に正確な音声入力を可能にする方法を紹介する。
プログラミングの経験がない人でも、MacやiPhoneに初めから入っている「ショートカット」というアプリを使って実現するので、とても簡単に真似ができるはずだ。
さらに上級編として、Whisperから出力された書き起こされたテキストを、GPT-4 turboによって更に精緻に修正・校正するショートカットも紹介する。筆者が作成したショートカットファイルをダウンロードできるので、そちらも使ってみてほしい。
この記事を読んで、最新のAIの力をあなたの生産性の向上に役立てて欲しい。
そもそもAppleの音声入力が結構実用的なの知ってた?
例えばドキュメントを書く際、タイピングが面倒な長い文章を口頭で喋って、その音声をPCが書き起こしてくれたら、文章の作成効率を大幅に向上させることができる。
実は、MacやiPhoneにも、デフォルトで純正の音声入力機能が付いており、後ほど紹介するように完璧ではないものの、そこそこ使えるクオリティだ。
Macの場合には、「システム環境設定」 – 「キーボード」 – 「音声入力」と進んでいくと、音声入力をオンにできる。
また、その音声入力モードを簡単に起動するためのキーボードショートカットも設定できる。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-mzp.jpg?strip=all&lossy=1&w=1920&ssl=1)
これをオンにしておくと、PagesやWord、ブラウザの検索バーなど、あらゆるアプリ上で、音声入力機能を利用できる。
音声入力モードをオンにすると、カーソルにマイクマークが表示され、タイピングによる入力と、言葉による入力の両方が可能な状態になる。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-n1v.png?strip=all&lossy=1&w=1920&ssl=1)
タイピングと音声入力を同時に使えるので、音声で打ち込みがうまくいかなかった部分を手で修正したり、文章を書いている途中で突然喋り出したりといったことが可能だ。
それなりに便利ではあるものの、ブランド名やサービス名などの固有名詞が登場したり、英単語と日本語を混ぜて話すような難易度の高い複雑な文章などだと、正確に書き起こしてくれないことが頻繁にある。
せっかく音声入力によってタイプスピードを高速化したのに、入力後に修正の手間が生じることで、むしろ時間を無駄にしてしまう感があるのがキズだ。
そこで、Macの純正の音声入力機能とほぼ同じレベルの使い心地で、OpenAIが開発するWhisper APIを使った音声入力機能を使う方法がないかを、ここしばらく探していた。
最新の音声認識モデルを使って、非常に高い精度の音声入力が可能になれば、こうしたMac純正の音声入力機能のデメリットを打ち消せるのでは考えたためだ。
この記事で紹介する方法では、Macの純正音声入力機能にかなり近い使い心地で、あらゆるアプリ上で、Whisperを利用できる。
さらに、Macで作ったショートカットは、iPhone, iPadなどのiOSデバイスでも利用できるので、Whisper AIによる高精度な文字起こしが、iPhoneやiPadでも利用可能になる。
長いメールを書くときに、iPhoneやiPadでいちいちフリック入力をするのはすごくストレスを感じていたので、Whisperによって爆速で文字を入力できることで、本当に助かっている。
Whisper APIを叩くMac・iPhoneショートカットで精度改善
録音したボイスメモのファイルを丸ごとアップロードして、文字に書き起こしてくれるアプリケーションは色々とある(当ブログでも無料で使えるWhisperミニWebアプリを公開している)。
しかし、Apple純正の音声入力機能のように、WhisperをMacにシームレスに統合するのは難しい。
様々なアプリ上で文字を打っている最中に、Whisperを瞬時に呼び出す方法は、これまでなかった。
また、iPhoneのボイスメモアプリで音声を録音して、それを書き起こしテキストとして抽出するためには、複数のアプリが必要になったり、PCにファイルを送ってからWhisperに読み込ませたりと、いくつものステップを踏まなければならず、非常に手間がかかっていた。
今回紹介するのは、MacやiPhoneに入っている「ショートカット」というアプリケーション1つだけで、Whisperを実装する方法だ。
「ショートカット」は、Macであれば、別のアプリで作業中であってもショートカットを実行でき、アプリから移動することなく実行結果を反映できるので、音声入力に非常に適している。
完全にOSレベルで統合されているわけではないが、非常に簡単に、Whisperを呼び出す機能を実装することができるので、利便性がかなり高い。
ただし、OpenAIが提供するWhisperのAPIを使うので、非常に安価ではあるが、お金がかかる。
あえて有料のAPIを利用するのは、音声認識のスピードが非常に早いからだ。
有料と言っても、音声1分あたり、わずか0.006ドルしかかからない。
すなわち、10分喋り続けてようやく6セント(=約9円、1ドル150円換算)なので、タイピングの手間を大幅に省略できることを考えると、かなり実用的と言える料金だ。
APIキーを持っていない人は、OpenAIのアカウント登録からAPIキーの発行までの手続きを詳細に解説した以下の記事を参考にしてほしい。
APIとは、あなた個人に紐ついたパスワードのようなもので、書き起こしたい音声ファイルと、あなたのAPIキーをセットでOpenAIのサーバーに送ることで、書き起こしを行ってもらえる。
そして、そのAPIキーの持ち主に対して、使用量に応じて料金が請求される仕組みになっている。
Whisperショートカットの作り方
ゼロから構築することも可能だが、iOS/Macのショートカットを共有するWebサイトであるRoutineHubにて、WhisperのAPIを叩くショートカットが公開されているので、これを少しカスタマイズして利用する。
ショートカットを編集する際、PCを使用する方が圧倒的に楽なため、この作業はiPhoneでは行わずに、Macで行うことをお勧めする。iPhoneしか持っていない人の場合、ギリギリiPhoneだけで行うことは不可能ではないが…。
以降の説明は、Macで行うことを前提にしている。
RoutineHubを開いて、「Get Shortcut」をクリックすると、ショートカットのファイルがダウンロードされる。これを開くと、Macのショートカットアプリに「OpenAI Whisper」というショートカットが追加される。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-kay.jpg?strip=all&lossy=1&w=1920&ssl=1)
ダブルクリックすると、ショートカットの中身のワークフローを見ることができる。
「OpenAI Whisper」の基本的な仕組みは、まず音声の録音を開始し、 ユーザーが録音を止めたら、すぐにその音声ファイルを予め登録したAPIキーと一緒にAPIリクエストとして送信するものだ。
そして、APIから帰ってきた書き起こしテキストを、使用中のアプリに貼り付けるか、貼り付け先がない場合はクリップボードにコピーしておいてくれる。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-tb9-1024x454.png?strip=all&lossy=1&ssl=1)
とりあえず実行してみると、初回実行時のみ、APIキーを持っているかを尋ねるメッセージが表示される。
OpenAIのAPIキーをすでに持っている人は、「Yes」を押して、自分のAPIキーをペーストする。
持っていない人は、「Get one from OpenAI」をクリックすると、OpenAIの会員登録ページに飛ばされる。
あらかじめ、上記で紹介したAPIキーの作成方法の記事を参考に、APIキーを作っておこう。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-kie.png?strip=all&lossy=1&w=1920&ssl=1)
APIキーを入力すると、それがiCloud DriveにShortcuts/GPT/openAI.txt
というテキストファイルとして保存される。
2回目以降の実行時には、自動的にこのAPIキーを読み込んで動作してくれるので、いちいちAPIキーを入れる必要はない。
また、iCloud DriveにAPIが保存されるおかげで、MacだけではなくiPhoneやiPadでも同じショートカットを呼び出したときに、同じAPIキーを使うことができる。
これによって、どの端末を使っているときでも、このショートカットでWhisper APIを呼び出せるようになるので、とても便利だ。
Mac用:どこからでもWhisperを呼び出すためのキーボードショートカットの設定
以上で用意したショートカットワークフロー「OpenAI Whisper」を、他のアプリで文字入力をしている際に、キーボードショートカットから呼び出せるようにするには、「ショートカット」アプリ上で「QuickAction」として登録する必要がある。
「QuickAction」は、任意のキーボードショートカットに割り当てることができるが、様々なアプリでWhisperによる文字入力を使いたいことを考えると、他社アプリがデフォルトで用意しているキーボードショートカットと被らないようにしなければならない。
他のアプリのキーボードショートカットと被らず、覚えておくのが苦ではなく、いつでも便利に使えるキーの組み合わせを見つけるのは、結構難しい。
そこで、活躍するのがKarabinar-Elementsという無料のMacアプリだ。
これは、あるキーをあるキーと入れ替えるなど、キーボードの高度なカスタマイズを可能にしてくれるアプリだ。
今回は、Karabinar-Elementsを使って、普段全く使っていないfunctionキー(私の場合F9)を、存在しないfunctionキー(F13)に変更し、それをWhisperを呼び出すホットキーとして利用する。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-l69.jpg?strip=all&lossy=1&w=1920&ssl=1)
キーの割り振りを変更できたら、先ほどのショートカットアプリに戻って、「OpenAI Whisper」の編集画面に進み、右サイドバーのiマークをクリックする。
その後、「クイックアクションとして使用」にチェックを入れて、キーボードショートカットとしてF9(F13として認識される)を押す。
ショートカットのワークフロー内に、勝手にクイックアクションの項が追加されるが、F9キーで起動さえできればいいので、内容に影響しないように、何もインプットを受け取らない設定にしておく。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-l4u.jpg?strip=all&lossy=1&w=1920&ssl=1)
するとこれ以降は、F9キー(F13)をタイプするだけで、瞬時に「OpenAI Whisper」のショートカットワークフローが起動する。
存在しないF13キーとして認識されているので、どのアプリでタイプしようが、他の機能が誤って動作してしまうことが避けられる。
これによって、スムーズに「OpenAI Whisper」を利用して、APIを叩けるようになった。
iPhone用:ウィジェットでいつでも簡単に使えるように表示
iPhoneやiPadでは、ホーム画面にウィジェットを追加できるので、作成したWhisper APIを叩くショートカットも、ホーム画面に追加して、いつでもすぐ使いやすいように置いておくことができる。
iPhoneやiPadでホーム画面の編集を開き、ウィジェットを追加から、「ショートカット」を検索する。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/IMG_0295-790x1024.jpg?strip=all&lossy=1&ssl=1)
1から4個のショートカットをウィジェットとして表示できるので、設置したいウィジェットを選ぼう。
筆者は、後ほど紹介するGPT-4のAPIを合体させた強化バージョンと、GPT-4無しのWhisper単独バージョンの両方のショートカットを、ウィジェットに表示している。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/IMG_0296-473x1024.jpg?strip=all&lossy=1&ssl=1)
実際に以下がウィジェットを設置した際のホーム画面だ。
先ほど作成したOpenAI Whisperをタップすれば、瞬時に録音が始まる。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/IMG_3243-473x1024.jpg?strip=all&lossy=1&ssl=1)
録音が始まったら、画面のどこかをタップすれば、即座に録音が終了し、WhisperのAPIにファイルが送られる。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/IMG_3245-473x1024.jpg?strip=all&lossy=1&ssl=1)
しばらく待っていると、書き起こされたテキストがクリップボードにコピーされるので、iPhone上で好きなアプリにそれを貼り付けることができる。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/IMG_3246-806x1024.jpg?strip=all&lossy=1&ssl=1)
ホーム画面にこのショートカットを置いておけば、何か文章を書きたいと思ったときに、このショートカットをタップして、すぐに録音を始めることができて、とても便利だ。
注意点として、Macで設定したAPIキーがiCloudドライブのShortcuts/GPT/openAI.txt
というテキストファイルとして保存されているが、iPhoneやiPadにも、このファイルを同期しておかないと、APIキーが呼び出せずにショートカットの起動は失敗する。
このショートカットを使う前に、iPhoneで「ファイル」アプリを開いて、iCloudドライブにある「Shortcuts」フォルダを開くことで、APIキーの入っているテキストファイルを端末にダウンロードしておこう。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/IMG_3244-473x1024.png?strip=all&lossy=1&ssl=1)
「OpenAI Whisper」ショートカットの基本的な使い方
それでは、Macで実際に使った際の様子を紹介する。
APIキーを入力して、Macで作業中にF9キーをタイプすることでいつでも呼び出せるようにした「OpenAI Whisper」を、実際に他のアプリでの作業中に呼び出すシナリオだ。
何かしらの文書を書いている途中で、先ほど設定した「F9」キーを打ち込む。
すると、即座に録音が始まり、秒数が画面に表示される。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-lq1.jpg?strip=all&lossy=1&w=1920&ssl=1)
話し終えたら、「Stop」をクリックすると、録音された音声がOpenAIのAPIリクエストとして送信され、Whisperによる書き起こしが開始される。
少し待っていると、先ほど文章を書いている途中だったカーソルの部分に、書き起こされたテキストが自動で挿入される。
なお、初回のみ、この「OpenAI Whisper」のショートカットがGoogle Chromeなどにアクセス・ファイル送信して良いかを尋ねられるので、「常に許可」を選択すること。
すると、次回以降は「Stop」をクリックした瞬間にWhisperの処理が始まる。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-lqn.jpg?strip=all&lossy=1&w=1920&ssl=1)
さらにWhisper APIのスピードを高めるために
Whisperは、APIリクエストのパラメーターに、言語の指定を含めることができる。
RoutineHubから入手してきた「OpenAI Whisper」のショートカットの編集画面を開き、APIリクエストの中身を編集して、日本語を指定するのがおすすめだ。
「Get contents of」となっている部分の詳細を編集し、Request Bodyに「language」「Text」「ja」という行を追加する。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231127-llf.png?strip=all&lossy=1&w=1920&ssl=1)
予めどの言語で自分が喋っているかをモデルに教えてあげることによって、文字起こしのスピードと、正確性が向上するのだ。
ただ、普段から英語を話す機会が多くある人など、必ずしも日本語に設定したくない人は、言語の指定は行わなくても大丈夫だ。
多少スピードに差あるかもしれないが、テキスト入力中の補助という程度の役割であれば、そこまで長時間の文章の書き起こしさせないし、スピードの差は微々たるものだろう。
Apple純正の音声入力と、Whisperの音声入力を比較
MacやiPhoneの純正の音声入力機能は、いまいち正確でなく、特に英単語と日本語が混ざったような文章をしゃべると、かなり間違った文章が返ってくることが多い。
今回、音声入力の性能を比較するために、全く同じ文章を、Mac/iPhoneの音声入力モードと、音声認識モデルのWhisperで、それぞれ書き起こさせてみた。
発話してみる文章は、以下のようなものだ。
「アルファベットと日本語が入り混じったような文章を、音声入力できるか試します。筆者は、普段はGoogleのPixel 10を使っており、Google Play Storeで入手したアプリを頻繁に使います。最近では、OpenAIの開発したChatGPTやWhisperなどが、とても便利です。」
固有名詞もたくさんあるし、サービス名、英単語、日本語が混ざっているために、AIとしては書き起こすのが非常に難しい文章だと思われる。
しかし、なんだかんだで我々は日常的にこういった会話をしているし、テクノロジーに関する文章を書くときに至っては、これらの正確な書き起こしが、必須中の必須の機能になる。
まずはMacの音声入力機能で試してみる。すると、やはり所々カタカナになってしまったり、サービス名を聞き取れていないところが目立つ。「Pixel 10」に至っては、数字がなかったことになっている。
アルファベットと日本語入り混じったような文章を音声入力できるか試します。筆者は普段はGoogleピクセルを使っており、Google Playストアで入手したアプリを頻繁に使います。最近ではオープンAIの開発者チャットGPやウィスパーのがとても便利です。
次に、「OpenAI Whisper」による音声入力の結果が以下だ。
1箇所だけ、「開発した」を「開発で」と聞き間違えてしまっているが、それ以外は全くミスがない。
アルファベットと日本語が入り混じったような文章を音声入力できるか試します。 筆者は普段はGoogleのPixel 10を使っており、Google Play Storeで入手したアプリを頻繁に使います。 最近では、OpenAIの開発でChatGPTやWhisperなどがとても便利です。
このように、明らかにWhisperを使った音声入力の方が、こちらが意図した通りの変換やアルファベットの使用をしてくれていることがわかる。
Appleの音声入力は、「ChatGPT」を何度言っても正しく聞き取れず、「チャットGP」となってしまうので、こういったストレスがなくなることは大きい。
ただ、Appleの音声入力を使った方が、文章を書きながらカーソルを戻って修正したり、改行や段落の変更といったことも音声によって指示することができるので、便利な場面もある。
筆者は、テック系のニュースなどで、難しい単語が日本語と英語で入り混じりような文章を書くときには、Whisperモデルを使用し、普通の日本語の平文を書く場合には、考えながら喋るのに適しているため、Macの音声入力機能を使うことが多い。
状況に応じて、2つの音声入力機能を使い分けることをお勧めする。
キーボードショートカットを、Appleの純正の音声入力機能と、ショートカットを使ったWhisperの音声入力でそれぞれ別のものに設定しているため、両方を併存させて音声入力を使用することができる。
GPT-4 turboを使って、更に精度を向上させる上級編
以上で紹介した方法だけでも、Mac, iPhone, iPadで、ショートカットを使って、いつでもすぐにWhisper APIを呼び出して音声入力機能を使えるようになった。
十分精度は高いが、使っているとさらに精度を高めたいという欲が出てくるのも事実。
そこで、Whisperから出力された書き起こし後のテキストを、GPT-4のAPIに校正させることによって、さらに出力の精度を引き上げるという一連のプロセスを、ワンタップで実行できるショートカットを作ってみた。
ここからは、先ほど紹介したショートカットをさらに編集していく必要があるので、ショートカットを使い慣れている人におすすめしたい。
単純にダウンロードすればいいだけのファイルも配布しているので、知識がない人は単にダウンロードするだけでも、このショートカットを使うことができる。
ショートカットファイルの配布
こちらのショートカットファイルをダウンロードして、あなたのMac, iPhone, iPadのショートカットアプリにインポートすれば、すぐにWhisperとGPT-4両方のAPIを叩くショートカットを使うことができる。
GPT-4による校正のスタイルを左右するプロンプトの部分などは、それぞれの使い方に応じて書き換える必要があると思うので、以下の解説も読み込んで、必要な修正を行ってほしい。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231128-ut-1024x423.png?strip=all&lossy=1&ssl=1)
もちろん、そのままの状態でも一応使うことはできるが、いつも書き起こすジャンルが明確に決まっている場合はそれを伝えた方が良いし(イラスト制作に関する音声の校正です、etc.)、望む文体が”だ・である”調であれば、プロンプトも”だ・である”調にして誘導した方がいいだろう。
Whisperのみによる文字起こしの課題
前提として、Whisperによる文字起こしだけでは満足できない理由を説明する。
Whisperをショートカットから呼び出して音声入力をする方式は、前後の文脈も伝えることができないし、文中に登場する固有名詞の表記などを細かくプロンプトで指示もできないため、こちらが期待した通りに100%書き起こしてくれるかというと、まだそのレベルには達していない。
非常に極端な例として、大量の企業の名前やメディアの名前、英単語と日本語が入り混じるような文章を、実際にWhisperのショートカットを使って音声入力で打ち込んでみたのが以下の例だ。
(カタカナが多い文章として思いついたのが、仮想通貨ネタとプログラミングネタだった。内容に意味はない。)
最近仮想通貨取引所のバイナンスが米司法省によってマレー・ロンダリングの罪で告発されました このニュースはテッククランチやニューヨークタイムズなどのメディアでも報道されています 仮想通貨業界ではマウントボックスやFTXなど取引所の事件が昔から相次いでいます ビットコインやイーサリアムなどの仮想通貨の未来はどうなるのでしょうか また最近はパイソンのパッケージの開発も盛んです 昔からパンダスやマットリプロットリブを用いたデータの操作が人気ですが 最近はAI関連のパッケージの開発も進んで次々と新しいツールが生まれています
ご覧の通り、固有名詞は間違いだらけだ。
正しくは「Mt.Gox」なのだが、「マウントボックス」になってしまっているし(仮想通貨取引所の名前)、「マネーロンダリング」も「マレー・ロンダリング」になってしまっている。
また、Pythonのライブラリの名前など、技術系の単語も、すべてカタカナになってしまい、「pandas」が「パンダス」、「Matplotlib」が「マットリプロットリブ」と表示されている。間違っているとまでは言わないが、やはりこれらは英語で表記してほしい。
当然ながら、音声認識モデルの限界として、一般名詞なら対応できるが、固有名詞はやはり正確に表記することまでは難しいのだ。
GPT-4によってWhisperをサポートすると劇的に改善
テック系の記事を書く場合には、Pythonなどプログラミング言語まわりの単語についても、やはり正確に表記してほしい。
そこで、先ほどのWhisperの出力に、GPT-4 turboのAPIによって修正を加えてみたのが以下の例だ。
最近、仮想通貨取引所のBinanceが米司法省によってマネーロンダリングの罪で告発されました。このニュースはTechCrunchやThe New York Timesなどのメディアでも報道されています。仮想通貨業界では、Mt. GoxやFTXなど、取引所の事件が昔から相次いでいます。ビットコインやイーサリアムなどの仮想通貨の未来はどうなるのでしょうか。また、最近はPythonのパッケージの開発も盛んです。昔からPandasやMatplotlibを用いたデータの操作が人気ですが、最近はAI関連のパッケージの開発も進んで、次々と新しいツールが生まれています。
圧倒的にクオリティが高いのがお分かりいただけるだろうか?
上記のWhisperのみの場合に正しく表示できていなかった企業名やメディア名、あるいはPythonのライブラリの名前などが、全て正式な表記に直っていることがわかる。
このレベルまで来ると、音声入力の後に人間が手を加える必要が全くないので、文章を書く上でのストレスが本当に激減する。
もちろん、WhisperのAPIを呼び出した後にGPT-4ターボのAPIを呼び出すことになるため、APIの使用にかかる料金は増すことになる。
しかし、GPT-4 turboの料金はかなり安いため、テキスト入力中にサポートしてもらうぐらいの用途であれば、APIの使用料金は数セントで済む。
GPT-4 turboは1000トークンの入力で1セント、出力で3セントなので、1000トークン分の校正(入出力1往復)で合計4セントかかることになる。
日本語で言うと、1000トークンは約750文字と言われているので、750文字を校正させても6円しかかからない計算だ(1ドル150円換算)。
ちなみに、750文字というと、読み上げると2分半ほどなので、Whisper APIにかかる料金も2円くらいだ。
10円以下で、2分半にわたって自分がベラベラと話した内容を完璧に書き起こして、修正・校正までしてくれるアシスタントが手に入ると思えば、非常に安価だと言えるのではないだろうか。
ショートカットにGPT-4 turboを埋め込む
GPT-4を組み込むための改変を全て行った後のショートカットのダウンロードリンクも用意してあるが、どのような改変を行なったのかを一応解説していく。
冒頭の方で紹介したWhisperのAPIを叩くショートカットをベースとして、Whisperの出力をそのままGPT-4のAPIリクエストに使うように変更している。
作成方法は、以下の通りだ。
Appleのショートカットアプリで、最初に使った「OpenAI Whisper」ショートカットのコピーを作成して、「Whisper + GPT-4」と名付けて保存する。
WhisperのAPIからレスポンス(書き起こしテキスト)を得た後に、それをユーザーによるプロンプトであると考え、校正の指示を与えるシステムプロンプトとともに、GPT-4へのAPIリクエストを行うようなワークフローに修正する必要がある。
実際のGPT-4へのAPIリクエストは、次のように作成した。
![](https://ecuvqdi5d4k.exactdn.com/wp-content/uploads/2023/11/SCR-20231128-4c-1024x1006.png?strip=all&lossy=1&ssl=1)
システムプロンプト(毎回同じ校正の指示)と、ユーザープロンプト(毎回Whisperから出力される新規の書き起こしテキスト)を、それぞれ辞書型にして、GPT-4 turboのAPIリクエストに含めている。
システムプロンプトとして、例えば以下のような校正方法の指示を与える。
元の文意を変えないこと、余計なスペースを削除すること、サービス名などを正しく表記することなどを盛り込む。
以下はWhisperによって書き起こされたテキストです。元の文章の意味を損なわず、次の修正を行なってください。修正後のテキストのみを返信してください。
- 不要なスペースの削除
- 適切な句読点、改行の追加
- 固有名詞と思われる単語の正式表記への変換
あなたがどのような文体で、どのような修正を依頼したいかによって、ここで指示する内容は変えた方が良いと思うので、基本的な記載に留めておく。
WhisperとGPT-4を組み合わせたこのショートカットを使用しているうちに、もっとこういう風に修正してほしいとか、あなたの文章の癖に合わせた望ましい修正の在り方がわかってくるはずだ。
そういった時は、このプロンプトの部分を書き直して、自分のニーズに合わせてカスタマイズしよう。
AIがライティングのパートナーになる時代へ
ChatGPTなどのAI技術の発展により、様々な仕事やタスクが効率化できるようになった。
AIには、得意なタスクや、苦手なタスクがあると言われているが、特にプログラミングなどのタスクにおいては、AIの補助を受けながらコーディングをすることで、生産性を大きく引き上げるのが常識になりつつある。
しかし、日本語で文章を書くことは、まだまだAIのレベルが発展途上であると感じている。
その点、音声認識技術を使って、人間が口頭で喋った内容を文字に書き起こしてくれるWhisperのようなAIモデルは、「文章を書く」というタスクを効率化する上で、現在利用できる最も実用的で、効果の高い方法だと感じる。
筆者の場合、ブログの記事を書くのが面倒なときなどは、まずはマイクに向かって喋り続けて文章の下書きを作成し、それを手直ししながら書き進めることが多い。
この書き方によって、まず作業を始めるという最初のハードルが大きく下がり、モチベーションを維持し、生産性を高めるのに貢献してくれている。
もちろん、文章を書いている途中で情報収集が必要になれば、ChatGPTなどのテキスト生成モデルにリサーチを手伝ってもらうことで、テキストによるフィードバックを受けることもできる。
AIの時代に、ウェブライターや新聞記者、作家、サラリーマンまで、文章を書く人たちの生産性革命も始まっているのだ。
Whisperのような音声認識モデルをうまく使って、あなたの生産性を引き上げよう。