iPhoneなどのスマホで、長文のメールやメッセージをフリック入力するのは本当にめんどくさい。
マイクを使って完璧な精度で音声入力ができればいいのに・・・と思ったことが、誰もが一度はあるはず。
本記事では、プログラミングの知識も不要で、iPhoneに初めから入っている「ショートカット」アプリを活用して、非常に正確で、かつ高速な音声入力機能を実現する方法を紹介する。
活用するのは、OpenAIが開発する2つの最新AIモデルだ。
音声認識モデル「Whisper」を使って音声をテキスト化し、さらにその結果を「GPT-4o」に校正させることで、完璧な音声入力を可能にする。
もう一生フリック入力をしなくても良くなるレベルなので、ぜひAI革命の一端を体験してほしい。
Apple純正の音声入力機能の課題
iPhoneなどのスマートフォンで利用できる音声入力機能は、まだまだ発展途上だ。
せっかく音声での入力を試してみても、例えば「Googleドライブ」などのブランド名やサービス名が聞き取れなかったり、「Google」が「ググール」とカタカナになってしまったり、あまり実用的ではない。
実際に、iPhoneの純正の音声入力機能を使って、以下の文章を、口頭で音声入力してみる。最近登場したばかりのサービス名など新しい固有名詞が多く、難易度は高めだ。
iOSショートカットを使うことで、iPhoneで即座にWhisperとGPT-4を使った音声文字起こしが利用できる。
すると、以下のようにグチャグチャの結果となってしまった。
これでは結局、細々と手直しが必要になるので、最初から自分で手打ちをした方が早い。
その点、最近ではOpenAIが開発するWhisperなどの、非常に高精度な音声文字起こしAI(Speech-to-Textモデル)が登場している。
本記事では、そうした最新のAI技術を最大限に活用して、iPhoneで非常に正確かつ高速な音声入力機能を実現する方法を紹介する。
ショートカットのダウンロード方法
まずは以下のリンクをタップして、このショートカットのテンプレートをダウンロードして欲しい。
のちほど、ごく一部だけ編集しなければならないので(あなたのAPIキーを登録する)、どちらかというと、Macでダウンロード&編集するのが最も見やすくて楽だ。
Macを持っていない場合には、iPhoneでも、iPadでも構わない。
zipファイルに圧縮しているので、iPhoneやiPadでダウンロードする場合は、Filesアプリに保存した上で、zipファイルをタップして解凍する必要がある。
ショートカットは(notai.jp) Speech-to-Text
というタイトルになっているので、「ショートカットを追加」ボタンをタップした上で、自分の好きな名前に変更すれば良い。
以下、このショートカットを実際に起動するまでの手順を解説していく。
このショートカットで出来ること
まず最初に、このショートカットを導入することで、実現できる結果を紹介する。
iPhone / iPadのウィジェット機能を使うと、お気に入りのショートカットをホーム画面にボタンとして配置することができる。
上記のテンプレートを、「iOS Groq + GPT-4o」という名前に変更して保存し、ホーム画面に配置したのが以下の状態だ。
「iOS Groq + GPT-4o」ショートカットをタップすると、直ちに以下のような画面になり、録音がスタートする。
画面をタップすると録音が終了し、直ちにそれがWhisperモデルによってテキスト化され、さらにGPT-4oモデルによって誤字・脱字が修正され、画面に結果が表示される。
非常に高速なので、ローマ字入力と日本語入力を切り替えながらフリック入力を頑張るよりは、圧倒的に早くテキストを入力できる。
先ほどと同じく、以下の文章を喋ってみたが、固有名詞まで正確に&完璧にテキスト化されていることがわかる。
iOSショートカットを使うことで、iPhoneで即座にWhisperとGPT-4を使った音声文字起こしが利用できる。
しかも、この画面に表示されたテキストは、自動的にクリップボードにコピーされているので、メールやメッセージ、メモ帳など、好きなアプリにペーストすることができる。
メールの執筆、ドキュメントの編集、日記やメモの作成まで、あらゆるテキスト入力タスクが大幅に時間短縮できるので、あなたの生産性を大きく改善してくれるはずだ。
ちなみに、このショートカットは、iPhoneだけでなく、MacやiPadでもそのまま使えるので、様々な場面で便利に使えるはずだ。
以下はMacでこのショートカットを実行した様子だが、画面に結果が表示され、またクリップボードにテキストが自動的に保存されている。
ショートカットを使うためのAPIキーの入手
このショートカットを利用するには、ほんの少しだけ、下準備が必要になる。
このショートカットの核となっているAIモデルたち、すなわち音声認識AI「Whisper」や、テキストAI「GPT-4o」を利用するため、APIキーが必要になるのだ。
このショートカットでは、料金を可能な限り安く、スピードを可能な限り速くするために、以下の2つのサービスのAPIを利用している。
- Groq CloudのAPI:最新の「Whisper v3」モデルをとんでもなく高速、しかも無料(記事執筆時点)で利用できる
- OpenAIのAPI:最も性能の高い大規模言語モデル「GPT-4o」を格安で利用できる
したがって、OpenAIのAPIキーと、GroqのAPIキーを、それぞれ会員登録して取得して欲しい。
OpenAIのAPIキーの取得方法は、以下の記事で紹介している。
Groq CloudのAPIキーも、OpenAIとほぼ同じ方法で作成できるので簡単だ。
Groqの凄さは、当サイトの過去記事『スターウォーズ全編を7分で文字起こし!Groqの超高速APIで「Whisper v3」を無料で使う方法』でも紹介しているので、参考にしてほしい。
激安!APIの利用料金の目安
音声入力ショートカットは、頻繁に利用することになるので、APIの利用料金がどの程度になるのか心配な人も多いかもしれない。
結論から言うと、API利用料は驚くほど安く、長文のブログ記事を音声入力だけで作成しても数円〜数十円で済むので、あまり気にしなくても良いと思う。
具体的には、GroqとOpenAIのAPIは、それぞれ以下の料金形態となっている。
Groq Cloud – Whisperモデルの料金(ただし現在は無料!)
- 1時間の音声のテキスト化・・・$0.111(約16円)
1時間の音声でも16円に収まってしまう。
ほとんどのメールの作成は数分であろうから、かなり頑張っても10円にも行かないはずだ。
OpenAIも、WhisperのAPIサービスを提供しているが、このショートカットではあえてGroq CloudのWhisper APIを利用している。
その理由は、GroqがOpenAIのWhisper APIの約6倍の速度で、約12分の1の価格を実現しているためだ。
つまり、圧倒的に速く、圧倒的に安く、音声のテキスト化が可能なのだ。
OpenAI – GPT-4oモデルの料金
- 入力トークン: 100万トークン(75万 words)あたり $2.50
- 出力トークン: 100万トークン(75万 words)あたり $10.00
100万トークンは、だいたい英文で言うと75万単語に相当する。
全7巻のハリーポッターシリーズでようやく100万単語なので、これは途方もない数字である。
つまり、ハリーポッターを丸ごと6冊入れたり出したりして、やっとGPT-4oの利用料金が2千円に行くか行かないか、というわけだ。
日々のメールやメッセージ、企画書を書く程度では、1ヶ月で100円もかからないだろう。
フリック入力もタイピングも殆どしなくて良くなる生活を考えれば、あまりにも安すぎる。
ショートカットに自分のAPIキーを入力
MacOSやiOSの「ショートカット」アプリに、ダウンロードしたショートカットを入れたら、「・・・」マークをタップして、ショートカットの編集画面に入る。
すると、上部にOpenAIのAPIキーを入力している箇所があるので、ここに、先ほど作成したOpenAIのAPIキー(sk-から始まる)をペーストして欲しい。
APIキーは自分専用のものなので、他人に知られてはいけない。このショートカットを友人にシェアする場合などは気を付けよう。
同様に、少し下にスクロールして、Groq Cloudで会員登録して作成したAPIキー(gsk-から始まる)を以下にペーストする。
これで、あなたのAPIキーを使って、このショートカットがWhisperモデルやGPT-4oモデルを呼び出すことができるようになった。
OpenAIやGroqのサイトにログインして、「Billing」「Usage」などのページを見れば、APIの使用量や、利用料金を確認できるので、定期的に確認すると良い。
以上で、全ての準備が整った。
早速、iPhone、iPad、Macで、快適な音声入力を試してみてほしい。
長文を打つ手間が省けて、クオリティオブライフが大きく向上するはずだ。
文字起こしショートカットの仕組み
Appleのショートカットは、編集機能を使えば中身が全て見れるし、自分で変更することも可能だ。
ショートカットの仕組みを理解できれば、テキスト出力結果を「リマインダー」アプリに繋いだり、Apple Watchでこのショートカットを使ったり、Macのキーボードショートカットで呼び出したり、様々なカスタマイズが可能になる。
以下では、せっかくなので、この音声入力ショートカットが、どのように実現されているかの仕組みを解説していく。
まず、冒頭でapi-openai
という変数と、api-groq
という変数を定義し、それぞれにAPIキーを割り当てている。
次に、音声の録音を開始し、録音を終えたら、自動的にその音声ファイルをGroq Cloudに送信するAPIコールを発する。
そして、APIのレスポンスとして帰ってきた文字起こしテキストを、Transcribed Text
変数に保存している。
これで音声の文字起こしは完了したので、誤字脱字や固有名詞の校正・修正のためのGPT-4oへのAPIコールの準備を進めていく。
GPT-4oのAPIコールには、(1) システムプロンプトと、(2) ユーザープロンプトの2つが必要だ。
(1) システムプロンプトは、AIが果たすべき役割や挙動に関する指示文であり、ここで文章校正のルールをAIに伝えている。トークン数の圧縮のために英語でシステムプロンプトを設定しているが、日本語で書くと以下のようになっている。
このシステムプロンプトを書き換えさえすれば、「全てを関西弁に変える」とか、「全てを英語に翻訳する」とか、校正以外の結果を得ることも、もちろん可能だ。
Whisperによって文字起こしされた以下の日本語テキストを、メール、メッセージ、ブログ記事、または一般的な文書に適した形式に整形してください。元の意味、トーン、スタイル、話し方を維持しながら、以下の修正を適用してください:
- 不要なスペースを削除する。
- 読みやすさを向上させるために、適切な句読点(コンマを含む)や段落(改行)を追加する。
- サービス名や会社名などの固有名詞を正式な正しい表記に修正する。例えば:
- 「オープンAI」->「OpenAI」
- 「リアルタイムAPI」->「Realtime API」
- 新しい内容や文章を追加しないでください。既存のテキストに必要な修正のみを行ってください。
- 敬語や話し方は元のテキストのまま維持してください。動詞の形や敬語レベルを変更しないでください。元のテキストが丁寧語を使用している場合はそのままにし、常体を使用している場合は変更しないでください。
英語に翻訳せず、修正したテキストのみを出力してください。
(2) ユーザープロンプトは、今回の場合、実際に校正・修正をしてほしい文字起こしテキストだ。
ここでは、先ほどWhisperから入手したTranscribed Text
を、ユーザープロンプトとして形を整えているだけだ。
以上でGPT-4oのAPIコールをするための準備は整ったので、システムプロンプトとユーザープロンプトをAPIコールに含めて送信する。
"model": "gpt-4o"
となっている箇所を修正すれば、将来登場した新しいモデルに変更したり、gpt-4o-mini
などのより軽量で高速なモデルに変更することも可能である。
あとは、GPT-4oからの出力結果をクリップボードに保存するとともに、画面に表示して、ショートカットを終了するだけだ。
以上でこのショートカットの解説は終了だが、この最後の部分を、「ショートカット」アプリに備わっているさまざまな出力方法に変更すれば、より多様なアクションを起動することも可能だ。
例えばMacで使用する場合、アクティブなアプリに即座に結果を貼り付けて欲しい時は、フローの最後を以下に変更すればよい。
Apple純正のアプリと、ショートカットは豊富な連携が可能なので、リマインダーアプリに文字起こしの結果を登録したり、iMessageの新規メッセージを下書きしたりもできる。
仕組みを理解すれば、カスタマイズの可能性は無限大なのだ。