有料版のChatGPT Plusで利用できるGPT-4モデルや、画像解析の機能は、APIとしても使うことができる。
API経由でGPT-4やGPT-4V(画像解析に対応したモデル)を利用すると、入力した情報がトレーニングに使われず、プライバシーが守られるという大きな利点がある。
ビジネスユーザーなど、情報漏洩のリスクが心配な人は、ChatGPTよりも、同じモデルのAPIを使った方が良い。
しかし、APIを実装するにはプログラミングの知識が多少なりとも必要で、若干ハードルが高いのも事実だ。
この記事では、GPT-4/GPT-4VモデルのAPIを、誰でも簡単に使えるチャット風のインターフェースで、Google Colabに実装する方法を紹介する。
Colabノートブックを無料で公開しているので、Googleアカウントさえあれば、初心者でも手間ゼロですぐに利用できる。
GPT-4を仕事に取り入れたいビジネスマンから、GPT-4のAPIの動作をチェックしたいがコーディングが面倒なエンジニアまで、ぜひ活用してほしい。
ChatGPTではなく、APIでGPT-4を使うことの大きなメリット
利用したことがある人も多いであろうChatGPTは、人間とチャットしているかのような画面の構成で、AIに様々な質問を投げかけ、返信をもらうことができる。
無料版ならGPT-3.5しか利用できないが、課金するとGPT-4モデルを利用でき、非常に精度の高いAIアシスタントが得られる。
複雑なコードなどを書くことなく、使い慣れたインターフェースで直感的に利用できるのが大きなメリットで、筆者もChatGPT Plusで月額20ドルを払って利用している。
しかし、ChatGPTの大きなデメリットは、ユーザーのインプットや、AIのアウトプットが、将来のモデルのトレーニングに利用されてしまうという点だ。
ChatGPTの設定をみると、「このブラウザの新しいチャットを履歴に保存し、当社のモデルを改善するために使用できるようにします。」として、履歴がトレーニングに利用されることが明記されている。
極端な例としては、会社の未公開の情報を書き込んでしまったりすると、その内容をChatGPTが学習してしまい、他のユーザーに表示されてしまう懸念があるということだ。
有料版のユーザーであれば、チャット履歴を残さない設定にすると、トレーニングデータとして利用させないことも可能だが、チャット履歴を見れないとかなり不便だ。
API経由ならプライバシーが守られる
この点、API経由で利用するGPT-4/GPT-4Vは、プライバシーの確保が大きな強みである。
OpenAIのエンタープライズ向けのページには、APIを介したチャットのデータは、モデルのトレーニングに利用しないと明記されている。
APIでGPT-4モデルを使っている限り、普通のChatGPTで心配になるような自分が打ち込んだ情報の再利用リスクがないということだ。
そのため、仕事の作業のアシスタントとしてGPT-4を使うような場合にも、通常のChatGPTより遥かに安心して利用することができる。
API経由で使ったほうが多くの場合安い
また、料金の面でもメリットがある。
ChatGPT Plusは月額20ドルが固定でかかる。
APIは、従量課金なので、使った量に応じて料金が請求される。
GPT-4 turbo / 画像認識に対応したGPT-4 visonともに、APIの料金は以下のようになっている。
- ユーザーの入力1000トークンあたり1セント
- AIによる出力1000トークンあたり3セント
- 1000px * 1000pxの画像1枚の読み込みで0.7セント強
1,000トークンは、およそ日本語750文字ほどと言われている。
ざっくり言えば、1ヶ月あたり日本語500,000字をGPT-4に考えさせると、20ドルに達することになる。
相当なヘビーユーザーでない限り、この量を使うことはないのではないだろうか。
AIの性能をちょっと試してみたいといったユーザーの場合、20ドルを払うよりも、APIを使ってモデルの性能を試してみた方が、安価に済むことが多いだろう。
APIを使ってGoogle Colab上でChatGPTのようなUIを実装
23年11月のOpenAIのイベントでリリースされたばかりの、GPT-4がさらに高速になったGPT-4 turboのAPIと、アップロードした画像の解析までしてくれるマルチモーダルなGPT-4V (VisionのV)のAPIを実装した、2種類のノートブックを用意した。
以下のボタンリンクから、それぞれのノートブックを開くと、すぐに各APIを利用できるようになっている。
プログラミングの経験が一切ない初心者でも、簡単に使えるので、ぜひ活用してほしい。
具体的な使い方や、APIキーの用意の方法などは、以下で解説していく。
高速で安価:GPT-4 turboのAPIを実装したColabノート
テキストだけでやり取りをしたい場合には、こちらのGPT-4 turboの方を利用しよう。
画像解析機能付き:GPT-4V(ison)のAPIを実装したColabノート
写真やスクリーンショットをアップロードして、その画像の内容について質問をしたい場合などは、こちらのGPT-4Vの方を利用する。
OpenAIのAPIキーの入手方法
APIキーとは、サービスを利用するパスワードのようなもので、API経由でGPT-4などのモデルを使用する上で必要になる。
OpenAIのサイトで、あなた専用のAPIキーを発行して、クレジットカードを登録しておくことで、使用量に応じてクレジットカードに後日請求が来る。
APIキーは簡単に発行でき、一度作ったキーはずっと使い回せるので、初回のみAPIキーの作成作業が必要になる。
まだAPIキーを持っていない人は、以下の記事で作り方をわかりやすく解説しているので、そちらを確認してほしい。
APIキーのGoogle Colabへの登録
APIキーを、Google Colab上で簡単に呼び出せるようにする機能があるので、OpenAIのサイトで発行したAPIキーを、Google Colabに登録しておこう。
Google Colabを開いて、画面の左側にあるメニューバーから、鍵のマークをクリックする。
すると、「シークレット」機能の画面が開くので、先ほど作成したOpenAIのAPIキーを、「openai_api」という名前をつけて保存しておく。
上記のGPT-4/GPT-4Vを使うためのGoogle ColabノートのPythonコード内で、あなたのAPIキーを呼び出すために「openai_api」という名前を使っているので、必ず同じ名前にして保存する必要がある。
Google Colabノートブックの基本的使い方
そもそもGoogle Colabを一度も使ったことがない、という人のために、基本的なことから解説をしておく。
Google公式が公開しているサンプルColabノートブックを見てみると、Google Colabが何たるかが分かりやすい。
正式名称はGoogle Colaboratoryで、テキストと、Pythonコードを、一つの文書(ノートブック)としてGoogleドライブ上に作成し、簡単に編集・共有することができるサービスだ。
Colabノートブックに書き込んだPythonコードは、実際にColab上で実行することもでき、足し算や掛け算などの計算をノートブックの中で行わせることができる。
コードセルは上から実行していくのが基本で、コードセル1つ1つについている再生マークのような実行ボタンを押すと、そのコードセルの中のPythonコードを実行した結果が表示される(上記の画像の例では、掛け算の計算結果が表示)
これを利用して、もっと複雑なPythonコードをコードセルに書き込めば、OpenAIのGPT-4VのAPIを使ってチャットするUIのような複雑なプログラムを作成することも可能なのだ。
GPT4/GPT-4VのAPIを実装したColabノートブックの動かし方
上記のボタンから、GPT-4 / GPT-4Vのノートブックを開く。どちらも使い方は同じだ。
ノートブックを開いて、上部のメニューから、「ランタイム」「すべてのセルを実行」をクリックすれば、ノートブック内のすべてのPythonコードセルが実行されるので、これが一番楽だ。
(もちろん、上から順に、コードセルを一つ一つ手動で実行していっても同じことができる)
筆者が作成して公開しているノートブックなので、「このノートブックは Google が作成したものではありません。」という警告が表示されるが、「このまま実行」をクリックする。
チャットの履歴をGoogleドライブに保存する機能をつけているため、Googleドライブと、このGoogle Colabノートブックを接続する必要がある。
自分のGoogleアカウントにログインして、権限の付与について「許可」をクリックする。
また、「シークレット」に登録したあなたのOpenAI APIキーにもアクセスする必要があるため、シークレットへのアクセスについてのポップアップが表示される。
APIのリクエストを行うために必須なので、「アクセスを許可」をクリックする。
GPT-4 turboの場合
GPT-4 turboのノートブックのセクション4「GPT-4 turboモデルのインターフェース」のコードセルを実行すると、以下のようなテキストボックスが表示される。
ここに、GPT-4に聞きたいことを書き込んで「Send」ボタンをクリックすると、APIリクエストが送信される。
しばらく待つと、GPT-4からの返信が表示される。
例として、AIに関するブログの記事のタイトルを3つ考えてもらった。
- グレー文字がシステムプロンプト
- 青文字がユーザーのインプット
- 緑文字がGPT-4のアウトプット
になっているので、チャットをしているような感覚で、簡単に使うことができる。
もちろん、このまま会話を続けたいときは、続きの文章をテキストボックスに書き込んで、再度「Send」ボタンを押せば、会話を続けることが可能だ。
画像解析もできるGPT-4Vの場合
GPT-4Vのノートブックのセクション4「GPT-4Vモデルのインターフェース」のコードセルを実行すると、以下のようなテキストボックスが表示される。
ここからChatGPTと会話をするようなインターフェースで、GPT-4VのAPIリクエストを行うことができる。
「Upload」ボタンから、画像ファイルをアップロードすると、その画像の内容に対する質問も行うことができる。
テキストを入力して、必要なファイルをアップロードして、「Send」ボタンをクリックしてしばらく待つと、GPT-4Vからの回答が表示される。
実際に、青空の写真を適当にネットからスクショして、それをアップロードした上で何が写っているかを聞いてみた。
Assistant: この画像には青い空と白い雲が写っています。晴れた日によく見られる風景で、雲は浮かんでいるような軽やかな形をしています。とても爽やかで平和な印象を受けますね。
というように、的確に画像の内容を解読してくれた。
ちなみに、GPT-4Vモデルは、画像を読み取れる機能がついているものの、テキストのみでもやり取りすることができる。
画像を添付しなければ、普通のGPT-4モデルを使っているのと同じことだ。
上のやり取りでは、最初に「こんにちは」と何も画像ファイルを添付することなく話しかけているが、ちゃんと返事をしてくれている。
チャット履歴のGoogleドライブへの保存
GPT-4 turboのColabノートも、GPT-4VのColabノートも、メッセージ履歴をGoogleドライブに保存する機能も実装してある。
やり取りが完了したら、ノートブックのセクション5「メッセージ履歴の保存」にあるコードセルを実行する。
デフォルトでは、Googleドライブのマイドライブ内の「Colab Notebooks」フォルダに、「現在時刻_chat_history.txt」というファイルが生成されるようになっている。
履歴から必要な箇所をコピペしたり、後から編集したりすることができるので、便利だ。
GPT-4Vの便利な使い方:PDFやスクショのOCRとして使う
ちなみに、GPT-4Vの使い道として、筆者が便利だと感じているユースケースとしては、テキスト情報が入っていないPDFや、写真内の文字などを書き起こさせ、OCRソフトのように利用することだ。
OCRとは、画像データから文字情報を読み取って、テキストデータに変換する技術のことだ。
よくあるのは、ネットで拾ったPDFの中にある表を、エクセルにコピーしたいが、うまく転記することができず、手動で数字を打ち込むというとんでもなく面倒な作業をしなければならないシチュエーションだ。
こうした時に、GPT-4Vに画像に写っているテーブルを、CSV形式で書き起こしてくれ、とお願いすると、カンマで区切られた表形式のテキストを返してくれる。
これを、WindowsやMacで、テキストエディタ(Windowsであれば「メモ帳」)にコピペして、ファイルを「サンプル.csv」というCSV形式のファイルで保存すると、エクセルで開くことができる表データになる。
例えば、サンプルとして、Wikipediaの東京都の項から、「姉妹友好自治体」の表をスクショして、画像としてGPT-4Vに渡してみる。
「画像形式で保存したテーブルを、CSV形式に書き起こしたいです。」というプロンプトと共に、スクショを添付したところ、見事に全て書き起こしてくれた。
これを.csvファイルとして保存すれば、瞬時に画像内のテーブルを、エクセルなどの表計算ソフトで編集可能な表にすることができるのだ。
APIを利用するため、データがトレーニングデータとして使われてしまう心配もないため、仕事でも安心して実用できるのが嬉しいポイントだ。
他にも便利なOpenAI対応Google Colabノートを公開中
本記事では、ChatGPTと同様のチャット機能が使えるGPT-4 turboと、マルチモーダル対応の画像解析モデルであるGPT-4Vを実装した。
当ブログでは、他にもOpenAIが提供しているAPIや、OpenAIが公開しているAIモデルを、Google Colaboratoryで誰でも簡単に使えるノートブックを、複数公開している。
ぜひ活用して、最新のAIモデルたちの便利さを体感してほしい。
最新の画像生成AIであるDALL-E 3のAPIを使えるノート
OpenAIは、テキスト生成モデルだけではなく、画像生成モデルであるDALL-Eも開発している。
テキストプロンプトに基づいて、画像を生成してくれるので、例えばプレゼンテーションの資料に載せるためのアイコンを作りたい、といった用途で非常に便利だ。
DALL-E 3も、OpenAIのAPIキーを持っていれば、画像1枚あたり数円で生成できるので、今すぐ以下の記事からGoogle Colabノートを使ってみよう。
テキストを音声で読み上げてくれるText-to-speech APIを使えるノート
さらに未来感があるOpenAIが提供しているAPIとして、文字情報を渡すと、それを読み上げた音声を返してくれるAPIも存在する。
Text-to-speechモデル(TTSモデル)は、6種類の驚くほど人間っぽいリアルな声で、音声を合成してくれるモデルだ。
Google Colab上で簡単に実行して、生成された音声の再生までできるので、ぜひ一度試してみてほしい。
無料で無限に使える文字起こしAI Whisperを使えるノート
こちらはAPIではなく、OpenAIが公開している超高精度の音声認識AIである「Whisper」というモデルを、Google Colaboratory上で無料で動かせるようにしたノートブックだ。
OpenAIにデータを送信する必要すらなく、Googleドライブ上で簡潔するため、会社のミーティングの録音なども、安心して書き起こしすることができる。
また、オープンソースで公開されているモデルを使うため、利用料も一切かからず、どれだけ長い音声を何回書き起こしても無料だ。
めちゃくちゃ生産性の向上に役立つ実用的なノートブックなので、ぜひブックマークしてほいし。