初心者も簡単！Google ColabでGPT-4 turboとGPT-4 visionのチャット風UIを実装したノートを無料公開

有料版のChatGPT Plusで利用できるGPT-4モデルや、画像解析の機能は、APIとしても使うことができる。

API経由でGPT-4やGPT-4V（画像解析に対応したモデル）を利用すると、入力した情報がトレーニングに使われず、プライバシーが守られるという大きな利点がある。

ビジネスユーザーなど、情報漏洩のリスクが心配な人は、ChatGPTよりも、同じモデルのAPIを使った方が良い。
しかし、APIを実装するにはプログラミングの知識が多少なりとも必要で、若干ハードルが高いのも事実だ。

この記事では、GPT-4/GPT-4VモデルのAPIを、誰でも簡単に使えるチャット風のインターフェースで、Google Colabに実装する方法を紹介する。

Colabノートブックを無料で公開しているので、Googleアカウントさえあれば、初心者でも手間ゼロですぐに利用できる。

GPT-4を仕事に取り入れたいビジネスマンから、GPT-4のAPIの動作をチェックしたいがコーディングが面倒なエンジニアまで、ぜひ活用してほしい。

ChatGPTではなく、APIでGPT-4を使うことの大きなメリット

利用したことがある人も多いであろうChatGPTは、人間とチャットしているかのような画面の構成で、AIに様々な質問を投げかけ、返信をもらうことができる。

無料版ならGPT-3.5しか利用できないが、課金するとGPT-4モデルを利用でき、非常に精度の高いAIアシスタントが得られる。

複雑なコードなどを書くことなく、使い慣れたインターフェースで直感的に利用できるのが大きなメリットで、筆者もChatGPT Plusで月額20ドルを払って利用している。

しかし、ChatGPTの大きなデメリットは、ユーザーのインプットや、AIのアウトプットが、将来のモデルのトレーニングに利用されてしまうという点だ。

ChatGPTの設定をみると、「このブラウザの新しいチャットを履歴に保存し、当社のモデルを改善するために使用できるようにします。」として、履歴がトレーニングに利用されることが明記されている。

極端な例としては、会社の未公開の情報を書き込んでしまったりすると、その内容をChatGPTが学習してしまい、他のユーザーに表示されてしまう懸念があるということだ。

有料版のユーザーであれば、チャット履歴を残さない設定にすると、トレーニングデータとして利用させないことも可能だが、チャット履歴を見れないとかなり不便だ。

API経由ならプライバシーが守られる

この点、API経由で利用するGPT-4/GPT-4Vは、プライバシーの確保が大きな強みである。

OpenAIのエンタープライズ向けのページには、APIを介したチャットのデータは、モデルのトレーニングに利用しないと明記されている。

APIでGPT-4モデルを使っている限り、普通のChatGPTで心配になるような自分が打ち込んだ情報の再利用リスクがないということだ。

そのため、仕事の作業のアシスタントとしてGPT-4を使うような場合にも、通常のChatGPTより遥かに安心して利用することができる。

API経由で使ったほうが多くの場合安い

また、料金の面でもメリットがある。

ChatGPT Plusは月額20ドルが固定でかかる。
APIは、従量課金なので、使った量に応じて料金が請求される。

GPT-4 turbo / 画像認識に対応したGPT-4 visonともに、APIの料金は以下のようになっている。

ユーザーの入力1000トークンあたり1セント
AIによる出力1000トークンあたり3セント
1000px * 1000pxの画像1枚の読み込みで0.7セント強

1,000トークンは、およそ日本語750文字ほどと言われている。
ざっくり言えば、1ヶ月あたり日本語500,000字をGPT-4に考えさせると、20ドルに達することになる。

相当なヘビーユーザーでない限り、この量を使うことはないのではないだろうか。
AIの性能をちょっと試してみたいといったユーザーの場合、20ドルを払うよりも、APIを使ってモデルの性能を試してみた方が、安価に済むことが多いだろう。

APIを使ってGoogle Colab上でChatGPTのようなUIを実装

23年11月のOpenAIのイベントでリリースされたばかりの、GPT-4がさらに高速になったGPT-4 turboのAPIと、アップロードした画像の解析までしてくれるマルチモーダルなGPT-4V (VisionのV)のAPIを実装した、2種類のノートブックを用意した。

以下のボタンリンクから、それぞれのノートブックを開くと、すぐに各APIを利用できるようになっている。
プログラミングの経験が一切ない初心者でも、簡単に使えるので、ぜひ活用してほしい。

具体的な使い方や、APIキーの用意の方法などは、以下で解説していく。

高速で安価：GPT-4 turboのAPIを実装したColabノート

テキストだけでやり取りをしたい場合には、こちらのGPT-4 turboの方を利用しよう。

画像解析機能付き：GPT-4V(ison)のAPIを実装したColabノート

写真やスクリーンショットをアップロードして、その画像の内容について質問をしたい場合などは、こちらのGPT-4Vの方を利用する。

プログラミング不要！画像も読み取れるGPT-4Vを誰でも試せるノート

OpenAIのAPIキーの入手方法

APIキーとは、サービスを利用するパスワードのようなもので、API経由でGPT-4などのモデルを使用する上で必要になる。

OpenAIのサイトで、あなた専用のAPIキーを発行して、クレジットカードを登録しておくことで、使用量に応じてクレジットカードに後日請求が来る。

APIキーは簡単に発行でき、一度作ったキーはずっと使い回せるので、初回のみAPIキーの作成作業が必要になる。

まだAPIキーを持っていない人は、以下の記事で作り方をわかりやすく解説しているので、そちらを確認してほしい。

プログラミング知識不要！OpenAIのAPIキーの作り方：初心者向けガイド

OpenAIのAPIキーは、OpenAIが提供するテキストや画像を生成する人工知能（AI）に、アプリやプログラムからアクセスするための「鍵」や「パスワード」のようなもの。 APIキーを使うことで、テキスト生成AIであるGPT-4や、画像生成AIであるDALL-E 3、音声認識AIのWhisper、音声生成のText-to-speechなどのAIモデルを、自分のプログラムやアプリケーションに組み込むことができる。プログラミングの知識がない場合でも、これらのAPIを組み込んで開発されたツールに、自分のAPIキーを入れれば、その恩恵を受けることができる。例えば、このブログでも、あなたが自分のAP…

APIキーのGoogle Colabへの登録

APIキーを、Google Colab上で簡単に呼び出せるようにする機能があるので、OpenAIのサイトで発行したAPIキーを、Google Colabに登録しておこう。

Google Colabを開いて、画面の左側にあるメニューバーから、鍵のマークをクリックする。

すると、「シークレット」機能の画面が開くので、先ほど作成したOpenAIのAPIキーを、「openai_api」という名前をつけて保存しておく。

上記のGPT-4/GPT-4Vを使うためのGoogle ColabノートのPythonコード内で、あなたのAPIキーを呼び出すために「openai_api」という名前を使っているので、必ず同じ名前にして保存する必要がある。

Google Colabノートブックの基本的使い方

そもそもGoogle Colabを一度も使ったことがない、という人のために、基本的なことから解説をしておく。

Google公式が公開しているサンプルColabノートブックを見てみると、Google Colabが何たるかが分かりやすい。

正式名称はGoogle Colaboratoryで、テキストと、Pythonコードを、一つの文書（ノートブック）としてGoogleドライブ上に作成し、簡単に編集・共有することができるサービスだ。

Colabノートブックに書き込んだPythonコードは、実際にColab上で実行することもでき、足し算や掛け算などの計算をノートブックの中で行わせることができる。

コードセルは上から実行していくのが基本で、コードセル1つ1つについている再生マークのような実行ボタンを押すと、そのコードセルの中のPythonコードを実行した結果が表示される（上記の画像の例では、掛け算の計算結果が表示）

これを利用して、もっと複雑なPythonコードをコードセルに書き込めば、OpenAIのGPT-4VのAPIを使ってチャットするUIのような複雑なプログラムを作成することも可能なのだ。

GPT4/GPT-4VのAPIを実装したColabノートブックの動かし方

上記のボタンから、GPT-4 / GPT-4Vのノートブックを開く。どちらも使い方は同じだ。

ノートブックを開いて、上部のメニューから、「ランタイム」「すべてのセルを実行」をクリックすれば、ノートブック内のすべてのPythonコードセルが実行されるので、これが一番楽だ。

（もちろん、上から順に、コードセルを一つ一つ手動で実行していっても同じことができる）

筆者が作成して公開しているノートブックなので、「このノートブックは Google が作成したものではありません。」という警告が表示されるが、「このまま実行」をクリックする。

チャットの履歴をGoogleドライブに保存する機能をつけているため、Googleドライブと、このGoogle Colabノートブックを接続する必要がある。

自分のGoogleアカウントにログインして、権限の付与について「許可」をクリックする。

また、「シークレット」に登録したあなたのOpenAI APIキーにもアクセスする必要があるため、シークレットへのアクセスについてのポップアップが表示される。

APIのリクエストを行うために必須なので、「アクセスを許可」をクリックする。

GPT-4 turboの場合

GPT-4 turboのノートブックのセクション4「GPT-4 turboモデルのインターフェース」のコードセルを実行すると、以下のようなテキストボックスが表示される。

ここに、GPT-4に聞きたいことを書き込んで「Send」ボタンをクリックすると、APIリクエストが送信される。

しばらく待つと、GPT-4からの返信が表示される。
例として、AIに関するブログの記事のタイトルを3つ考えてもらった。

グレー文字がシステムプロンプト
青文字がユーザーのインプット
緑文字がGPT-4のアウトプット

になっているので、チャットをしているような感覚で、簡単に使うことができる。

もちろん、このまま会話を続けたいときは、続きの文章をテキストボックスに書き込んで、再度「Send」ボタンを押せば、会話を続けることが可能だ。

画像解析もできるGPT-4Vの場合

GPT-4Vのノートブックのセクション4「GPT-4Vモデルのインターフェース」のコードセルを実行すると、以下のようなテキストボックスが表示される。

ここからChatGPTと会話をするようなインターフェースで、GPT-4VのAPIリクエストを行うことができる。

「Upload」ボタンから、画像ファイルをアップロードすると、その画像の内容に対する質問も行うことができる。

テキストを入力して、必要なファイルをアップロードして、「Send」ボタンをクリックしてしばらく待つと、GPT-4Vからの回答が表示される。

実際に、青空の写真を適当にネットからスクショして、それをアップロードした上で何が写っているかを聞いてみた。

Assistant: この画像には青い空と白い雲が写っています。晴れた日によく見られる風景で、雲は浮かんでいるような軽やかな形をしています。とても爽やかで平和な印象を受けますね。

というように、的確に画像の内容を解読してくれた。

ちなみに、GPT-4Vモデルは、画像を読み取れる機能がついているものの、テキストのみでもやり取りすることができる。

画像を添付しなければ、普通のGPT-4モデルを使っているのと同じことだ。

上のやり取りでは、最初に「こんにちは」と何も画像ファイルを添付することなく話しかけているが、ちゃんと返事をしてくれている。

チャット履歴のGoogleドライブへの保存

GPT-4 turboのColabノートも、GPT-4VのColabノートも、メッセージ履歴をGoogleドライブに保存する機能も実装してある。

やり取りが完了したら、ノートブックのセクション5「メッセージ履歴の保存」にあるコードセルを実行する。

デフォルトでは、Googleドライブのマイドライブ内の「Colab Notebooks」フォルダに、「現在時刻_chat_history.txt」というファイルが生成されるようになっている。

履歴から必要な箇所をコピペしたり、後から編集したりすることができるので、便利だ。

GPT-4Vの便利な使い方：PDFやスクショのOCRとして使う

ちなみに、GPT-4Vの使い道として、筆者が便利だと感じているユースケースとしては、テキスト情報が入っていないPDFや、写真内の文字などを書き起こさせ、OCRソフトのように利用することだ。

OCRとは、画像データから文字情報を読み取って、テキストデータに変換する技術のことだ。

よくあるのは、ネットで拾ったPDFの中にある表を、エクセルにコピーしたいが、うまく転記することができず、手動で数字を打ち込むというとんでもなく面倒な作業をしなければならないシチュエーションだ。

こうした時に、GPT-4Vに画像に写っているテーブルを、CSV形式で書き起こしてくれ、とお願いすると、カンマで区切られた表形式のテキストを返してくれる。

これを、WindowsやMacで、テキストエディタ（Windowsであれば「メモ帳」）にコピペして、ファイルを「サンプル.csv」というCSV形式のファイルで保存すると、エクセルで開くことができる表データになる。

例えば、サンプルとして、Wikipediaの東京都の項から、「姉妹友好自治体」の表をスクショして、画像としてGPT-4Vに渡してみる。

「画像形式で保存したテーブルを、CSV形式に書き起こしたいです。」というプロンプトと共に、スクショを添付したところ、見事に全て書き起こしてくれた。

これを.csvファイルとして保存すれば、瞬時に画像内のテーブルを、エクセルなどの表計算ソフトで編集可能な表にすることができるのだ。

APIを利用するため、データがトレーニングデータとして使われてしまう心配もないため、仕事でも安心して実用できるのが嬉しいポイントだ。

他にも便利なOpenAI対応Google Colabノートを公開中

本記事では、ChatGPTと同様のチャット機能が使えるGPT-4 turboと、マルチモーダル対応の画像解析モデルであるGPT-4Vを実装した。

当ブログでは、他にもOpenAIが提供しているAPIや、OpenAIが公開しているAIモデルを、Google Colaboratoryで誰でも簡単に使えるノートブックを、複数公開している。

ぜひ活用して、最新のAIモデルたちの便利さを体感してほしい。

テキストを音声で読み上げてくれるText-to-speech APIを使えるノート

さらに未来感があるOpenAIが提供しているAPIとして、文字情報を渡すと、それを読み上げた音声を返してくれるAPIも存在する。

Text-to-speechモデル（TTSモデル）は、6種類の驚くほど人間っぽいリアルな声で、音声を合成してくれるモデルだ。

Google Colab上で簡単に実行して、生成された音声の再生までできるので、ぜひ一度試してみてほしい。

プログラミング不要！OpenAIの音声合成AIを簡単に試せるGoogle Colabノートを作った

2023年11月のOpenAIのイベントでAPIが利用可能になったばかりの、テキストからの音声合成AIであるText-to-speech（TTS）モデル。すでに有料版のChatGPTでは、ChatGPTからの返信を音声で読み上げてくれる音声対話の機能があり、その自然な音声合成を体験することができる。 ChatGPTでは、対話のためにしかTTSモデルを利用できないが、APIを使えば、自分の好きなセリフを言わせたり、好きなニュース記事を読み上げさせたり、あらゆる用途に使うことができる。しかし、APIを使うのは、プログラミング未経験のユーザーにとっては少しハードルが高いだろう。そんな最新の音声合…

無料で無限に使える文字起こしAI Whisperを使えるノート

こちらはAPIではなく、OpenAIが公開している超高精度の音声認識AIである「Whisper」というモデルを、Google Colaboratory上で無料で動かせるようにしたノートブックだ。

OpenAIにデータを送信する必要すらなく、Googleドライブ上で簡潔するため、会社のミーティングの録音なども、安心して書き起こしすることができる。

また、オープンソースで公開されているモデルを使うため、利用料も一切かからず、どれだけ長い音声を何回書き起こしても無料だ。

めちゃくちゃ生産性の向上に役立つ実用的なノートブックなので、ぜひブックマークしてほいし。

無料で簡単に音声書き起こしAIが使えるWebアプリを作った：Google Colabで実装するWhisper v3

Whisperは、ChatGPTで知られるOpenAIによって開発された非常に正確な音声認識モデルで、会話の音声をテキストに書き起こしてくれる。 100万時間以上のデータでトレーニングされた最新のAIモデルだが、驚くべきことにオープンソースで公開されているため、誰でも、無料で、簡単に利用することができる。有料の音声書き起こしサービス・議事録書き起こしサービスは数多くあるが、実は無料のWhisperを使えば十分だ。むしろ、Whisperの方が殆どの音声認識ソフトより精度が高いだろう。とはいえ、プログラミングの知識がない人にとっては、少し利用するハードルがある。そこで、Whisperの最新モデ…

初心者も簡単！Google ColabでGPT-4 turboとGPT-4 visionのチャット風UIを実装したノートを無料公開