AIじゃないよ

突如世界1位に躍り出た「gemini-exp-1206」完全ガイド:無料で使う方法&OpenAI o1との比較

当サイトはアフィリエイト広告を一部掲載しています。

OpenAIがo1の正式版などを発表した翌日、今度はGoogleが、非常に高性能なGeminiの新モデル「Gemini Experimental 1206」を無料公開した。

ユーザー投票によってAIモデルをランキングする「Chatbot Arena」において、記事執筆現在、なんとo1のプレビュー版などを抑えて、トップに君臨している。

毎週のように新しいAIモデルが登場し、目覚ましい性能の進化を続けているAI業界のスピード感に驚かされる。

英米のXやReddit上においても、「Gemini Experimental 1206」の凄さがじわじわ注目されつつある。

本記事では、実際に最新のGeminiを無料で使うための2つの方法を紹介する。

また、さまざまなプロンプトで、今回登場したGeminiと、OpenAIの”o1″モデルとの回答のクオリティの比較を行なったので、その感触も詳しくお伝えする。



Chatbot Arenaの全カテゴリトップに突如躍り出たGemini

Geminiが1周年を迎えた12月6日に、gemini-exp-1206というモデルがリリースされた。

現在、無料で利用することができるようになっており、GoogleのGemini APIやGoogle AI Studio上で、誰でも使うことができる。

このモデルはいわばプレビュー版であって、GeminiのExperimental Modelsの一つとしてリリースされている。従って、実践環境で使用することは想定されていない。

gemini-exp-1121 というモデルコードの次のバージョンに当たり、発表時にもさらっとツイートされたくらいで、特に発表会などはなかった。

しかし、ユーザー投票で最強のAIモデルを決めるサイト「Chatbot Arena」において、コーディング、数学、クリエイティブライティングなど全10の分野で、ことごとく1位を独占してしまったので、驚きを持って迎えられている。

12月10日現在の Chatbot Arena Leaderboard

実際、筆者も文章の生成からプログラミングまで、色々とGemini Experimental 1206を試してみたが、かなり回答の正確性や妥当性が優れていると感じられた。

また、OpenAIのGPT-4oやo1、AnthropicのClaude 3.5 Sonnetなど、他社のフロンティアモデルにはないGeminiの利点として、テキスト・画像だけでなく、動画ファイルや音声ファイルを読み込ませることができる点もある。

場面によって複数のAIモデルを使い分けている人も多いだろうが、Geminiも1軍に入れて良いと思えるアップデートだ。

Google AI Studio で gemini-exp-1206 を無料で使う方法

最も簡単にGemini Experimental 1206を使用する方法としては、Google AI Studioがおすすめだ。

Googleアカウントでログインして、Google AI Studioにアクセスすると、以下のようにGoogle AI Studio上でGeminiを使ってみるか、APIキーを作成するかを確認される。

まずは、サクッとブラウザ上でgemini-exp-1206を試すために、「Use Google AI Studio」の方を選択する。

Google AI Studioは、Geminiをアプリに組み込んで使うような開発者向けのツールで、少し複雑な画面に見えるが、要するにやっていることはChatGPTなどのチャットアプリと一緒だ。

左側のメニューで「Create new prompt」を選択すると新しいチャットスレッドが作れ、画面右上で使用するGeminiのモデルを選択できる。

「Gemini Experimental 1206」というモデルを選択すると良い。

画面下部に、こんにちは、などと挨拶を入力して、「Run」ボタンを押すと、Geminiからの返答が表示される。

このように、普通のチャットと同じような形で、Geminiとの会話を続けることができる。

利用料も無料なので、とりあえずgemini-exp-1206の実力を試したい、という用途では最も手軽だ。

ChatGPT風のUIで gemini-exp-1206 を無料で使う方法(LibreChat)

せっかくであれば、これだけ性能の高いGeminiを、使い慣れたChatGPT風のユーザーインターフェースで便利に使用したい、ということもあるだろう。

そうした人には、GoogleのGeminiをはじめ、OpenAIのGPT-4o、AnthropicのClaudeなど、あらゆるAIモデルをAPI経由で使用することのできる最強のチャットアプリ「LibreChat」をお勧めしたい。

「LibreChat」はインターフェースがChatGPTとほぼ同じなので、チャット履歴の管理などが非常にやりやすい。

LibreChatアプリそのもののインストール方法は、当サイトの過去の記事で詳しく紹介しているので、そちらの記事を参考にしてほしい。

LibreChatのインストールを終えてから、以下の手順でGoogle GeminiのAPIキーを追加することで、gemini-exp-1206も利用できるようになる。

まずはGoogle AI Studioで、APIキーを発行する。

「Get API key」メニューから、「APIキーを作成」ボタンを押せば良いだけだ。

ここで作成したAPIキーを、LibreChatの設定で、GoogleのAPI Keyとして登録する。

これでGoogleが提供するGeminiの各モデルを利用できるようになったが、最新のgemini-exp-1206モデルは、記事執筆現在ではLibreChatのデフォルトのモデル選択肢に入っていない。

こういった最新のモデルを使いたい時は、自らLibreChatのインストールフォルダにある.envファイルを編集して、最新のモデル名を登録する。

今回はGoogleのモデルを追加したいので、143行目にある「GOOGLE_MODELS」の中に、gemini-exp-1206を加筆する必要がある。

以上で、LibreChatを再起動すると、gemini-exp-1206をモデルのプルダウンメニューで選択できるようになっているはずである。

ChatGTPと変わらないユーザーインターフェースで、快適に最新・高性能なGeminiを、無料で利用することができるので、メリットは大きい。

gemini-exp-1206 vs ChatGPT o1正式版の性能比較

Chatbot Arenaで全分野1位、というのは目覚ましい成績だが、実際に使ってみたときに、それだけの性能の向上を感じることができるのだろうか。

そこで、筆者が実際に、最新のgemini-exp-1206モデルと、12月5日にリリースされたばかりのChatGPTのo1正式版モデルに、全く同じ質問をして、その回答を比較してみた。

言語理解、プログラミング、図形描写など異なる分野のプロンプトを用意したので、簡易的ではあるが、幅広いタスクでの性能を確認できる。

言語理解と文脈把握に関するプロンプト

まずは、純粋なテキストの理解と、文脈を把握した上での正しい返答ができるかをテストするためのプロンプトだ。

これは、かつてClaude 3.5 Sonnetが登場した際に、筆者がSonnetとGPT-4oを比較するために使用したプロンプトと全く同じものだ。

人間が読むと正答できそうに感じられるが、意外にも、Claude 3.5 Sonnetも、GPT-4oも、完璧な正解は出せなかった難問である。

文章:  
彼女が彼に贈った本は、その著者が彼女の友人だったため特別だった。しかし、彼はそれを読まずに彼女の姉に渡してしまった。姉はそれを知って怒り、彼女に伝えようとしたが、彼女は既に彼と別れていた。  
問題:  
この文章の中に登場する「それ」は、それぞれ何を指していますか?

これを、”Gemini Experimental 1206″モデルと、ChatGPTの”o1″モデルに聞いてみた結果が以下である。

それぞれ、完璧に正解を出すことができており、明らかに当時のGPT-4oやClaude 3.5 Sonnetを上回るパフォーマンスを示している。

いずれのモデルの回答も、甲乙つけ難く、合格という感じだ。

gemini-exp-1206の回答

この文章の中に登場する「それ」は、それぞれ以下のものを指しています。

  1. 「それを読まずに」の「それ」: 彼女が彼に贈ったを指します。
  2. 「それを知って怒り」の「それ」: 彼が本を読まずに彼女の姉に渡してしまった事実を指します。

つまり、最初の「それ」は具体的な物体であるを指し、二番目の「それ」は抽象的な事実を指しています。

o1の回答

以下が「それ」が指す内容です。

1回目の「それ」:「しかし、彼はそれを読まずに彼女の姉に渡してしまった。」

  • ここでの「それ」は、彼女が彼に贈った「本」を指します。

2回目の「それ」:「姉はそれを知って怒り、彼女に伝えようとしたが…」

  • ここでの「それ」は、「彼が本を読まずに彼女(自分の妹)の姉である自分に渡した」という行為・事実を指します。要するに「彼が本を姉に回したこと」を「それ」としているわけです。

スクショからWebデザインをNext.jsで再現させるプロンプト

次に、プログラミング・コーディングの性能を試してみる。

Geminiとo1に、同じWebサイトのスクリーンショットを与えて、それを再現するコードを書かせるプロンプトだ。

用意したのは、TradingViewの先物や通貨ペアの価格のダッシュボード、経済指数のウォッチリストが表示されている画面である。

これを、gemini-exp-1206と、o1の両方に、Next.jsを使って完全に再現せよ、という指示を与えた。

ページの情報量としても多い上に、パネルのレイアウトも複数種あるし、色の使い分けなども多用されており、結構難易度が高い要求だと思われる。

このスクリーンショットを完全に再現するnext.jsのページを、.tsxファイルで構築してください。

以下で、それぞれのモデルが生成したコードを、そのままレンダリングしたページをお見せする。

Gemini Experimental 1206の生成したコードの方が、o1が生成したコードよりも、再現性が高いように感じられる。

生成の速度はo1の方が早かったものの、コーディングのアシスタントとしてはGeminiがかなり実用的な水準にあると言えるのではないか。

gemini-exp-1206によるスクショ→コード生成

gemini-exp-1206が生成したページは、元のTradingViewのインターフェースの要素をほぼ網羅できており、また通貨ペアのテーブルのヒートマップ表示などまで再現できている。

o1正式版によるスクショ→コード生成

一方、o1が生成したページは、元のTradingViewのスクショから、結構情報量が削ぎ落とされてしまっている。

先物や通貨ペアのアイコン画像が実装されていないし、表示されている数字やテキストも、全体的に欠落がチラホラ見られる。

テーブルのヒートマップや、ダッシュボードの先物パネルの情報量など、gemini-exp-1206の方が再現度も、デザイン性も優れているように感じられる。

SVGで仮想のイラストを描かせるプロンプト

最後に、GeminiとChatGPT o1に、「猫が自転車に乗っている様子」という難しいお題を、SVG形式でイラストに描きおこさせてみた。

SVGとは、例えば以下のように、線や形状を数値情報で表して、テキスト情報だけでベクターイラストを描くことができるのが特徴だ。

  <!-- 背景の空 -->
  <rect x="0" y="0" width="500" height="300" fill="#87CEEB" />

  <!-- 草原 -->
  <rect x="0" y="200" width="500" height="100" fill="#7CFC00" />

  <!-- 自転車の車輪 -->
  <circle cx="180" cy="220" r="20" fill="#333" />
  <circle cx="260" cy="220" r="20" fill="#333" />

これをGeminiとChatGPTに考えさせることで、それぞれのモデルが、言葉による抽象的でファンタジックな「自転車に乗る猫」という指示を、どれほど的確に理解して、ビジュアルの表現へと落とし込めるかを確認することができる。

単純なテキスト処理能力以上の表現力や柔軟性を比較する指標となるので、いろいろな大規模言語モデルにSVGを作らせてみると面白い。

今回使用したプロンプトは以下だ。

猫が自転車に乗って草原を走行している様子を描いたSVGファイルを作成してください

早速、Gemini Experimental 1206が生成したSVGイラストと、ChatGPT o1が生成したSVGイラストを見比べてみよう。

SVGのクオリティの単純比較は難しいが、筆者としては、Geminiの表現力の方が、若干o1よりも優れているように感じられた。

gemini-exp-1206の生成したイラスト

SVGは、単純な図形の組み合わせによって描写しなくてはならないため、自転車に乗っている猫、というお題は、かなり描写が難しいと思われる。

Geminiの生成したSVGは、的確にプロンプトの内容を押さえており、猫と自転車の描写も結構複雑になっている。

o1の生成したイラスト

これに対して、ChatGPT o1が生成したSVGは以下である。

猫が自転車に乗っている、という事実はうまく捉えられているが、「草原」の表現はGeminiと比べると結構雑に思える。

この性能のモデルが無料で使えるのは激アツ

OpenAIが、ChatGPTに月額200ドルものPro Modeを追加することを発表した翌日に、これだけ高性能なモデルを、無料で使える状態で市場に投下してくるGoogleは、OpenAIと対照的だ。

動画や音声の読み込みも可能であるというGeminiは、従来も音声の文字起こしなどで便利に使用することができたが、gemini-exp-1206で飛躍的にベースの性能が向上したことで、さらに使用できる場面が広がりそうだ。

特に、コーディング性能の進歩は目覚ましいので、CursorなどのAI補助付きのエディタでコーディングをする際に、相談できるAIモデルが増えてありがたい。

この記事で解説したように、Googleアカウントを持っていれば、誰でも簡単に試すことができるので、ぜひGeminiをまだ使ったことのない人は、試してみることをお勧めする。



Make a comment

*
*
* (公開されません)