Anthropicは2024年10月23日、AIモデルClaude 3.5 Sonnetに、「Computer use」というヤバすぎる新機能を公開した。
これは、AIがマウスカーソルの移動、クリック操作、キーボード入力など、人間のように直接コンピュータを操作することを可能にする新機能だ。
本記事では、Anthropicからリリースされたばかりの「Computer use」機能を、実際に自分のPC上で動かす方法と、実際にこのAPIでどんなことが実現できるのかを詳細に解説する。
筆者が実際に試してみたところ、Excelでデータ入力をして関数を適用する、なんて高度な作業も、本当にAIが自律的に実行してしまい、本当に衝撃的だった。
AIが自ら考え、マウスを動かし、アプリを操作する様子を実際に目の当たりにすると、本当に魔法のように感じる。
本記事のインストールガイドを参考に、あなたもこの衝撃を体験してみてほしい。
Claudeの新モデルと新機能「Computer use」
2024年10月23日に公開されたばかりのAnthropicのアナウンスで、Claude 3.5 Sonnetの強化、Claude 3.5 Haikuの新規リリース、そして「Computer use」という新機能のリリースが発表された。
これまでも、コーディング性能や日本語能力がトップクラスだったClaude 3.5 Sonnetが、さらにパフォーマンスが向上していることだけでも、十分大きなニュースではある。
これらの発表の中でも、やはり1番の注目は、パブリックベータとして登場した「Computer use」機能だ。
これは、AIがスクリーンショットを通じてコンピューターの画面を認識し、カーソルを移動させたり、マウスクリックをしたり、実際の作業を勝手に行ってくれる革新的な機能だ。
まだベータ版なので、スクロールやドラッグなどの基本的な操作にはまだまだ課題が残されているとのことだが、今後数ヶ月のうちにユーザーからのフィードバックを集め、急速に改善されていくと思われる。
本記事では、何はともあれこの「Computer use」機能を自分のPC上で実際に動作させてみて、一体どんなことが実現できるのかを体験してみることにする。
下準備:Dockerをインストールしておく
「Computer use」機能のデモを動かすには、Dockerというアプリが必要だ。
Dockerとは、「コンテナ」と呼ばれる独立した仮想環境でアプリを開発・動作させるためのソフトウェアだ。
いわばアプリの動作に必要な全ての部品(設定、コード、ライブラリなど)が入った、持ち運びできるパッケージのようなイメージだ。
使用するメリットは、他の人が作った「コンテナ」を、非常に簡単に、丸ごと自分のPC上で再現することも可能な点である。
今回のAnthropicのComputer use APIのデモ環境も、Dockerで配布されているので、あらかじめDockerをインストールしておくことで、簡単に自分のPC上で再現できるのだ。
Macでも、Windowsでも、簡単にインストールできるので、以下から「Docker Desktop」アプリをダウンロードしておこう。
下準備:AnthropicのAPIキーを入手しておく
また、Computer use機能はAPIとして提供されているので、Claudeを開発するAnthropic社の開発者アカウントを作成して、自分のAPIキーを発行する必要がある。
まだAPIキーを持っていない人は、Anthropicのコンソールにログインして、「API Keys」から新しいキーを作成しておこう。
APIは、使用量に応じた従量課金なので、クレジットカードの登録が必要になる。
APIキーを作成したら、1度だけ表示されるので、どこかにこのキーをメモっておく。あとで使用するので、無くさないようにしよう。
また、APIキーを他人に知られてしまうと、自分のカードに他人の使用料の請求が来てしまうので、絶対に他の人に知られないように気をつけよう。
公式サンプル「Anthropic Quickstarts」を入手する
Anthropicが、Claudeの新機能「Computer use」を試すためのデモンストレーションをGithubレポジトリとして公開している。
まずは、自分のPCのターミナルを使って、Anthropicが公開している上記のGithubのレポジトリを、自分のPC上にクローンしてくる。
保存場所はどこでも良いが、筆者は自分のホームフォルダに保存した。
Macであればターミナル、Windowsであればコマンドプロンプトを開いて、以下のコマンドを打ち込めばいいだけだ。
git clone https://github.com/anthropics/anthropic-quickstarts
すると、anthropic-quickstarts
というフォルダができるので、テキストエディタでこのフォルダを開く。
今回はCursorを使用するが、Visual Studio Codeなりなんなり、普段自分が使用しているエディタアプリを使用すれば問題ない。
以下は、ターミナルからanthropic-quickstarts
フォルダを開いて、それをCursorで開くためのコマンドである。
cd anthropic-quickstarts
cursor .
anthropic-quickstarts
フォルダの中には、computer-use-demo
というフォルダがあり、今回はこのフォルダの中身を使用していく。
ターミナルでDockerコンテナをビルドする
それでは、早速ダウンロードしてきたレポジトリを使って、自分のPCの中に、Computer use APIを使用するためのバーチャルコンピューターを立ち上げる。
まず、computer-use-demo/README.md
を開き、38〜46行目にかけて表示されているバッシュコマンドをコピーする。
このコマンドに、先ほど作成した自分のAPIキーを当てはめて、ターミナルで実行する必要がある。
一旦、適当なテキストファイルを作成して、このコマンドの1行目の部分に、自分のAPIキーをペーストする。
export ANTHROPIC_API_KEY=***ここに自分のAPIキーをペースト***
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
このコマンドを丸ごとコピーして、ターミナルに打ち込む。
その際、Dockerが起動している状態でないとエラーが生じて実行が止まってしまうので、Macであればメニューバーのアイコンを見て、Dockerが起動していることをチェックしておく。
Dockerが問題なく動作していれば、ターミナルアプリを再び開くか、Cursor内でターミナルを起動して、APIキーを埋めたコマンド全体をペーストし、実行する。
すると、必要なファイルのダウンロードなどが始まり、実行環境を整えてくれる。
これだけのシンプルな操作で、Computer use APIを使うためのバーチャルコンピューターを構築してくれるのだ。プログラミングの詳しい知識がなくても、多くの人が手軽に試すことができるはずだ。
コマンドの実行が終わって、ターミナルに以下のメッセージが表示されれば、サンドボックスの構築は完了だ。
✨ Computer Use Demo is ready!
➡️ Open http://localhost:8080 in your browser to begin
http://localhost:8080
をGoogle ChromeやSafariなどのブラウザで開くと、Computer use APIを利用できる画面が表示されるはずだ。
実際にバーチャルコンピュータをClaudeで操作してみる
http://localhost:8080
を開いてみると、画面の左側にAIとのチャットが、画面の右側にubuntuの仮想デスクトップが表示される。
適当にチャットに「こんにちは」などと打ち込んでみて、AIから返事が返ってきたら正しく動作している証拠だ。
挨拶も早々に、早速、AIが自ら進んでバーチャルコンピューターのスクリーンショットを撮って、画面に写っているFirefoxなどのアイコンについて説明してくれた。
Tool Use: computer
Input: {'action': 'screenshot'}
という部分で、スクリーンショットツールを呼び出していることが分かる。
このように、Computer use APIは、ユーザーの指示に基づいて、カーソルを移動したり、クリックしたり、スクリーンショットを撮ったりといったアクションを積み重ねていき、指示通りの行動を取ってくれるものだ。
例えば、「表計算アプリを開いてください。」と言ってみると、以下の3つのツールが連続で使用されていることがわかる。
まずマウスをアプリアイコンの上に移動し、
Tool Use: computer
Input: {'action': 'mouse_move', 'coordinate': [707, 736]}
次に左クリックを行い、
Tool Use: computer
Input: {'action': 'left_click'}
最後にスクリーンショットを撮って結果を確認している。
Tool Use: computer
Input: {'action': 'screenshot'}
しかも、表計算アプリ(LibreOffice Calc)は無事起動できていたものの、スクリーンショットを撮った結果、初回起動時の不要な画面が表示されていることにAIが気付き、これを閉じるための「OK」ボタンのクリックまで自主的に実行してくれた。
プロンプトの文章で指示をしただけで、AIが勝手にPCを操作して、望み通りのアプリを起動してくれるというだけでも、本当に衝撃的だ。
さらに、クリックやカーソル移動だけでなく、もっと複雑な文字入力や表計算などもできるかどうかを試してみる。
続けて、以下のようなプロンプトを与えてみた。
A列に10以下の素数を打ち込み、最後に合計してください。
すると、AIがセルに素数を順に打ち込んでいき、最後に以下のようなSUM関数の入力まで、正確に実行してくれた。
Tool Use: computer
Input: {'action': 'type', 'text': '=SUM(A3:A6)'}
指示した通り、素数をA列に入力した上で、その合計値をSUM関数を用いて計算することができてしまった。
PC操作まで行うAIの登場で、人間は本当に置き換えられるかも
カーソル移動、クリック、スクロール、テキスト入力などをAIが実行できるようになったということは、人間がPC上で行っているありとあらゆる作業を、AIに代行してもらうことが現実的に可能になったということだ。
もちろん、まだまだベータ版で進化の余地は残されているとはいえ、最近のAIモデルの進化のスピードを考えれば、半年後、1年後には、ClaudeのComputer use機能も、現在より圧倒的に進化している可能性が高い。
AIモデルを、単なるチャットの話し相手程度に捉えていると、今後数年間で起きる業務の革新についていけないかもしれない。
PC作業まで勝手にやってしまうAIエージェントが、本当に現実のものになりつつある中で、人間に残された仕事とはなんなのか考えずにはいられない。
過去Docker記事が大変わかりやすく、導入できました、ありがとうございます。AIがこのサイトを運営しているに違いないと勝手に妄想しています。個人的には、読書についておすすめ本などがありましたら、ジャンルを問わず掲載いただけると、楽しみが増えます。過去記事で、自炊用「本のカットサービス」についての価格情報に胸が熱くなりました。未来への希望として、AIによる書籍読み上げと内容解説。自学自習できる世界を夢見て、本サイトの発展を応援しております。