ClaudeがMacを直接操作可能に:Computer Useの使い方・設定・注意点まとめ
Anthropicが Claude Cowork / Claude Code に追加した Computer Use 機能の概要・有効化手順・安全設計・Dispatch連携を解説。macOS限定のリサーチプレビューで何ができるのか、リスクと活用のポイントを整理した。
40 posts
Anthropicが Claude Cowork / Claude Code に追加した Computer Use 機能の概要・有効化手順・安全設計・Dispatch連携を解説。macOS限定のリサーチプレビューで何ができるのか、リスクと活用のポイントを整理した。
GPT-5.4はネイティブComputer Useを搭載し、OSWorld 75%・GDPval 83%を達成。Claude Opus 4.6やGemini 3.1 Proとの性能差と料金体系を比較した。
GPT-5.3 Instantはハルシネーション最大26.8%低減と会話トーン改善が柱。ベンチマークより使用感を重視したOpenAIの方針転換と、日本語性能の現状を整理した。
Google DeepMindのNano Banana 2はArena 1位の画像生成品質を前世代の半額・高速で実現。Google検索連携による正確なランドマーク描画やC2PA対応など独自機能も搭載し、Geminiアプリなら無料で使える
ARC-AGI-2で77.1%を記録しArtificial Analysis総合1位のGemini 3.1 Proは、Opus 4.6の半額以下で利用可能。ベンチマーク詳細と実務での評価を整理する
2026年春節に中国AI5社がフロンティアモデルを一斉公開。Qwen 3.5・GLM-5・MiniMax M2.5・Kimi K2.5のベンチマーク比較と、DeepSeek V4のリーク情報を整理し、API料金や試し方まで網羅する。
Kling 3.0、Seedance 2.0、Sora 2、Veo 3.1、Runway Gen-4.5の5大AI動画生成ツールを画質・操作性・料金の観点で比較し、用途別のおすすめを紹介する。
Claude Sonnet 4.6は無料プランのデフォルトモデルでありながら、上位Opus 4.6に肉薄するベンチマークスコアを記録。API価格据え置きでAdaptive Thinkingも搭載された全方位アップグレードの詳細を解説
Gemini 3 Deep ThinkはARC-AGI-2で84.6%を記録し、人間の平均60%を大幅に上回った。2ヶ月でスコア倍増の背景と研究成果を解説する
GPT-5.3-Codex-Sparkは毎秒1,000トークン超を実現した超高速コーディングモデル。Cerebras専用チップで動作し精度と速度のトレードオフを解説
GLM-5はSWE-benchでClaude Opus 4.5に3.1pt差、BrowseCompでは全モデル1位。API価格はOpusの6分の1でMITオープンウェイト公開
ChatGPT Deep Researchが基盤モデルをo3からGPT-5.2に刷新。検索ソースの指定、リアルタイム進捗追跡、途中介入、フルスクリーンレポートなど新機能を実際の使用画面とともに解説する。
GPT-5.3-CodexはTerminal-Bench 2.0で同日リリースのClaude Opus 4.6を12pt差で上回り首位。自己改善に関与した初のモデルである
Claude Opus 4.6はOpus初の100万トークン対応、Agent Teams、PowerPoint統合を搭載。主要ベンチマークのスコアとAPI価格、GPT-5.3-Codexとの同日リリースの背景を整理
Mistral AIのVoxtral Transcribe 2は1時間27円でWhisper超えの精度を実現。バッチ・リアルタイム両対応で話者識別も標準搭載
月額1,500円の新プラン「ChatGPT Go」の機能詳細とFree・Plus・Proとの比較表、さらにOpenAIが掲げる広告導入5原則と95%の無料ユーザー問題など方針転換の背景を解説する。
GPT-5.2は44職種の実務タスクで人間の専門家を超える性能を達成。実際にExcelガントチャートやパワポスライドを生成させた結果を検証
480Bパラメータの巨大モデルQwen3 CoderはコーディングベンチマークでClaude 4 Sonnetに迫りつつAPI価格は約3分の1。Qwen Code CLIやCerebras Codeでの無料利用法を含め、開発者向けに実力を検証する。
中国Z.aiの新モデルGLM-4.5はDeepSeek R1を大幅に上回りClaude 4 Opusの20分の1の価格。MITオープンソースで無料利用可能
Gemini 2.5 Pro・Flash・Flash-Liteの3モデルを音声文字起こしとSVG生成で実測比較。無料で使えるGoogle AI Studioでの利用法も解説する
Alibaba Qwen3は0.6Bから235B MoEまで8モデルを展開し、ベンチマークでDeepSeek R1を上回る。思考・非思考モードの切替機構やApache 2.0ライセンスの商用利用メリットを解説する。
OpenAI o3とo4-miniは検索・Python・画像生成などのツールを自律的に連鎖実行できる初の推論モデルである。ベンチマーク結果や実際の活用例を交えて全機能を紹介する
Metaが公開したLlama 4 ScoutとMaverickはMoEアーキテクチャで最大1000万トークンのコンテキストを処理できるマルチモーダルモデルだ。性能・構成・利用方法を解説する。
Chatbot Arena世界1位のGemini 2.5 Proは音声文字起こしや画像OCRも可能な推論モデルである。Google AI StudioやLibreChatで無料利用する手順を解説
OpenAI史上最大のモデルGPT-4.5はハルシネーション率を半減し文章の自然さも向上。月200ドル不要のAPI経由で試す方法も紹介
Anthropicが公開したClaude 3.7 Sonnetは、即時応答と拡張思考を切り替えられる初のハイブリッド推論モデルである。SWE-benchで最高性能を記録したベンチマーク結果、料金、Web版・API・Perplexity経由での利用方法を解説する。
xAIのGrok 3はChatbot Arena総合1位を獲得。Deep SearchとThinkモードが無料で使え、APIも月150ドル分の無料クレジット付きで提供される。
o3-miniはChatGPT無料ユーザーでも使える推論モデルで、Livebenchランキング1位を獲得。API料金はGPT-4oより安く、コーディング性能はo1を凌駕する。使い方・ベンチマーク・料金を総まとめ
DeepSeekの低コストAIモデルがNVIDIAのGPU独占体制を揺るがす構造を、投資家兼エンジニアの論考をもとに解説する
OpenAI o1比96%オフのAPI価格でo1同等性能を実現したDeepSeek R1の使い方をWeb・アプリ・API別に解説し、o1との実力差を検証する
OpenAI o3はARC-AGIで87.5%を達成したが、高負荷モードの推定コストは1問約50万円。ARC-AGI開発者François Chollet氏の分析から、o3の推論メカニズムと莫大な計算コストの実態を読み解く
OpenAIのo3はARC-AGIで人間の子ども並みの87.5%を記録し、数学・コーディングでも従来モデルを圧倒。o3-miniはo1超えの性能を低コストで実現する。全ベンチマーク結果と計算コストを解説する
Chatbot Arena全ジャンル1位のGemini 2.0 Flash Thinkingを無料で試す方法と、ビリヤード問題や図形問題での人間的な推論過程を紹介する
Gemini 2.0 Flashはカメラ映像やスクリーン共有をリアルタイムでAIと共有できるStream Realtime機能を搭載し、無料で利用可能である
OpenAIの動画生成AI「Sora Turbo」がChatGPT Plus/Proユーザー向けに正式リリースされた。最大1080p・20秒の動画生成やStoryboard機能の使い方を解説
Chatbot Arenaで全カテゴリ1位を独占したGemini Experimental 1206を無料で使う2つの方法と、ChatGPT o1との性能比較結果を紹介
12 Days of OpenAI初日の発表まとめ。o1正式版はプレビュー比で思考速度50%向上&画像解析対応、月額200ドルの新プラン「ChatGPT Pro」ではo1 pro modeが利用可能になった。
GPT-4o miniはGPT-4 Turbo並みの性能でコスト30分の1。ChatGPTで無料利用可能で、Claude 3 Haikuとの比較でも全面的に優位
Claude 3.5 SonnetはGPT-4oを上回るベンチマーク性能とArtifacts機能が特徴だ。無料での利用方法や料金体系、GPT-4oとの使い分けを整理した。
2023年11月のFTインタビューでサム・アルトマンがGPT-5開発を認め、AGIへのロードマップと計算資源の課題を語った。発言の要点を時系列で整理している。