『株式会社ずんだもん技術室AI放送局 podcast 20250814』のカバーアート

株式会社ずんだもん技術室AI放送局 podcast 20250814

株式会社ずんだもん技術室AI放送局 podcast 20250814

無料で聴く

ポッドキャストの詳細を見る

このコンテンツについて

関連リンク Vibe Check: Claude Sonnet 4 Now Has a 1-million Token Context Window Anthropicから新しい大規模言語モデル(LLM)「Claude Sonnet 4」が登場しました。このモデルの最大の注目点は、100万トークンという非常に大きなコンテキストウィンドウに対応したことです。コンテキストウィンドウとは、AIが一度に理解・処理できる情報量のこと。この100万トークンは、ハリー・ポッターシリーズの全巻を一度にAIに読み込ませられるほどの情報量に相当します。 この記事では、この新しいClaude Sonnet 4が実際にどのくらい使えるのか、Googleの「Gemini 2.5 Pro」や「Gemini 2.5 Flash」といった他のLLMと比較してテストした結果が報告されています。 主なテスト内容は以下の3つです。 長い文章の分析能力の検証: 約90万語のシャーロック・ホームズ小説の中に隠された映画のシーンを見つけ出し、分析させるテストです。 速度と正確性(幻覚の少なさ): Claude Sonnet 4は、Geminiモデルよりも約半分の速さで分析を完了し、間違った情報(これを「幻覚」と呼びます)を出すことが少なかったです。詳細さ: ただし、分析内容の「詳細さ」ではGeminiモデルに軍配が上がりました。Geminiが非常に詳しい分析を提供したのに対し、Claudeの分析はやや簡潔でした。 長文のコード分析能力の検証: Every社のコンテンツ管理システム(CMS)の全コードベース(約100万トークン相当)を与え、そのコードの仕組みやデータベースの関連性などを分析させるテストです。 正確性: Claude Sonnet 4は、Geminiモデルに比べて、コードの細かな部分を見落とすことがあり、正確性では劣る結果となりました。速度: しかし、処理速度はClaude Sonnet 4の方がわずかに速かったです。Gemini Flashは最も良いスコアを出しましたが、時々出力フォーマットが崩れる不安定さも指摘されています。 AI外交ゲームでの戦略性: AI同士で世界征服を目指す「AI Diplomacy」というゲームで、Claude Sonnet 4の戦略性を試しました。 Claudeは通常、嘘をつくのが苦手な傾向がありますが、今回のテストでは、攻撃的な指示を与えると非常に高いパフォーマンスを発揮し、他のモデルに迫る成績を収めました。特に、特別な調整をしていない標準的なプロンプトでの性能が際立っていました。 まとめると、Claude Sonnet 4は、大量の情報を「高速」に処理し、「間違った情報(幻覚)を出すことが少ない」という点が大きな強みです。 大規模なドキュメントから必要な情報を素早く抽出したり、複雑な状況での交渉シミュレーションなどに非常に役立つ可能性があります。 一方で、非常に「詳細な分析」や「コードの完璧な理解」を求める場合は、Geminiモデルの方が優れている部分もあります。 また、コスト面ではClaude Sonnet 4は100万トークンあたり6ドルと、Geminiモデルに比べて高価です。 新人エンジニアの皆さんにとっては、プロジェクトで大量のテキストやコードをAIに処理させたいときに、それぞれのモデルの得意分野を理解して、適切なAIを選ぶ際の参考になるでしょう。速度と信頼性(幻覚の少なさ)を優先するならClaude Sonnet 4、詳細な分析を求めるならGeminiといった使い分けが考えられますね。 引用元: https://every.to/vibe-check/vibe-check-claude-sonnet-4-now-has-a-1-million-token-context-window Evaluating & Ranking GPT-5 Reasoning Ability この研究は、最新の言語モデル、特に「GPT-5」が持つ推論能力を深く掘り下げて評価したものです。従来の知識量だけを測るベンチマークとは異なり、パターン認識、水平思考(柔軟な発想)、抽象的な推論、文脈理解、そして複数のステップを踏む複雑な推論といった、より実用的な「考える力」を測ることを目指しています。 なぜこの評価が重要なのでしょうか?それは、将来のAIシステムが、単に情報を知っているだけでなく、状況を判断し、適切に行動する「マルチエージェントオーケストレーションシステム」のような高度な協調動作を求められるからです。モデルが自分で判断し、必要なら追加情報を取得するといった能力は、これからのAI開発で非常に重要になります。 評価には、知識の暗記ではなく、創造的な問題解決やひらめきが求められるイギリスのクイズ番組...
まだレビューはありません