『株式会社ずんだもん技術室AI放送局』のカバーアート

株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

著者: 株式会社ずんだもん技術室AI放送局
無料で聴く

このコンテンツについて

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)
エピソード
  • 私立ずんだもん女学園放送部 podcast 20250815
    2025/08/14
    関連リンク A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems 最近、AIエージェントが注目を集めていますが、これまでの多くのエージェントは、一度設定されると環境の変化に適応するのが苦手でした。これは、私たちが生きる現実の世界が常に変化しているため、大きな課題となっていました。 そんな中で、新たな研究の方向性として「自己進化型AIエージェント」が登場しました。これは、AIが現実世界とのやり取り(インタラクションデータ)や、環境からのフィードバックを通じて、まるで生き物のように自ら学習し、進化していくことを目指すものです。最新の基盤モデル(例えば、大規模言語モデルのような、たくさんのデータで事前に学習された高性能なAIの土台)が持つ静的な能力と、AIが一生涯にわたって状況に適応し続ける「ライフロングなエージェントシステム」に必要な継続的な柔軟性を橋渡しする役割を担います。 この論文は、自己進化型AIエージェントに関するこれまで研究されてきた技術を幅広くレビューしています。まず、自己進化するエージェントの設計の核となる「フィードバックループ」を、「システム入力(System Inputs)」、「エージェントシステム(Agent System)」、「環境(Environment)」、「最適化装置(Optimisers)」という4つの主要な要素からなる統一的な枠組みで整理しています。この枠組みを使うことで、様々な進化戦略を理解し、比較することができます。 論文では、この枠組みに基づいて、エージェントシステムの様々な部分を対象とした多様な自己進化技術が体系的に紹介されています。また、医学、プログラミング、金融といった専門分野で、それぞれの制約に合わせて開発された進化戦略についても掘り下げて分析しています。さらに、自己進化型AIエージェントの評価方法、安全性、そして倫理的な考慮事項についても重要な議論がなされています。 この論文は、AIエージェントの研究者や開発者(私たちのようなエンジニアも含まれますね)が、自己進化型AIエージェントについて体系的に理解するための貴重な情報源となります。これによって、将来的にはもっと柔軟で、自律的に動き、常に学び続けるAIエージェントが開発される基盤が築かれると期待されています。 引用元: https://arxiv.org/abs/2508.07407 Claude Codeでできることを一通りまとめてみた この記事は、Anthropic社が開発したCLI(コマンドラインインターフェース)ベースのAIコーディングエージェント「Claude Code」について、その概要と主要な機能を紹介しています。エンジニアが日々の開発でAIを効果的に活用するためのヒントが盛り込まれており、特に新人エンジニアにも分かりやすい内容です。 Claude Codeは、安全性とコーディング能力に強みを持つ大規模言語モデル(LLM)「Claude」を基盤としたツールです。2025年5月に一般公開され、プログラマーに人気のテキストエディターであるVS Codeへの対応でさらに注目を集めました。 主な特徴として、人間が使う自然な言葉(自然言語)での指示から、高品質なコードを生成できる点が挙げられます。例えば、「簡単なWebサイトを作ってほしい」といった指示を与えるだけで、Claude Codeが自動的に「ToDoリスト」を作成し、プロジェクトのセットアップからコード生成までを自律的に進めることができます。 また、開発でよく使うGitHubとの連携も強力です。GitHub CLIツールと組み合わせることで、作成したコードのコミットやPull Request(プルリクエスト:コードの変更を提案する機能)の作成を自動で行うことが可能です。既存のIssue(課題やタスク)をClaude Codeに指示すれば、その内容に沿った開発作業を進め、最終的にPull Requestを自動で作成するといった開発フローも実現できます。さらに、GitHub Actionsと連携すれば、GitHubのリポジトリのコメントで@claudeとメンションするだけで、AIがタスクを実行し、進捗を報告しながら開発を進めるという革新的な使い方もできます。これは、まるでAIがチームメンバーのように開発に参加するイメージです。 さらに注目すべき機能として「MCP(Model ...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250814
    2025/08/13
    関連リンク Vibe Check: Claude Sonnet 4 Now Has a 1-million Token Context Window Anthropicから新しい大規模言語モデル(LLM)「Claude Sonnet 4」が登場しました。このモデルの最大の注目点は、100万トークンという非常に大きなコンテキストウィンドウに対応したことです。コンテキストウィンドウとは、AIが一度に理解・処理できる情報量のこと。この100万トークンは、ハリー・ポッターシリーズの全巻を一度にAIに読み込ませられるほどの情報量に相当します。 この記事では、この新しいClaude Sonnet 4が実際にどのくらい使えるのか、Googleの「Gemini 2.5 Pro」や「Gemini 2.5 Flash」といった他のLLMと比較してテストした結果が報告されています。 主なテスト内容は以下の3つです。 長い文章の分析能力の検証: 約90万語のシャーロック・ホームズ小説の中に隠された映画のシーンを見つけ出し、分析させるテストです。 速度と正確性(幻覚の少なさ): Claude Sonnet 4は、Geminiモデルよりも約半分の速さで分析を完了し、間違った情報(これを「幻覚」と呼びます)を出すことが少なかったです。詳細さ: ただし、分析内容の「詳細さ」ではGeminiモデルに軍配が上がりました。Geminiが非常に詳しい分析を提供したのに対し、Claudeの分析はやや簡潔でした。 長文のコード分析能力の検証: Every社のコンテンツ管理システム(CMS)の全コードベース(約100万トークン相当)を与え、そのコードの仕組みやデータベースの関連性などを分析させるテストです。 正確性: Claude Sonnet 4は、Geminiモデルに比べて、コードの細かな部分を見落とすことがあり、正確性では劣る結果となりました。速度: しかし、処理速度はClaude Sonnet 4の方がわずかに速かったです。Gemini Flashは最も良いスコアを出しましたが、時々出力フォーマットが崩れる不安定さも指摘されています。 AI外交ゲームでの戦略性: AI同士で世界征服を目指す「AI Diplomacy」というゲームで、Claude Sonnet 4の戦略性を試しました。 Claudeは通常、嘘をつくのが苦手な傾向がありますが、今回のテストでは、攻撃的な指示を与えると非常に高いパフォーマンスを発揮し、他のモデルに迫る成績を収めました。特に、特別な調整をしていない標準的なプロンプトでの性能が際立っていました。 まとめると、Claude Sonnet 4は、大量の情報を「高速」に処理し、「間違った情報(幻覚)を出すことが少ない」という点が大きな強みです。 大規模なドキュメントから必要な情報を素早く抽出したり、複雑な状況での交渉シミュレーションなどに非常に役立つ可能性があります。 一方で、非常に「詳細な分析」や「コードの完璧な理解」を求める場合は、Geminiモデルの方が優れている部分もあります。 また、コスト面ではClaude Sonnet 4は100万トークンあたり6ドルと、Geminiモデルに比べて高価です。 新人エンジニアの皆さんにとっては、プロジェクトで大量のテキストやコードをAIに処理させたいときに、それぞれのモデルの得意分野を理解して、適切なAIを選ぶ際の参考になるでしょう。速度と信頼性(幻覚の少なさ)を優先するならClaude Sonnet 4、詳細な分析を求めるならGeminiといった使い分けが考えられますね。 引用元: https://every.to/vibe-check/vibe-check-claude-sonnet-4-now-has-a-1-million-token-context-window Evaluating & Ranking GPT-5 Reasoning Ability この研究は、最新の言語モデル、特に「GPT-5」が持つ推論能力を深く掘り下げて評価したものです。従来の知識量だけを測るベンチマークとは異なり、パターン認識、水平思考(柔軟な発想)、抽象的な推論、文脈理解、そして複数のステップを踏む複雑な推論といった、より実用的な「考える力」を測ることを目指しています。 なぜこの評価が重要なのでしょうか?それは、将来のAIシステムが、単に情報を知っているだけでなく、状況を判断し、適切に行動する「マルチエージェントオーケストレーションシステム」のような高度な協調動作を求められるからです。モデルが自分で判断し、必要なら追加情報を取得するといった能力は、これからのAI開発で非常に重要になります。 評価には、知識の暗記ではなく、創造的な問題解決やひらめきが求められるイギリスのクイズ番組...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250813
    2025/08/12
    関連リンク Claude Code完全ガイド|AI開発者が全自動コーディングを実現する方法 2025年の開発現場では、AIがコード作成を自動で行うのが当たり前になりつつあります。Anthropic社がリリースした「Claude Code」は、単なるコーディング支援ツールではなく、まるで人間のエンジニアのように開発作業をこなす「AI開発パートナー」として注目されています。 Claude Codeの最大の特徴は、人間が介入しなくても長時間のコーディングや複雑なコードの修正(リファクタリング)を完遂できる点です。AIの性能を測る業界標準のベンチマーク「SWE-bench」では、従来のAIツールを大きく上回る72.5%という高いスコアを記録し、実際に企業で使えるレベルのコードを自律的に生成できることが証明されました。 これまでのAIコーディングツールは、特定のファイルを指定したり、単発のコード生成しかできなかったり、プロジェクト全体の意図を理解できないという限界がありました。しかし、Claude Codeはこれらの課題を根本から解決します。具体的には、プロジェクトのファイル構造を自動で把握し、必要なファイルを自分で見つけて処理します。さらに、「株価分析アプリを作って」といったざっくりとした指示から、設計、実装、テスト、さらにはGitを使ったコード管理まで、一連の開発プロセスを全て自動で実行できる「エンドツーエンド自動化」を実現します。人間では集中力が続かないような7時間以上もの連続作業も、品質を落とさずに続けられます。 Claude Codeの価値は、個人の開発効率を上げるだけでなく、会社全体の開発プロセスを大きく変革する点にもあります。例えば、「Hooks機能」を使えば、コード変更前の自動チェックや実装後の自動テスト、作業完了通知まで、一連のタスクを完全に自動化できます。また、GitHub ActionsのようなCI/CD(継続的インテグレーション・継続的デリバリー)ツールと連携させることで、人間が作業していない間も開発が進むようになります。AIがどのように考えて作業を進めているかをリアルタイムで確認できる「Reasoning Pane」機能は、チームでのAI活用を助け、実際の導入事例では、仕様変更対応の手間が70%削減されたり、開発効率が300%向上したりといった成果が出ています。 Claude Codeの導入は、まず個人で簡単なタスクから始め、AIの振る舞いを理解することからスタートします。その後、チーム全体でAIへの指示方法を統一し、最終的には「Hooks機能」やCI/CD連携を活用して会社全体の開発プロセスを自動化していく、段階的なアプローチが推奨されています。コスト面では、開発初期は使った分だけの従量課金で安価に始められ、本格運用では月額定額プランで安定したパフォーマンスを得られます。導入企業からは、投資に見合う十分な効果を実感しているという声が多く寄せられています。 AIツールの進化は非常に速く、競合に差をつけるためには、ただツールを導入するだけでなく、会社全体のAIに対する理解を深め、戦略的に活用していくことが重要です。今、行動を起こすかどうかが、今後の開発競争における分岐点になると記事は強調しています。 引用元: https://note.com/tacyan/n/n97dfaddf952a Claude Sonnet 4 now supports 1M tokens of context Anthropic社のAIモデル「Claude Sonnet 4」が、一度に扱える情報の量(これを「コンテキストウィンドウ」と呼びます)を大幅に拡大し、最大100万トークンに対応可能になりました。これは、従来の5倍の容量にあたり、非常に膨大な情報を一気にAIに読み込ませて処理できるようになったことを意味します。たとえば、7万5千行を超える大規模なプログラムコード全体や、数十本もの研究論文を一度にAIに渡して分析してもらうことが可能になります。 この「記憶力」の大幅な向上は、AIの活用範囲を大きく広げ、これまで難しかった大規模なタスクにAIを適用できるようになります。具体的には、以下のようなことが実現できます。 大規模なコード分析: プロジェクト全体のコード、テスト、ドキュメントをAIに読み込ませて、システム全体の設計を理解させたり、ファイル間の依存関係を見つけたり、コード改善の提案を受...
    続きを読む 一部表示
    1分未満
まだレビューはありません