エピソード

  • 私立ずんだもん女学園放送部 podcast 20250815
    2025/08/14
    関連リンク A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems 最近、AIエージェントが注目を集めていますが、これまでの多くのエージェントは、一度設定されると環境の変化に適応するのが苦手でした。これは、私たちが生きる現実の世界が常に変化しているため、大きな課題となっていました。 そんな中で、新たな研究の方向性として「自己進化型AIエージェント」が登場しました。これは、AIが現実世界とのやり取り(インタラクションデータ)や、環境からのフィードバックを通じて、まるで生き物のように自ら学習し、進化していくことを目指すものです。最新の基盤モデル(例えば、大規模言語モデルのような、たくさんのデータで事前に学習された高性能なAIの土台)が持つ静的な能力と、AIが一生涯にわたって状況に適応し続ける「ライフロングなエージェントシステム」に必要な継続的な柔軟性を橋渡しする役割を担います。 この論文は、自己進化型AIエージェントに関するこれまで研究されてきた技術を幅広くレビューしています。まず、自己進化するエージェントの設計の核となる「フィードバックループ」を、「システム入力(System Inputs)」、「エージェントシステム(Agent System)」、「環境(Environment)」、「最適化装置(Optimisers)」という4つの主要な要素からなる統一的な枠組みで整理しています。この枠組みを使うことで、様々な進化戦略を理解し、比較することができます。 論文では、この枠組みに基づいて、エージェントシステムの様々な部分を対象とした多様な自己進化技術が体系的に紹介されています。また、医学、プログラミング、金融といった専門分野で、それぞれの制約に合わせて開発された進化戦略についても掘り下げて分析しています。さらに、自己進化型AIエージェントの評価方法、安全性、そして倫理的な考慮事項についても重要な議論がなされています。 この論文は、AIエージェントの研究者や開発者(私たちのようなエンジニアも含まれますね)が、自己進化型AIエージェントについて体系的に理解するための貴重な情報源となります。これによって、将来的にはもっと柔軟で、自律的に動き、常に学び続けるAIエージェントが開発される基盤が築かれると期待されています。 引用元: https://arxiv.org/abs/2508.07407 Claude Codeでできることを一通りまとめてみた この記事は、Anthropic社が開発したCLI(コマンドラインインターフェース)ベースのAIコーディングエージェント「Claude Code」について、その概要と主要な機能を紹介しています。エンジニアが日々の開発でAIを効果的に活用するためのヒントが盛り込まれており、特に新人エンジニアにも分かりやすい内容です。 Claude Codeは、安全性とコーディング能力に強みを持つ大規模言語モデル(LLM)「Claude」を基盤としたツールです。2025年5月に一般公開され、プログラマーに人気のテキストエディターであるVS Codeへの対応でさらに注目を集めました。 主な特徴として、人間が使う自然な言葉(自然言語)での指示から、高品質なコードを生成できる点が挙げられます。例えば、「簡単なWebサイトを作ってほしい」といった指示を与えるだけで、Claude Codeが自動的に「ToDoリスト」を作成し、プロジェクトのセットアップからコード生成までを自律的に進めることができます。 また、開発でよく使うGitHubとの連携も強力です。GitHub CLIツールと組み合わせることで、作成したコードのコミットやPull Request(プルリクエスト:コードの変更を提案する機能)の作成を自動で行うことが可能です。既存のIssue(課題やタスク)をClaude Codeに指示すれば、その内容に沿った開発作業を進め、最終的にPull Requestを自動で作成するといった開発フローも実現できます。さらに、GitHub Actionsと連携すれば、GitHubのリポジトリのコメントで@claudeとメンションするだけで、AIがタスクを実行し、進捗を報告しながら開発を進めるという革新的な使い方もできます。これは、まるでAIがチームメンバーのように開発に参加するイメージです。 さらに注目すべき機能として「MCP(Model ...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250814
    2025/08/13
    関連リンク Vibe Check: Claude Sonnet 4 Now Has a 1-million Token Context Window Anthropicから新しい大規模言語モデル(LLM)「Claude Sonnet 4」が登場しました。このモデルの最大の注目点は、100万トークンという非常に大きなコンテキストウィンドウに対応したことです。コンテキストウィンドウとは、AIが一度に理解・処理できる情報量のこと。この100万トークンは、ハリー・ポッターシリーズの全巻を一度にAIに読み込ませられるほどの情報量に相当します。 この記事では、この新しいClaude Sonnet 4が実際にどのくらい使えるのか、Googleの「Gemini 2.5 Pro」や「Gemini 2.5 Flash」といった他のLLMと比較してテストした結果が報告されています。 主なテスト内容は以下の3つです。 長い文章の分析能力の検証: 約90万語のシャーロック・ホームズ小説の中に隠された映画のシーンを見つけ出し、分析させるテストです。 速度と正確性(幻覚の少なさ): Claude Sonnet 4は、Geminiモデルよりも約半分の速さで分析を完了し、間違った情報(これを「幻覚」と呼びます)を出すことが少なかったです。詳細さ: ただし、分析内容の「詳細さ」ではGeminiモデルに軍配が上がりました。Geminiが非常に詳しい分析を提供したのに対し、Claudeの分析はやや簡潔でした。 長文のコード分析能力の検証: Every社のコンテンツ管理システム(CMS)の全コードベース(約100万トークン相当)を与え、そのコードの仕組みやデータベースの関連性などを分析させるテストです。 正確性: Claude Sonnet 4は、Geminiモデルに比べて、コードの細かな部分を見落とすことがあり、正確性では劣る結果となりました。速度: しかし、処理速度はClaude Sonnet 4の方がわずかに速かったです。Gemini Flashは最も良いスコアを出しましたが、時々出力フォーマットが崩れる不安定さも指摘されています。 AI外交ゲームでの戦略性: AI同士で世界征服を目指す「AI Diplomacy」というゲームで、Claude Sonnet 4の戦略性を試しました。 Claudeは通常、嘘をつくのが苦手な傾向がありますが、今回のテストでは、攻撃的な指示を与えると非常に高いパフォーマンスを発揮し、他のモデルに迫る成績を収めました。特に、特別な調整をしていない標準的なプロンプトでの性能が際立っていました。 まとめると、Claude Sonnet 4は、大量の情報を「高速」に処理し、「間違った情報(幻覚)を出すことが少ない」という点が大きな強みです。 大規模なドキュメントから必要な情報を素早く抽出したり、複雑な状況での交渉シミュレーションなどに非常に役立つ可能性があります。 一方で、非常に「詳細な分析」や「コードの完璧な理解」を求める場合は、Geminiモデルの方が優れている部分もあります。 また、コスト面ではClaude Sonnet 4は100万トークンあたり6ドルと、Geminiモデルに比べて高価です。 新人エンジニアの皆さんにとっては、プロジェクトで大量のテキストやコードをAIに処理させたいときに、それぞれのモデルの得意分野を理解して、適切なAIを選ぶ際の参考になるでしょう。速度と信頼性(幻覚の少なさ)を優先するならClaude Sonnet 4、詳細な分析を求めるならGeminiといった使い分けが考えられますね。 引用元: https://every.to/vibe-check/vibe-check-claude-sonnet-4-now-has-a-1-million-token-context-window Evaluating & Ranking GPT-5 Reasoning Ability この研究は、最新の言語モデル、特に「GPT-5」が持つ推論能力を深く掘り下げて評価したものです。従来の知識量だけを測るベンチマークとは異なり、パターン認識、水平思考(柔軟な発想)、抽象的な推論、文脈理解、そして複数のステップを踏む複雑な推論といった、より実用的な「考える力」を測ることを目指しています。 なぜこの評価が重要なのでしょうか?それは、将来のAIシステムが、単に情報を知っているだけでなく、状況を判断し、適切に行動する「マルチエージェントオーケストレーションシステム」のような高度な協調動作を求められるからです。モデルが自分で判断し、必要なら追加情報を取得するといった能力は、これからのAI開発で非常に重要になります。 評価には、知識の暗記ではなく、創造的な問題解決やひらめきが求められるイギリスのクイズ番組...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250813
    2025/08/12
    関連リンク Claude Code完全ガイド|AI開発者が全自動コーディングを実現する方法 2025年の開発現場では、AIがコード作成を自動で行うのが当たり前になりつつあります。Anthropic社がリリースした「Claude Code」は、単なるコーディング支援ツールではなく、まるで人間のエンジニアのように開発作業をこなす「AI開発パートナー」として注目されています。 Claude Codeの最大の特徴は、人間が介入しなくても長時間のコーディングや複雑なコードの修正(リファクタリング)を完遂できる点です。AIの性能を測る業界標準のベンチマーク「SWE-bench」では、従来のAIツールを大きく上回る72.5%という高いスコアを記録し、実際に企業で使えるレベルのコードを自律的に生成できることが証明されました。 これまでのAIコーディングツールは、特定のファイルを指定したり、単発のコード生成しかできなかったり、プロジェクト全体の意図を理解できないという限界がありました。しかし、Claude Codeはこれらの課題を根本から解決します。具体的には、プロジェクトのファイル構造を自動で把握し、必要なファイルを自分で見つけて処理します。さらに、「株価分析アプリを作って」といったざっくりとした指示から、設計、実装、テスト、さらにはGitを使ったコード管理まで、一連の開発プロセスを全て自動で実行できる「エンドツーエンド自動化」を実現します。人間では集中力が続かないような7時間以上もの連続作業も、品質を落とさずに続けられます。 Claude Codeの価値は、個人の開発効率を上げるだけでなく、会社全体の開発プロセスを大きく変革する点にもあります。例えば、「Hooks機能」を使えば、コード変更前の自動チェックや実装後の自動テスト、作業完了通知まで、一連のタスクを完全に自動化できます。また、GitHub ActionsのようなCI/CD(継続的インテグレーション・継続的デリバリー)ツールと連携させることで、人間が作業していない間も開発が進むようになります。AIがどのように考えて作業を進めているかをリアルタイムで確認できる「Reasoning Pane」機能は、チームでのAI活用を助け、実際の導入事例では、仕様変更対応の手間が70%削減されたり、開発効率が300%向上したりといった成果が出ています。 Claude Codeの導入は、まず個人で簡単なタスクから始め、AIの振る舞いを理解することからスタートします。その後、チーム全体でAIへの指示方法を統一し、最終的には「Hooks機能」やCI/CD連携を活用して会社全体の開発プロセスを自動化していく、段階的なアプローチが推奨されています。コスト面では、開発初期は使った分だけの従量課金で安価に始められ、本格運用では月額定額プランで安定したパフォーマンスを得られます。導入企業からは、投資に見合う十分な効果を実感しているという声が多く寄せられています。 AIツールの進化は非常に速く、競合に差をつけるためには、ただツールを導入するだけでなく、会社全体のAIに対する理解を深め、戦略的に活用していくことが重要です。今、行動を起こすかどうかが、今後の開発競争における分岐点になると記事は強調しています。 引用元: https://note.com/tacyan/n/n97dfaddf952a Claude Sonnet 4 now supports 1M tokens of context Anthropic社のAIモデル「Claude Sonnet 4」が、一度に扱える情報の量(これを「コンテキストウィンドウ」と呼びます)を大幅に拡大し、最大100万トークンに対応可能になりました。これは、従来の5倍の容量にあたり、非常に膨大な情報を一気にAIに読み込ませて処理できるようになったことを意味します。たとえば、7万5千行を超える大規模なプログラムコード全体や、数十本もの研究論文を一度にAIに渡して分析してもらうことが可能になります。 この「記憶力」の大幅な向上は、AIの活用範囲を大きく広げ、これまで難しかった大規模なタスクにAIを適用できるようになります。具体的には、以下のようなことが実現できます。 大規模なコード分析: プロジェクト全体のコード、テスト、ドキュメントをAIに読み込ませて、システム全体の設計を理解させたり、ファイル間の依存関係を見つけたり、コード改善の提案を受...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250812
    2025/08/11
    関連リンク Gemini CLI で実現する AI Agent 時代のプロダクト開発(Google Cloud Next Tokyo 25セッションレポート) この記事は、Google Cloud Next ‘25 Tokyo で行われた「Gemini CLI で実現する AI Agent 時代のプロダクト開発」セッションのレポートです。AIがソフトウェア開発を支援する「AI Agent」の時代において、Googleの提供する「Gemini CLI」がどのように役立つかが紹介されました。 まず前提として、GoogleはAIによるコーディング支援サービス「Gemini Code Assist」を提供しており、その発展形として開発ライフサイクル全体を支援する「Gemini Code Assist Agents」を発表しました。このAgent機能の中核を担うのが「Agent mode」で、特にVS Codeなどの統合開発環境(IDE)上での動作時には「Gemini CLI」がバックエンドで使われています。Gemini CLIは、コマンドラインターミナルから直接Googleの強力なAI「Gemini」の機能を利用できるオープンソースのAIエージェントです。コード生成、ファイル管理、外部ツールの呼び出しなど、様々な開発タスクを自律的に実行できます。 Gemini CLIの主な機能としては、以下の点が挙げられます。 一つは「入力モード」です。AIと対話しながら指示を出す「Interactive Prompt」と、CLI(コマンドラインインターフェース)上のコマンドとして呼び出し、他のツールと連携させる「Non-Interactive Prompt」の2種類があります。 次に「Context Engineering」です。AIの応答精度を高めるために、プロジェクトの概要やコーディング規約などをGEMINI.mdというファイルに記述してAIに事前に学習させることができます。これにより、AIはより的確なアドバイスを提供できるようになります。 そして「MCPサポート」です。これは「Model-Centric Prompting」の略で、AIモデルとBigQueryなどの外部のツールやデータソースとの連携を標準化する仕組みです。 セッションでは、Gemini CLIを使った実践的なデモも披露されました。例えば、自然言語で指示するだけで、BigQueryからデータを分析するためのSQLコードをAIが自動生成し、分析結果を得る様子が示されました。また、ウェブサイト用の動画をAIが生成し、さらにその動画を既存のウェブサイトに組み込むHTML/CSSの修正までAIが行い、最終的にGoogle CloudのCloud Runへデプロイするところまで、一連の作業がGemini CLIを通じて効率的に実行されました。 このように、Gemini CLIは開発者がAIをより手軽に、そして強力に活用するためのツールとして期待されています。新人エンジニアの皆さんも、このようなAIツールを使いこなすことで、開発効率を大きく向上させることができるでしょう。 引用元: https://blog.g-gen.co.jp/entry/next-tokyo-25-product-development-with-gemini-cli Apple brings OpenAI’s GPT-5 to iOS and macOS Appleが、iPhoneやiPad、Macといった主要デバイス向けの次期OSに、OpenAIの最新かつ最先端のAIモデル「GPT-5」を統合すると発表しました。具体的には、今年2025年の秋にリリースされる見込みの「iOS 26」「iPadOS 26」「macOS Tahoe 26」で、この強力なAIが使えるようになる予定です。 現在、Apple製品では、Siriが質問内容に応じてOpenAIの「GPT-4o」といった外部のAIモデルを呼び出して情報を補完する連携が行われています。Apple自身も「Apple Intelligence」というAIモデルを開発していますが、これらは主にデバイス上で動作するよう設計されており、GPT-5のような大規模なモデルと比較すると、処理能力や対応できる範囲に限界があります。そのため、GPT-5のような非常に強力なAIがAppleのエコシステムに加わることで、これまでApple独自のAIでは難しかった、より高度で複雑なタスクもこなせるようになると期待されています。 GPT-5の大きな進化点としては、AIが事実とは異なる情報を生成してしまう現象(通称「ハルシネーション」)が、従来のモデルに比べて最大80%も減少すると言われています。これはAIの信頼性を大きく向上させるため、ユーザーがより安心してAIの情報を活用できるようになることを意味します。また、GPT-5はユーザーの質問内容や意図をAI自身が判断し、最適な処理モデルを自動で選択する機能も備えています。これにより、ユーザーはAIの専門的な知識がなくても、常に最適な回答やサポートを受...
    続きを読む 一部表示
    1分未満
  • 私立ずんだもん女学園放送部 podcast 20250808
    2025/08/07
    関連リンク Introducing GPT-5 OpenAIは、これまでで最も高性能なAIシステム「GPT-5」を発表しました。これは、以前のモデルから大きく進化しており、新人エンジニアの皆さんが日々の業務でAIをさらに活用できるようになる、とても重要なニュースです。 GPT-5は、「スマートで効率的なモデル」と「より深く考える推論モデル(GPT-5 thinking)」を自動で使い分ける「統合システム」として設計されています。これにより、簡単な質問には素早く、難しい問題にはじっくり考えて専門的な回答を出せるようになりました。「もっと深く考えてほしい」と指示すれば、AIが推論を強化することも可能です。 特に、以下の点で大きな進化を遂げています。 コーディング能力の向上: Webサイトやアプリのデザインを含むフロントエンドの生成、大きなコードのリポジトリのデバッグが大幅に改善されました。直感的にアイデアを形にする能力が高まり、デザインセンスも備えています。文章作成能力の向上: 報告書やメール作成など、日々の業務で役立つ文章をより説得力があり、自然な形で作成できるようになりました。複雑な構造の文章も得意です。健康関連情報の強化: 健康に関する質問に対して、より正確で信頼性の高い情報を提供できるようになりました。ただし、AIはあくまで補助であり、医療専門家の代わりではない点に注意が必要です。 また、GPT-5は、AIが誤った情報を作り出す「ハルシネーション」を大幅に減らし、ユーザーの指示に忠実に従う能力も向上しました。これにより、より信頼性の高い回答が得られます。不可能または情報不足のタスクに対しては、正直に「できません」と伝えたり、限界を明確に伝えたりするようになりました。これは、AIとのやり取りにおいて非常に重要な改善点です。 安全性にも力を入れており、新しいトレーニング方法で、有害なコンテンツを生成するリスクを減らしつつ、有益な回答を提供できるようになっています。また、モデルが過度にへつらう「sycophancy」と呼ばれる傾向も改善され、より自然で建設的な会話ができるようになりました。さらに、「Cynic」「Robot」「Listener」「Nerd」といった4つの新しいプリセット人格が導入され、ユーザーの好みに合わせてAIの話し方を選べるようになります。 最も複雑なタスク向けには、さらに強力な「GPT-5 pro」も提供されます。これは「GPT-5 thinking」よりもさらに深く思考し、最高品質で包括的な回答を提供します。 GPT-5は、ChatGPTの新しいデフォルトモデルとして、Plus、Pro、Team、およびFreeユーザーに順次提供されます。Proユーザーは無制限に、Plusユーザーはより高い利用量で、Freeユーザーは使用制限を超えると「GPT-5 mini」という軽量版に切り替わります。ChatGPTにアクセスするだけで自動的にGPT-5が利用できるようになるため、特別な操作は不要です。 今回のGPT-5の発表は、AIが私たちの仕事や生活に深く浸透し、より強力なツールとなることを示しています。新人エンジニアの皆さんも、ぜひこの新しいAIを積極的に試して、その可能性を探ってみてください。 引用元: https://openai.com/index/introducing-gpt-5 gpt-oss-120bをpythonとvLLMで触りながら理解する このブログ記事は、OpenAIから新しく登場したオープンソースの大規模言語モデル(LLM)「gpt-oss-120b」と「gpt-oss-20b」を、PythonとvLLMという高速化ライブラリを使って実際に動かしながら、その特徴や使い方を解説しています。 まず、gpt-ossモデルは、たくさんの小さなモデルを組み合わせて賢く動く「MoE(Mixture of Experts)」という技術を使っているのが大きな特徴です。特に120bモデルは全体で1200億個ものパラメータを持っていますが、実際に計算に使う「アクティブパラメータ」は51億個と少なく、これにより高速に動作することが期待されます。ライセンスはApache2.0なので、個人・商用問わず自由に利用できます。 記事では、このモデルをvLLM上で動かす具体的な手順が紹介されています。特に注目すべきは「OpenAI Harmony」という仕組みです。これは、モデルとの会話のやり取りを統一的に扱うためのフォーマットで、モデルが「どのように考えて(analysis)」から「...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250807
    2025/08/06
    関連リンク Introducing Open SWE: An Open-Source Asynchronous Coding Agent ソフトウェア開発におけるAIの利用は、数年の間に大きく進化しました。最初はコードの自動補完から始まり、やがてIDE(開発環境)でコード作成を支援するCopilotのような存在へ。そして今、クラウド上で非同期に動き、より自律的にソフトウェア開発のタスク全体をこなす「AIエージェント」へと進化しています。 今回発表された「Open SWE」は、この次世代AIエージェントの先駆けとなるオープンソースプロジェクトです。これは、まるでチームの新しいメンバーのように働く非同期型のコーディングエージェントで、主に以下のような特徴を持っています。 Open SWEは、GitHubリポジトリと直接連携し、GitHubのIssueからタスクを受け取ることができます。コードベースの調査、詳細な実行計画の立案、コードの記述、テストの実行、自己レビュー、そして最終的にプルリクエスト(PR)の作成まで、一連の開発プロセスを自動で実行します。 特に新人エンジニアにとっても嬉しいポイントは、AI任せにしない「人間参加型」の仕組みです。Open SWEが計画を立てた際に、その計画をレビューして承認したり、途中で指示を変更したり、新しい要望を追加したりすることが可能です。これにより、AIが勝手に進めてしまうことへの不安がなく、AIと協力しながら開発を進められます。 また、Open SWEはGitHubの既存ワークフローに深く統合されます。例えば、GitHubのIssueに特定のラベルを付けるだけで、Open SWEがタスクを開始し、完了時には自動でPRを作成してくれます。さらに、各タスクは隔離された安全な環境(サンドボックス)で実行されるため、セキュリティ面も安心です。クラウド上で非同期に動作するため、あなたのローカルPCのリソースを消費することなく、複数のタスクを並行して処理させることが可能です。 Open SWEの内部では、計画役(Planner)とレビュー役(Reviewer)といった専門のエージェントが連携して動いています。これにより、いきなりコードを書き始めるのではなく、まずはしっかり計画を立て、コードを書いた後も自己レビューとテストを行うため、高品質で動作するコードを生成しやすいのが強みです。 現時点では、複雑で時間のかかる開発タスクに向いていますが、今後は簡単なバグ修正やスタイル調整にも対応できるバージョンが開発される予定です。Open SWEはオープンソースとして公開されており、開発者が自由に拡張・カスタマイズできるため、AIと人間が協調する未来のソフトウェア開発の基盤となることが期待されています。 引用元: https://blog.langchain.com/introducing-open-swe-an-open-source-asynchronous-coding-agent/ 強化学習で効率の良い検索を実現するRAGの手法 この記事では、AIが賢く情報を探すための新しい技術「GraphRAG-R1」について解説しています。 皆さんご存知の通り、ChatGPTのようなLLM(大規模言語モデル)は、質問に答える能力が非常に高いです。しかし、LLMは学習した時点までの情報しか持っていないため、最新の情報や特定の専門知識については苦手な場合があります。そこで活躍するのが、RAG(Retrieval Augmented Generation)という技術です。RAGは、LLMが外部のデータベースなどから必要な情報を検索して「参照」しながら、より正確で詳細な回答を生成する仕組みです。 最近のRAGの主流は、一度に全ての情報を探すのではなく、質問の内容に応じて必要な情報が見つかるまで、何度も検索を繰り返す「繰り返し検索」という方法です。この方法には、「必要な情報を見つけきれない(検索不足)」ことや、「もう十分なのに探し続けてしまう(検索過多)」といった課題がありました。これらの課題は、LLMが適切な「コンテキスト」(回答に必要な情報)を得ることを妨げていました。 今回紹介されている「GraphRAG-R1」は、この「繰り返し検索」の精度を大幅に高めるための画期的な手法です。強化学習という、コンピューターが試行錯誤しながら最適な行動を学ぶ技術(例えば、ゲームのAIがプレイを重ねるうちに上手くなるようなイメージです)をRAGに適用しています。これにより、RAGは「どんな情報を、...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250806
    2025/08/05
    関連リンク Slack上でみんなで育てるAI bot 「resident-ai」 この記事は、はてな社内で開発・運用されているSlack上のAIチャットボット「resident-ai」について紹介しています。このAIボットの最大の特徴は、Slackの各チャンネルにある「Canvas」(チャンネルの共有メモ機能のようなもの)を、AIがどのように振る舞うかを決める「システムプロンプト」(AIへの指示や設定)として活用している点です。 具体的には、ユーザーが「@resident-ai」とメンションして質問すると、そのチャンネルのCanvasに書かれた内容をAIが自動的に読み込み、その情報に基づいて賢く、またはユニークな個性を持って回答します。例えば、Canvasに「あなたはウニです。最初の応答は『ウニウニ!』と名乗ってください」と書けば、AIは本当にウニとして振る舞います。これにより、チームやプロジェクトの目的に合わせて、AIの役割や回答のスタイルを簡単にカスタマイズできるようになります。 「resident-ai」が開発された背景には、以前のAIボットではAIの設定(プロンプト)を管理するのが少し手間だったという課題がありました。そこで、普段からみんなが使っているSlackのCanvasを使うことで、「誰でも簡単にAIを育てる」というコンセプトを実現しました。 技術的な工夫としては、以下の点があげられます。 Canvas情報の取得: Slack APIを使ってチャンネルのCanvasの内容(HTML形式)を取得し、AIが理解しやすいように余分な情報(HTMLタグのID属性など)を取り除いてAIに渡しています。連続した会話の実現: スレッド内でAIとスムーズに会話を続けるため、AIボット自身が自分のユーザーIDを正確に識別し、会話の文脈を理解できるようにしています。 この「resident-ai」は、社内でのAI活用を促進し、チームのコミュニケーションをより豊かにする一例です。新人エンジニアの皆さんにとっても、身近なツールにAIを組み込む具体的なアイデアや、API連携を通じたシステム開発の面白さを感じられる事例になるでしょう。このように、AIは日々の業務に寄り添い、私たちと一緒に成長していく可能性を秘めています。 引用元: https://developer.hatenastaff.com/entry/2025/08/05/180610 Claude Opus 4.1 Anthropic(アンソロピック)社から、AIモデル「Claude Opus(クロード・オーパス)4.1」がリリースされました。これは、以前の「Opus 4」の強化版で、AIが自律的にタスクをこなす「エージェントタスク」や、実際のコードを扱う「リアルワールドコーディング」、そして物事を論理的に考える「推論能力」が大きく向上しています。 特に注目すべきは、コードを自動で修正する能力です。「SWE-bench Verified」という、コード修正能力を測る評価基準で74.5%という高いスコアを達成しました。これは、AIがより正確で質の高いコードを生成できるようになったことを意味します。 具体的な利用例として、大手IT企業のGitHubは、Opus 4.1が複数のファイルをまたぐコードの修正(リファクタリング)において特に性能が向上したと報告しています。また、楽天グループは、大規模なコードの中から必要な部分だけを正確に修正し、余計な変更やバグを入れない点が素晴らしいと評価しており、日々のデバッグ作業に非常に役立つと述べています。さらに、Windsurfという企業では、新人エンジニア向けのベンチマークテストでOpus 4よりも格段に良い成績を出したと発表しており、新人エンジニアの学習や開発作業を強力にサポートする可能性を示唆しています。 Claude Opus 4.1は、すでに有料のClaudeユーザーや開発者向けのサービスで利用可能です。AnthropicのAPI(アプリケーションプログラミングインターフェース)を通じて、Amazon BedrockやGoogle CloudのVertex AIといった主要なクラウドサービスからも使うことができます。価格はOpus 4と同じです。開発者の方は、APIでclaude-opus-4-1-20250805を指定するだけで利用を開始できます。 Anthropicは、今後数週間のうちにさらに性能が向上したモデルをリリースする計画があるとのことなので、今後のAIの進化にも注目が集まります。このOpus 4.1は、皆さんの開発作業をより効率的でスムーズにする、非常に強力なツールとなるでしょう。 引用元: ...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250805
    2025/08/04
    関連リンク コーディングのための LLM モデル Qwen3-Coder を試してみた この記事では、プログラミング作業を助ける新しいAIモデル「Qwen3-Coder」と、それを使うためのツール「Qwen Code」の試用レポートを紹介しています。 Qwen3-CoderとQwen Codeとは? Qwen3-Coderは、大手IT企業Alibabaが開発した賢いAIモデルです。特に、AIが自動でコードを書いたり、ウェブサイトの操作をしたりする能力(Agentic CodingやAgentic Browser-Use)に優れています。一度に大量の情報を記憶できる(256kトークンという長い文章を扱える)ので、複雑なコードの全体像を理解するのも得意です。 そして、このQwen3-Coderを皆さんがパソコンのコマンド入力で簡単に使えるようにしたのが「Qwen Code」というツールです。npmというプログラムの管理ツールを使って簡単にインストールできます。 Qwen Codeで何ができるの? 記事では、実際にQwen Codeを使って様々なプログラミング作業をAIに任せています。 コードの構造を調べる: アプリケーションのコード全体をAIに分析させ、主要な部分や全体の設計(アーキテクチャ)を説明してもらいました。AIはフォルダの中身を読んだり、ファイルを読んだりするツールを使って、きちんとコードを理解していました。コードをきれいに直す(リファクタリング): 重複しているコードを見つけて、もっと効率的で分かりやすい形に直してもらう依頼もしました。AIは関連するファイルを探し、内容を確認し、修正案を提示。最終的には、修正したコードをファイルに書き込み、テストまで実行してくれました。テストコードを作る: AIに新しく書いたコードのテストコードを作ってもらうことも試しました。 使ってみて分かったこと(注意点も) Qwen Codeを使うと、AIがまるで一緒に開発しているかのように、自分でファイルを読んだり、書いたり、コマンドを実行したりして、プログラミング作業を進めてくれることが分かりました。しかし、いくつか注意点もありました。 会話の量には制限がある: AIとの会話が長くなると、AIが一度に記憶できる情報の量(トークンリミット)を超えてしまうことがあります。記事の試用でも、途中で制限に引っかかりました。もし制限を超えたら、一度AIとの会話をリセットするか、過去の会話を圧縮して続きを行うことができます。AIの出力が不安定になることも: 会話を圧縮した後など、AIの応答が不安定になる場合もあるようです。このような場合は、新しい会話としてやり直す方が、スムーズに進むかもしれません。 このように、Qwen CodeはAIを活用したコーディングの可能性を広げるツールですが、まだ発展途上な部分もあります。新人エンジニアの皆さんも、ぜひこのような新しいAIツールに触れて、その可能性と課題を体験してみてください。 引用元: https://azukiazusa.dev/blog/coding-agent-qwen3-corder 人に寄り添うAIエージェントとアーキテクチャ #BetAIDay このプレゼンテーションは、人に寄り添うAIエージェントの実現に向けたアーキテクチャと必要な要素について、新人エンジニアにも分かりやすく解説しています。 まず、今後のAIエージェント時代では、AIがユーザーの「分身」のようにタスクの本質を理解し、自律的に動くことが重要だと強調されています。AIアシスタントがユーザーの指示に受動的に対応するのに対し、AIエージェントは自律的に意思決定し、複雑なタスクを計画・実行できる点が大きな違いです。 優秀なAIエージェントには、以下の6つの要素が不可欠です。 空気を読む力: 現状を理解し、適切な行動をとる能力。情報検索能力: 必要な情報を効率的に見つけ出す力(従来の検索エンジンやRAGなど)。最小のHuman In The Loop: 人間による介入を最小限に抑え、AIが自律的にタスクを完遂する能力。トライ&エラー: 実行結果を検証し、間違いから学習して改善する能力。多様な知識: LLMが持つ広範囲な知識に加え、エージェントの役割に特化した専門知識(マニュアル、ガイドラインなど)を活用する能力。正しいアクション: 精度高く、適切な行動を選択し実行する能力。 特に重要な技術的要素として「コンテキスト」と、それを最適化するための「...
    続きを読む 一部表示
    1分未満