岸田崇史 | Omluc
1周前
単純な文字起こしだけど、Difyの下半期が詰まっている...! これ実装されたらさらに使いやすくなる。めっちゃ楽しみ。 そして作ったDeepResearchがユースケースの1番目として紹介されてて嬉しい。 以下文字起こし。 **00:00** えー、皆さんこんにちは。Difyのオープンソースエコシステム責任者を務めております、郑立です。コミュニティでは普段「ブナナ」(Banana)と呼ばれています。メールアドレスもBananaになっているのがお分かりいただけるかと思います。 **00:12** 私たちはGitHubで10万スターを獲得したオープンソースプロジェクトで、コミュニティのコントリビューターもメインリポジトリだけで800人以上います。GitHubでは多くのフォークがあり、Docker Hubでは800万回以上ダウンロードされています。 **00:31** はい、本日は主にこの6点についてお話しします。まずDifyの紹介、次にAgentic AIを構築するための5つの重要な要素。そして、私たちの新しいパラダイムである「Agentic Workflow」。それから、非常に重要なエコシステムの一部であるツールについて。さらに、いくつかのケーススタディと、今後のロードマップについてです。 **00:56** まずご紹介しますと、私たちのDifyは、様々な業界で非常に多くの応用例があります。例えば、金融、消費財、自動車、保険などです。各業界で既に広く使われており、企業内部では数千ものワークフローが稼働していることもあります。社内向けだけでなく、外部の一般消費者(CtoC)向けにも、このような基盤能力を提供しています。このスライドに表示されているのは、現在私たちの商用版をご購入いただいているお客様の一部です。 **01:28** 皆さんもご存知の通り、従来のMLOpsから大規模言語モデル(LLM)のLLMOpsへと移行する中で、私たちはこれを「発見」「開発」「普及」の3つの段階に分けて考えています。従来の手法では、ファインチューニングや専用モデルの構築は非常に高コストで、費用がかさみます。例えば医療分野でのデータラベリングでは、1ケースあたり20ドルから100ドルのコストがかかることもあります。データの校正となると、さらに時給50ドルといった投資が必要です。 **02:04** 一方、大規模言語モデルの場合、実際の効果を迅速に検証できるという利点があります。これにより、小さなアイデアを検証するために多額の費用をかける必要がなくなります。私たちにとっては、MVP(Minimum Viable Product)を非常に迅速に作成し、ビジネスロジックや事業価値を検証できることが最もシンプルな利点です。 **02:25** 開発の観点から見ると、従来のMLOpsは明確な効果が求められます。もしプロダクトがもたらす効果が明確でなければ、投資家からそのモデルの研究開発を続けるための資金を得ることは難しいでしょう。 **02:43** しかし、生成AIの時代では、大規模言語モデルを使ってアイデアを素早く検証するだけで済みます。 **02:51** そして普及の段階でも同様に、スピードが重要です。十分な速さがあれば、市場で不敗の地位を築くことができます。 **03:00** これは開発者だけの話ではありません。多くの企業にはビジネス担当者がいますが、彼らの声はしばしば見過ごされがちです。ここにいる多くは開発者で、自分たちでコードを書き、ワークフローを構築する方法を知っていますが、ビジネス担当者はそうではありません。だからこそ私たちは、彼らのアイデアを輝かせ、より簡単に実現できるようにしたいのです。そして、より多様な視点を刺激したいと考えています。 **03:30** ゼロから本番環境(Production)まで、私たちの理念は非常にシンプルです。「まず動かし、次に正しくし、そして速くする」(Make it work, make it right, make it fast)ということです。例えば、仮説の設定から始まり、コンセプトを検証し、製品をリリースしてユーザーを増やし、データとフィードバックを収集し、再び市場仮説を検証して製品を構築する。これは一種の「データのフライホイール」です。良いプロトタイプがなければ、このようなデータフライホイールを回すことは困難です。 **04:03** ご存知の通り、LLMアプリケーションはプロトタイプを作るのは非常に簡単ですが、それを本番環境に投入して運用するとなると、いくつかの課題があります。 **04:17** エージェントを構築するには、実際にはこの5つのモジュールに分けられます。大規模モデル、ワークフロー、RAG(後ほど説明しますが、パイプラインとも言えます)、ツール&マーケットプレイス、そしてトレーシングです。ツールはエージェントが利用できる能力を意味し、MCPやプラグインなどがそれに当たります。マーケットプレイスはエコシステムであり、プラットフォームの発展に不可欠です。最後に、トレーシング、つまり可観測性も非常に重要です。モデルの出力が良いか悪いか、あるいは実行プロセスでどこを最適化できるかを測定する必要があります。 **05:20** 次に、従来の汎用AIエージェントが抱える課題、ジレンマについてです。例えば、「ツールを使ってくれない」「回答に満足できない」「特定のツールを最初に呼び出したい」といった問題があります。これらは不確実性をもたらします。 **05:45** 例えば、DeepSeek-R1というモデルは、ご存知の通りTool useをサポートしていません。Difyのプラットフォーム上でDeepSeekがツールを呼び出せるのは、内部的にReActという戦略にフォールバックしているからです。これはモデル自体がFunction Callをサポートしているわけではなく、Dify内部のエンジニアリング的な最適化によるものです。 **06:21** 他にも実現したいことはたくさんありますが、汎用エージェントだけでは実現できないことが多いのです。 **06:27** そこで、「エージェントか、ワークフローか?」という問題が浮上します。この図をご覧ください。横軸はハードコードからAIへ、縦軸は信頼性の低さから高さを示します。青い線はDifyのようなワークフロー製品、赤い線は一般的なエージェント製品の傾向を表しています。そして破線は「コードを書かずに高い信頼性を得たい」という人々の期待値です。現状では両者の間には大きな隔たりがありますが、将来的には交わる日が来るかもしれません。しかし、少なくとも現時点では、ワークフローが依然として安定した選択肢であると私たちは考えています。 **07:18** 次にRAGについてです。RAGには、ドキュメントを分割・埋め込み・保存する単純なNaive RAGや、LLMを繰り返し呼び出してデータを処理するAgentic RAG、リランキングやハイブリッド検索などを組み合わせたAdvanced RAGなど、様々なアプローチがあります。しかし、これらは特定の問題を解決するものであり、万能ではありません。 **08:22** そこで私たちは、次に「Agentic Workflow」と「RAG Pipeline」というものを進めていきます。これらは新しいパラダイムです。Agentic Workflowは既に実現可能です。なぜなら、ワークフローとエージェントは本質的に対立するものではないからです。ワークフローにエージェントのノードを複数追加すれば、それはマルチエージェントシステムになります。逆に、ワークフローをツールとして公開し、エージェントがそれを呼び出すこともできます。これもまたワークフローです。 **08:56** RAG Pipelineは、次の2四半期でリリース予定の機能で、OCRツールなどを使ってドキュメントから画像や数式をきれいに抽出し、知識ベースに保存する一連のプロセスをワークフローとして編成できます。 **09:17** 次にプラグインについてです。v1.0以前は、新しいモデルを追加するにはDify本体のバージョンアップが必要でした。全てのツールやプラグインがメインリポジトリにあり、頻繁な更新が必要になるという課題がありました。 **09:46** また、私たちはコミュニティ版、クラウド版、エンタープライズ版という3つのバージョンを提供しており、それぞれリリース戦略が異なるため、モデルの更新はさらに困難でした。 **10:00** 例えば、ModelScopeコミュニティのプロバイダーを追加したい場合、新しいアーキテクチャでは、プラグインリポジトリにプルリクエストを送るだけで、迅速に公開できるようになります。Dify本体を再ビルドする必要はもうありません。 **10:14** 次にMCP(Model Connector Protocol)です。MCPは銀の弾丸ではありません。Function Callの代替でもなく、完全に自動でもありません。依然としてある程度のカプセル化が必要です。しかしその利点は、異なるツールに対して統一されたプロトコルを提供することです。これにより、リソースの発見と委任実行を組み合わせ、ツール提供者はこのプロトコルに従うだけで、簡単にDifyのシステムに統合できるようになります。 **12:12** いくつかケーススタディをご紹介します。これはDeep researchです。DeepResearchの論文発表後すぐに、日本のコミュニティユーザーがDifyで再現してくれました。情報の検索、反復、最適化、要約という一連の流れが、私たちのプラットフォーム上ではワークフローとして実現できます。 **13:03** 次はブラウザ操作のケースです。PlaywrightやBrowser useのようなツールを使えば、エージェントが実際のウェブサイトと対話し、情報を取得したりフォームを操作したりできます。これもシンプルなワークフローです。例えば、ウェブサイト上の表情報を取得し、整形してレポートを作成したり、特定のビジネス情報を収集するためにウェブサイトを高速でクロールしたりできます。 **13:47** 次は医療分野でよくある2つのケースです。1つは「Sorting Hat」(組分け帽子)です。これは私が名付けましたが、要はトリアージ(患者の振り分け)です。医療リソースが不足している地域で、症状に応じて適切な診療科を案内したり、自宅療養を勧めたりできます。 **14:28** これは病院でよく見られる利用方法です。次に、これはコミュニティユーザーが貢献してくれたSmart AIアシスタントです。医療分野には病院だけでなく、その背後にある技術メーカーも存在します。医療機器メーカーは、保守が必要な機器に関する膨大な情報を抱えています。RAGを導入すれば、例えば患者監視モニターの出荷時期や型番、製品説明書、使用マニュアルなどを、このエージェントを通じて簡単に検索できるようになります。 **15:08** これらの事例は一見小さく見えますが、実際に導入され、価値を生み出しているものです。 **15:16** 最後に、今後の展望です。まずMCPですが、これは2週間以内にリリース予定で、ワークフローをMCPサーバーとして直接公開できるようになります。つまり、ワークフローをMCPサーバーとして扱い、他の人から呼び出せるようになります。また、他のエージェントからこのワークフローを呼び出したり、Toolsセクションに既存のMCPサービスを追加したりすることも可能です。 **15:49** RAG 2.0は、先ほど紹介したRAG Pipelineです。これはワークフロー形式でデータ取り込みプロセス全体を編成するものです。PDFから画像をうまく抽出できないという問題も、OCRツールを組み込むことで、画像とテキスト両方を含むリッチなコンテンツを知識ベースに保存できるようになります。私たちはテキストだけでなく、リッチコンテンツをサポートしています。 **16:26** Human-in-the-Loop(HITL)も、多くのユーザーが待ち望んでいる機能です。これは次の2四半期でリリース予定で、承認フローなどを組み込めるようになります。最後のTriggerは、n8nのように、定時実行やWebhookによってワークフローを起動する機能です。これも、基盤の改修が完了次第、今後のバージョンで実装していきます。 **17:23** はい、以上です。ご清聴ありがとうございました。