Episodes

  • 株式会社ずんだもん技術室AI放送局 podcast 20241127
    Nov 26 2024
    関連リンク 7 examples of Gemini’s multimodal capabilities in action GoogleのシニアプロダクトマネージャーLogan Kilpatrickによるブログ記事では、Gemini 1.5 Pro(画像・動画理解に最適化されたモデル)を用いたマルチモーダル機能の7つの実例が紹介されています。Geminiは、画像・動画だけでなく、長文PDF(1000ページ以上)も理解し処理できます。 主な機能と例: 詳細な画像説明: 画像の内容を詳細に記述し、質問にも回答できます。プロンプトに応じて説明の長さ、トーン、形式を調整可能です。 長文PDFの理解: 1000ページ以上のPDFを理解し、表の転記、複雑なレイアウトの解釈、図表・スケッチ・手書き文字の認識、構造化された出力やコードの生成が可能です。例として、15四半期のAlphabetの収益報告書(152ページ)からGoogleの収益データを抽出し、表を作成し、matplotlibを用いたグラフを作成する例が示されています。 現実世界の文書の推論: レシート、ラベル、看板、メモ、ホワイトボードのスケッチなど、現実世界の文書から情報を抽出し、JSONオブジェクトとして返すことができます。 ウェブページデータの抽出: ウェブページのスクリーンショットからデータ(画像・動画を含む)を抽出し、JSONなどの構造化された形式で出力できます。ウェブデータAPIやブラウジングエージェントなどのアプリケーションに活用できます。Google Playの書籍ページから書籍名、著者、評価、価格をJSON形式で抽出する例が示されています。 物体検出: 画像内の物体を検出し、バウンディングボックス座標を生成します。ユーザー定義の基準に基づいて物体を検索・推論する機能も備えています。 動画の要約と転写: 最大90分の動画を処理し、要約や転写を作成、日常シーンからの構造化データの抽出、質問への回答、重要な箇所の特定などが可能です。技術講義の動画を高校生向けに要約する例が紹介されています。 動画からの情報抽出: 動画から情報を抽出し、リスト、表、JSONオブジェクトなどの構造化された形式で出力できます。小売、交通、ホームセキュリティなどの分野でのエンティティ検出、スクリーン録画からの非構造化データ抽出などに役立ちます。 制約: 動画処理においては、現状1FPSのサンプリングのため、一部情報が欠落する可能性があります。より高いFPSでのサンプリングは今後の開発予定です。 Gemini APIを活用した開発には、開発者ガイドと開発者フォーラムが役立ちます。 様々なユースケースに対応できる強力なマルチモーダル機能を備えていることがわかります。 引用元: https://developers.googleblog.com/en/7-examples-of-geminis-multimodal-capabilities-in-action/ Now Hear This: World’s Most Flexible Sound Machine Debuts NVIDIAの研究チームが開発した画期的なAIサウンド生成モデル「Fugatto」は、テキストプロンプトだけで音声を生成・変換できる、世界最高レベルの柔軟性を誇るツールです。既存のAIモデルが特定の音声生成や編集に特化しているのに対し、Fugattoは音楽、音声、効果音などを自由に組み合わせ、テキストと音声ファイルの両方から指示を受け付けることができます。 例えば、「悲しい雰囲気のフランス語で話すテキスト」といった複雑な指示にも対応し、アクセントの強さや感情の度合いを細かく調整できます。既存の楽曲に楽器を追加・削除したり、声のアクセントや感情を変えることなども可能です。さらに、既存データにはない全く新しいサウンドも生成できます。例えば、トランペットが吠えたり、サックスが鳴き声をあげたりといった、想像を超える音も作成可能です。 Fugattoは、音楽制作、広告制作、言語学習ツール、ゲーム開発など、幅広い分野で活用できます。音楽プロデューサーは楽曲のプロトタイプ作成や編集に、広告代理店は多言語・多様な感情表現のボイスオーバー作成に活用できます。言語学習ツールでは、好きな声で学習コンテンツをパーソナライズすることも可能です。ゲーム開発者は、ゲーム内の状況に合わせて効果音をリアルタイムで生成・変更できます。 Fugattoは、音声モデリング、音声符号化、音声理解に関するNVIDIAの以前の研究成果を基盤としています。25億個のパラメータを...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241126
    Nov 25 2024
    関連リンク ニアリアルタイムのデータ基盤を構築して得られたものと課題 本資料は、タイミー社がニアリアルタイムデータ基盤を構築した経験とその課題について報告しています。以前のデータ基盤はバッチ処理中心で、データの適時性と整合性に課題がありました。具体的には、数時間~1日の遅延と、データ更新による整合性の欠如が発生していました。 そこで、Google Cloud Datastreamを活用したニアリアルタイムデータ基盤を構築しました。embulkからDatastreamへの移行、dbtで生成するテーブルをviewに変更するなどのアーキテクチャ変更を行いました。その結果、データの適時性は数時間~1日から15分程度に、整合性のずれも数時間単位から最大4時間~1日に改善されました。 しかし、新たな課題も発生しました。Datastreamの不安定性が顕著になり、最大3時間以上の停止や、数分~1時間弱の頻繁な停止・復旧が発生するなど、運用上の課題が残っています。 これらの課題を踏まえ、社内ユースケースの整理を行いました。その結果、完全性が求められる業務の方が、適時性が求められる業務よりも多いことが判明しました。そのため、短期的な対応として完全性を担保できる基盤を構築し、適時性が必要なユースケースもサポートする方針となりました。長期的な対応としては、適時性データ基盤の連携方法を再検討していく予定です。 引用元: https://speakerdeck.com/chikushi/niariarutaimunodetaji-pan-wogou-zhu-sitede-raretamonotoke-ti 5指駆動「サイボーグ義手」が実現した理由。“実用化だけ”を見据えた研究者たち【フォーカス】 レバテックラボ(レバテックLAB) 長年、実用化が困難だった5指駆動の筋電義手が、電気通信大学の研究者らによって「BITハンド」として実現しました。本記事は、開発を主導した東京理科大学助教の山野井佑介氏へのインタビューに基づき、その成功要因を解説しています。 従来の筋電義手研究は、人体の動きを完璧に再現することに注力していましたが、そのため義手が大型化・重量化し、実用性に欠けていました。山野井氏らの研究チームは、このアプローチを見直し、「日常生活に必要な把持動作の85%をカバーする」ことを目標に、軽量化と簡素化を優先しました。 具体的には、親指と他の指の独立した動作により、「握力把持」「精密把持」「側面把持」の3つの基本動作を実現。ペットボトルの開閉やスマートフォンの操作など、日常生活に必要な動作を可能にしました。重量は約600gに抑えられ、装着者の負担を軽減しています。 技術面では、機械学習を用いた信号処理技術が鍵となりました。微弱な筋電位信号から、着用者の意図を正確に読み取ることで、5本の指を独立して制御しています。特に、先天的な上肢欠損者にも対応できるよう、個々の筋電位パターンをAIが学習する仕組みを構築しました。 さらに、Bluetooth通信によるデータ送受信や、スマートフォンからの制御ソフトウェア開発など、実験効率の向上にも取り組んでいます。これらの工夫により、開発期間の短縮とコスト削減を実現しました。 しかし、実用化されたにも関わらず、国内での普及率は依然として低い状況です。高価で重いという従来のイメージが根強く残っていること、そしてその利便性が広く知られていないことが課題となっています。山野井氏らは、認知度向上とさらなる機能改善を目指し、研究開発を継続していくとしています。 引用元: https://levtech.jp/media/article/focus/detail_565/ 【JavaScript × Terraform】次世代のモダン AltJS「JS.tf」の紹介 JS.tfは、HCL(Hashicorp Configuration Language)を用いてJavaScriptプログラムを記述する、Terraformのプロバイダーです。terraform applyを実行することで、HCLで記述されたコードがJavaScriptにトランスパイルされ、Node.jsなどのJavaScriptランタイムで実行できます。 JS.tfの基本的な使い方は、required_providersブロックにkoki-develop/jsを追加し、terraform initでインストールすることから始まります。 プログラムの記述にはjs_programデータソースが中心となります。変数・定数の定義にはjs_var, js_const, js_let、演算にはjs_operation、関数定義にはjs_function、関数呼び出しにはjs_function_call...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241125
    Nov 24 2024
    関連リンク Gemini AI asst suggesting answers to my emails - Hell NO! Gmailユーザーが、メール作成時にGemini AIによる回答候補が表示される機能に不満を訴えているGoogleヘルプフォーラムの投稿です。ユーザーは、この機能が邪魔で自分の考えでメールを書きたいと考えており、機能の無効化方法を質問しています。AIによる自動化が思考停止を招くという懸念も表明されています。 現状では、この機能を無効化する具体的な方法は提示されていません。 投稿は比較的新しいものですが、Googleからの回答はまだありません。 この投稿は、AIアシスタントの過剰な介入に対するユーザーの抵抗感を示す事例として参考になります。 日本のエンジニアにとって、この事例は、ユーザーエクスペリエンス(UX)設計や、AI技術導入におけるユーザーの感情への配慮の重要性を再認識させるものです。 AIによる自動化の利便性と、ユーザーの自主性や創造性を尊重することのバランスが、今後のシステム開発において課題となるでしょう。 引用元: https://support.google.com/mail/thread/309622575/gemini-ai-asst-suggesting-answers-to-my-emails-hell-no%3Fhl%3Den [アップデート] AWS Step Functions で変数が使えるようになりました DevelopersIO AWS Step Functionsに、変数の使用とJSONataのサポートが追加されました。これにより、ステートマシンにおけるデータの受け渡し処理が大幅に簡素化されます。 以前は、Step Functionsでステート間の値の受け渡しは、各ステップで結果を明示的に次のステップに渡す必要があり、複雑で非効率的な作業でした。しかし、今回のアップデートで変数を定義し、ステート間で値を容易に共有できるようになりました。例えば、あるステップで計算した結果を変数に格納し、後続のステップでその変数を参照することで、データの受け渡しを簡略化できます。 具体的には、Pass、Task、Map、Parallel、Choice、Wait ステートで変数が利用可能です。変数はJSON形式で指定し、マネジメントコンソールで変数タブから設定できます。一度の変数割り当ての最大サイズは256 KiB、ステートマシン全体で保存される変数の合計サイズは10 MiBに制限されているため、注意が必要です。 また、変数のスコープにも注意が必要です。ParallelやMapステート内で定義した変数は、その内部でのみ参照可能です。上位のステップで定義された変数は下位のステップから参照できますが、下位ステップで定義された変数は上位ステップからは参照できません。ParallelやMapステート内で定義した変数を他のステップで使用したい場合は、明示的に出力として渡す必要があります。 さらに、JSONataというクエリ言語がサポートされました。これにより、ステートマシンの設定がより柔軟で直感的になります。JSONPathも引き続き利用可能です。 今回のアップデートにより、Step Functionsのワークフロー設計が大幅に簡略化され、より効率的で分かりやすいステートマシンの構築が可能になります。変数のサイズとスコープに注意しながら、積極的に活用することで開発効率の向上に繋げましょう。 引用元: https://dev.classmethod.jp/articles/step-functions-variables/ ORMなんていらない?!生SQLクエリ開発を超絶楽にするVSCode拡張を作った [TS+Rust+WASM] この記事は、TypeScriptとRustで記述された、VSCode拡張機能「sqlsurge」の紹介です。sqlsurgeは、PrismaやSQLxといったORMを使用せず、生SQLクエリを記述する際に、SQLの構文補完やエラーチェックといったLSP(Language Server Protocol)機能を提供します。 主な機能は、TypeScriptとRustのコード内にある生SQLクエリを検出し、VSCodeのVirtual Document機能とRequest Forwardingを用いて、Go製のSQL Language Serverである「sqls」と連携することで、SQLクエリに対する補完機能を実現する点です。 TypeScriptではPrisma、RustではSQLxをサポートしており、Prismaを使用している場合はSQLのシンタックスハイライトも有効になります。 sqlsurgeは、TypeScript/RustのAST(抽象構文木)を解析して生SQLクエリを特定します。Rustの部分はWASM(WebAssembly)に変換され、VSCode上で動作します。開発にはwasm-packを使用しており、CIにはGitHub Actionsを用いてUbuntuとmacOS上でのテストを実施しています。 現状ではPrismaとSQLxのサポートが...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241122
    Nov 21 2024
    関連リンク
    • Introducing the Open Leaderboard for Japanese LLMs!

    LLM(大規模言語モデル)は英語での能力が向上していますが、他の言語での性能はまだ未知数です。そこで、日本語のLLMの性能を評価する「Open Japanese LLM Leaderboard」が発表されました。これは、LLM-jpプロジェクトとHugging Faceのパートナーシップにより開発されたもので、20以上のデータセットから構成され、日本語LLMのメカニズムを理解することを目的としています。

    日本語は、漢字、ひらがな、カタカナの3種類の文字を組み合わせた複雑な書き言葉体系を持ち、英語や中国語、オランダ語、ポルトガル語、フランス語、ドイツ語、アラビア語などからの外来語や、独特の絵文字や顔文字も存在します。さらに、日本語は単語間のスペースがなく、トークン化の難易度が高い言語です。

    Open Japanese LLM Leaderboardは、日本語LLMの評価に特化したllm-jp-evalライブラリを使用し、16のタスクでLLMを評価します。これらのタスクには、自然言語推論、機械翻訳、要約、質問応答などの古典的なものから、コード生成、数学的推論、人間試験などの現代的なものまで含まれます。データセットは、LLM-jpの評価チームが言語学者、専門家、人間アノテーターと協力して作成したものや、日本語に自動翻訳され、日本語の特徴に合わせて調整されたものなどがあります。

    このリーダーシップでは、Jamp、JEMHopQA、jcommonsenseqa、chABSA、mbpp-ja、mawps、JMMLU、XL-Sumなどのデータセットを使用しています。Jampは、NLIのための日本語の時間的推論ベンチマークであり、JEMHopQAは、内部推論を評価できる日本語の多段QAデータセットです。jcommonsenseqaは、常識的推論能力を評価する多肢選択式の質問回答データセットです。chABSAは、金融レポートの感情分析データセットで、2016年の日本の上場企業の財務報告書に基づいています。mbpp-jaは、Pythonの基本的な問題を日本語に翻訳したプログラミングデータセットです。mawpsは、数学的な問題を解く能力を評価するデータセットで、CoT推論を使用しています。JMMLUは、高校レベルのテストの知識を評価する4択の質問回答データセットです。XL-Sumは、BBCニュースの記事の日本語翻訳に基づく要約データセットです。

    このリーダーシップは、Hugging FaceのOpen LLM Leaderboardに触発され、HuggingFaceのInference endpoints、llm-jp-evalライブラリ、vLLMエンジン、mdxコンピューティングプラットフォームを使用してモデルを評価します。

    日本語LLMガイド「Awesome Japanese LLM」によると、MetaのLLamaアーキテクチャが多くの日本のAIラボで好まれているようです。しかし、MistralやQwenなどの他のアーキテクチャも、日本語LLMリーダーシップで高いスコアを獲得しています。オープンソースの日本語LLMは、クローズドソースのLLMとの性能差を縮めており、特にllm-jp-3-13b-instructはクローズドソースのモデルと同等の性能を示しています。

    今後の方向性として、llm-jp-evalツールの開発に合わせて、リーダーシップも進化していく予定です。例えば、JHumanEvalやMMLUなどの新しいデータセットの追加、CoTプロンプトを使用した評価、NLIタスクでのアウト・オブ・チョイス率の測定などが挙げられます。

    Open Japanese LLM Leaderboardは、LLM-jpコンソーシアムによって構築され、国立情報学研究所(NII)とmdxプログラムの支援を受けています。このプロジェクトには、東京大学の宮尾祐介教授、Han Namgi氏、Hugging Faceのクレモンティーヌ・フーリエ氏、林俊宏氏が参加しています。

    引用元: https://huggingface.co/blog/leaderboard-japanese

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241121
    Nov 20 2024
    関連リンク 工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた 食べログのメニューデータ入稿業務において、生成AIとOCRを組み合わせたツールを開発し、作業工数を6割削減することに成功しました。従来の手作業によるメニュー情報の入力は、時間と労力を要するものでした。本プロジェクトでは、まずOCR技術を用いてメニュー画像内の文字情報を座標情報と共に取得。その後、生成AIにOCR結果と画像データを渡し、料理名と価格を抽出し、入力フォームへ自動入力するシステムを構築しました。 生成AI単体では精度の問題がありましたが、OCRによる位置情報との連携により、生成AIの出力結果が画像上のどの部分に対応するかを特定できるようになり、精度の向上と確認作業の効率化を実現しました。ツールは、AIによる高速入力と、人による確認・修正作業を組み合わせた設計となっており、AIと人間の強みを活かす仕組みとなっています。 UIについても徹底的に作り込み、ハイライト機能、消し込み機能、入力支援機能などを搭載することで、確認・修正作業を大幅に効率化しました。 開発においては、常に最新技術の動向をウォッチし、GPT-4やClaude 3.5 Sonnetといった生成AIモデルの特性を踏まえた柔軟な方針転換が成功の鍵となりました。 特に、当初はOCRのみを利用する方針でしたが、GPT-4の登場を機に、画像データとOCR結果を組み合わせることで、精度と効率性が大幅に向上しました。また、完全自動化を目指さず、人による確認作業を残すことで、精度の高いデータ入力を実現しました。 本プロジェクトの成功要因は、生成AIだけでなくOCR技術など幅広い技術を組み合わせたこと、ユーザビリティを重視したUIの徹底的な作り込み、そして最新技術への対応と柔軟な方針転換にあります。 この経験から、生成AIの業務活用においては、フルスタックエンジニアのような幅広い技術を持つ人材が不可欠であることが示唆されました。 彼らは、生成AIの特性を理解した上で、様々な技術を駆使し、最適なソリューションを生み出すことができます。 引用元: https://tech-blog.tabelog.com/entry/ai-menu-ocr Agent Protocol: Interoperability for LLM agents LangChainは、様々なエージェントを連携させるマルチエージェントフレームワークLangGraphを発表しました。異なるフレームワークのエージェント間の相互運用性を高めるため、Agent Protocolという共通インターフェースをオープンソース化しました。これは、LLMエージェントを本番環境で運用するために必要な、フレームワークに依存しないAPIを標準化しようとする試みです。 Agent Protocolは、エージェント実行(Runs)、複数ターン実行の整理(Threads)、長期記憶の操作(Store)といった主要なAPIを定義しています。LangGraphだけでなく、AutoGen、OpenAI Assistant API、CrewAI、LlamaIndexなど、他のフレームワークや独自実装のエージェントもこのプロトコルを実装することで、相互運用が可能になります。 さらに、LangGraph Studioのローカル実行環境を提供することで、開発者の利便性を向上させました。以前はMac専用でDockerを使用していましたが、Pythonパッケージとしてインストール可能な、Docker不要のバージョンが提供されています。これは、langgraph-cli を使用してローカルで起動し、Agent Protocolを実装したサーバーとして機能します。これにより、あらゆるプラットフォームでLangGraph Studioを使用し、低レイテンシで効率的なデバッグが可能になります。 また、AutoGenなどの他のフレームワークのエージェントをLangGraphのサブエージェントとして統合する方法や、LangGraph Platformを使用してそれらをデプロイする方法も公開されました。LangGraph Platformを利用することで、水平スケーラブルなインフラストラクチャ、バースト処理のためのタスクキュー、短期記憶と長期記憶のための永続化レイヤーなどのメリットを活用できます。これにより、様々なフレームワークのエージェントを柔軟に組み合わせた、高度なマルチエージェントシステムの構築が可能になります。 本記事では、Agent Protocol の詳細な使用方法や、LangGraph Studio、AutoGenとの...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241120
    Nov 19 2024
    関連リンク Copilot を世界中のより多くのお客様に提供 – 生活でも仕事でも - News Center Japan マイクロソフトは、AIアシスタント「Copilot」の提供範囲を世界中に拡大しました。Copilotは、仕事と私生活の両方で利用でき、画像作成、メール対応、文章作成支援、会議内容の確認など、様々なタスクを支援します。 今回の発表では、個人向けと組織向けにCopilotの提供オプションが拡大されました。個人向けには、Copilot Proのサブスクリプションが提供され、上位モデルへの優先アクセス、Microsoft 365アプリでのAI機能強化、高度な画像生成・編集機能、Copilot GPT Builderへのアクセスなどが含まれます。Copilot Proは、iOS/Androidアプリでの1ヶ月無料トライアルも提供されます。また、無料のMicrosoft 365 WebアプリでもCopilotが利用可能になります(デスクトップアプリ利用にはMicrosoft 365 PersonalまたはFamilyサブスクリプションが必要)。Copilot GPT Builderを使うと、個々のニーズに合わせたCopilotを作成することもできます。 組織向けには、「Copilot for Microsoft 365」が、様々な規模と業種の企業に提供されます。Word、Excel、PowerPoint、Outlook、Teamsなど、主要なMicrosoft 365アプリと統合されており、ビジネスデータに基づいたカスタマイズも可能です。エンタープライズレベルのセキュリティ、プライバシー、コンプライアンスにも対応しています。既にFortune 100企業の40%がCopilot for Microsoft 365を早期導入プログラムを通じて利用しており、導入ペースは従来のMicrosoft 365スイートよりも速いとのことです。 つまり、今回のアップデートにより、個人ユーザーはより高度なAI機能を気軽に利用できるようになり、企業は業務効率化と生産性向上を図ることが期待できます。Copilotは、様々なデバイスで利用可能で、多言語にも対応しているため、世界中のユーザーにとってより身近な存在となるでしょう。 ただし、デスクトップアプリでのCopilot利用にはMicrosoft 365のサブスクリプションが必要な点に注意が必要です。また、機能の一部は言語やアプリによって制限がある可能性があります。詳細については、マイクロソフトの公式ウェブサイトを参照ください。 引用元: https://news.microsoft.com/ja-jp/2024/03/15/240315-bringing-copilot-to-more-customers-worldwide-across-life-and-work/ 『コードレビューでよくお願いする、コメントの追加のパターン7選』へのコメント この文章は、はてなブックマークに投稿された「コードレビューでよくお願いする、コメントの追加のパターン7選」という記事へのコメントと、その記事への反応をまとめたものです。 記事自体はZennに公開されており、Go言語のコードレビューにおいて、コメントを追加する重要性と具体的なパターン7選を解説しているようです(詳細は不明)。 はてなブックマークのコメント欄では、多くのエンジニアが自身の経験を共有しています。 主な意見としては、 コードだけでは理解できない部分には必ずコメントを追加するべきという意見が多数を占めています。レビューで質問が出た時点で、コードだけでは情報が不足していたと認識すべきとのことです。コメントはコードと同様に管理する必要があるという指摘もあります。コードの修正とコメントの更新がずれると、かえって混乱を招くためです。「コードを見ればわかる」という考えは危険であるという意見も出ています。これは認知バイアスの一種であり、コードの可読性を高め、誰でも理解できるよう努めるべきだとされています。コメントの追加をルール化するのは非推奨です。ルール化によって形式的なコメントが増え、本質的な理解を阻害する可能性があるためです。番号を付けて説明するコメントは、修正時に更新が忘れられがちであるという懸念も示されています。 これらのコメントは、新人エンジニアにとって、コードレビューにおけるコメントの重要性と、質の高いコメントを書くための注意点を知る上で非常に参考になります。 単にコードを動作させるだけでなく、他者にも理解しやすいコードを書くこと、そしてコメントを適切に活用することで、チーム開発における生産性向上に繋がることを示唆しています。 ...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241119
    Nov 18 2024
    関連リンク Microsoft Seeks to Sort & Simplify its Agentic AI Dev Story – Visual Studio Magazine マイクロソフトは、次世代AI分野で注目を集める「エイジェンティックAI」開発ツールの整理・統合を進めています。エイジェンティックAIとは、単純な質問応答型チャットボットを超え、ユーザーに代わって行動する、より高度で自律的なAIエージェント(パーソナルアシスタント、カスタマーサービス担当者など)を指します。 現在、マイクロソフトは2つの主要なフレームワークを保有しています。一つは研究目的のオープンソースプロジェクトであるAutoGenで、複数エージェントのランタイム技術(autogen-core)を提供します。もう一つは、本番環境向けに設計されたオープンソースの軽量SDKであるSemantic Kernelです。 マイクロソフトは、これらのフレームワークを統合し、開発者体験を向上させる計画です。具体的には、2025年初頭までにAutoGenのマルチエージェントランタイム技術をSemantic Kernelに統合します。これにより、AutoGenを利用している開発者は、企業レベルのサポートが受けられるSemantic Kernelへスムーズに移行できます。 統合後の開発者向け選択肢は以下の通りです。 複雑なエイジェンティックAIを開発する場合: AutoGenを使い続けます。コミュニティサポートのみとなりますが、Semantic Kernelにはない高度な機能を利用できます。企業レベルのサポートが必要な場合: Semantic Kernelを利用します。本番環境向けに設計されており、企業レベルのサポートが提供されます。 Semantic Kernelは、大規模言語モデル(LLM)やデータストアをアプリケーションに統合し、大規模な生成AIソリューションの構築を可能にします。C#、Python、Javaに対応しています。既にエージェントフレームワーク(プレビュー版)も提供しており、単一エージェントと複数エージェントの両方のソリューションを構築できます。 AutoGenは、イベント駆動型で分散型のエイジェンティックアプリケーションの作成とオーケストレーションを簡素化します。複数のLLM、SLM、ツール、高度なマルチエージェント設計パターンをサポートし、複数のエージェントが連携して複雑なタスクを自律的または人間の監視下で実行するシナリオに適しています。C#とPythonに対応しています。 マイクロソフトは、この統合により、開発者はエイジェンティックAIアプリケーション開発において、よりシンプルで効率的な開発環境を得られると期待しています。 新人エンジニアは、プロジェクトの規模や必要とするサポートレベルに応じて、AutoGenとSemantic Kernelのどちらを選択すべきか、注意深く検討する必要があります。 引用元: https://visualstudiomagazine.com/Articles/2024/11/18/Microsoft-Seeks-to-Sort-and-Simplify-its-Agentic-AI-Dev-Story.aspx OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAI『MPLUG-DOCOWL2』登場! 本記事は、ulusage社のマルチモーダルAI「MPLUG-DOCOWL2」を紹介しています。これは、高解像度かつマルチページのドキュメントを、従来のOCR技術を用いることなく、効率的かつ高精度に解析する革新的な技術です。 従来のOCRベースのドキュメント解析は、処理速度が遅く、高解像度画像や多ページ文書への対応が困難、計算コストが高いという課題がありました。MPLUG-DOCOWL2はこれらの問題を解決するために開発されました。 MPLUG-DOCOWL2は、以下の3つの主要コンポーネントから構成されています。 高解像度ドキュメントコンプレッサー: クロスアテンションを用いて、高解像度画像を効率的に圧縮し、重要な情報を少ないトークン数(1ページあたり324トークン)で保持します。従来の数千トークンに比べ大幅な計算コスト削減を実現します。 形状適応型クロッピングモジュール: ドキュメントのレイアウトを解析し、重要な部分だけを抽出することで、無駄な情報を排除し、文書構造を維持したまま処理します。複雑なレイアウトの文書にも柔軟に対応可能です。 マルチイメージモデリング: 複数ページにわたる解析結果を統合し、文書全体の文脈を理解します。大規模言語モデル(LLM)を活用することで、質問応答や要約などの高度なタスクにも...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241118
    Nov 17 2024
    関連リンク This massive upgrade to ChatGPT is coming in January — and its not GPT-5 OpenAIは2025年1月に、ChatGPTの大規模アップグレード版「Operator」をリリース予定です。これはGPT-5ではなく、AIエージェントと呼ばれる新しい技術です。 従来のプログラムとは異なり、AIエージェントは事前に決められた指示に従うのではなく、自ら環境を認識し、情報を処理して意思決定を行い、タスクを実行したり問題を解決したりします。例えば、複雑なコードの生成や旅行の手配などが可能です。 Operatorは、ユーザーに代わって行動を起こせる点が大きな特徴です。例えば、航空券の予約なども自動で行ってくれるようになる可能性があります。当初は開発者向けAPIを通してリサーチプレビューとして公開される予定です。 OpenAI以外にも、Anthropic(Computer Control)、Microsoft、Google(Jarvis)なども同様のAIエージェントの開発を進めており、AIエージェントは今後のAI開発における大きなブレークスルーになると期待されています。 OpenAIがAIエージェント開発に力を入れている背景には、最先端モデルの性能向上における限界と、急増するエネルギー・水資源の消費問題があります。単純な性能向上ではなく、実用性の向上に焦点を当てた開発戦略と言えるでしょう。 Operatorは、Webブラウザを通じて行動を起こせる汎用アシスタントとして、最も実用化に近い段階にあるとのことです。 ’ 引用元: http://businessghana.com/site/news/technology/317968/This-massive-upgrade-to-ChatGPT-is-coming-in-January-%25C3%25A2%25C2%2580%25C2%2594-and-it%25C3%25A2%25C2%2580%25C2%2599s-not-GPT-5 voyage-multimodal-3: all-in-one embedding model for interleaved text, images, and screenshots – Voyage AI VoyageAIは、テキスト、画像、スクリーンショットを同時に処理できる多様なエンベディングモデル「voyage-multimodal-3」を発表しました。これは、テキストと画像の両方を含むドキュメントに対するRAG(Retrieval Augmented Generation)や意味検索を向上させる画期的なモデルです。 既存の多様なエンベディングモデルは、テキストと画像を別々に処理するため、テキストと画像が混在するドキュメント(PDF、スライド、表、図など)のベクトル化が困難でした。しかし、voyage-multimodal-3は、テキストと画像を同時に処理するアーキテクチャを採用することで、複雑なレイアウトのドキュメントでも、テキストと画像の文脈を維持したままベクトル化できます。スクリーンショットからの重要な視覚的特徴(フォントサイズ、テキストの位置、空白など)も捉えるため、複雑な文書解析処理が不要になります。 ベンチマークテストでは、3種類の多様な検索タスク(表/図の検索、ドキュメントスクリーンショットの検索、テキストから写真への検索)において、既存の最先端モデル(OpenAI CLIP large、Cohere multimodal v3など)を平均19.63%上回る精度を達成しました。特に表/図の検索においては、最大40%以上の精度向上を実現しています。これは、CLIP系モデルに見られる「モダリティギャップ」問題(テキストクエリに対して、関連画像よりも関連テキストの方が高い類似度を示す現象)を克服していることを示しています。 テキストのみのデータセットに対しても、既存モデルよりも高い精度を示しました。 voyage-multimodal-3は、スクリーンショットさえあれば、テキストと非構造化データ(PDF、スライド、ウェブページなど)を含むナレッジベースを容易にベクトル化できます。従来必要だった複雑な文書解析パイプラインは不要になります。 本モデルは、現代的なビジョン・ランゲージ・トランスフォーマーに似たアーキテクチャを採用しており、テキストと画像を単一のトランスフォーマーエンコーダ内で直接ベクトル化します。これにより、テキストと画像の情報を統合的な表現として捉えることが可能になります。 現在、最初の2億トークンは無料で利用可能です。サンプルノートブックやドキュメントも公開されていますので、ぜひお試しください。 ’ 引用元: https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/ Gemini AI tells the user to die — the answer appeared out of nowhere when the user asked Googles Gemini for help with his homework Toms Hardware Googleの新...
    Show More Show Less
    Less than 1 minute