株式会社ずんだもん技術室AI放送局

By: 株式会社ずんだもん技術室AI放送局
  • Summary

  • AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。
    Show More Show Less
activate_Holiday_promo_in_buybox_DT_T2
Episodes
  • 株式会社ずんだもん技術室AI放送局 podcast 20241113
    Nov 12 2024
    関連リンク Gemini is now accessible from the OpenAI Library Googleは、最新のGeminiモデルへのアクセスをOpenAIライブラリとREST API経由で提供開始しました。これにより、Geminiの利用が容易になります。 現時点では、Chat Completions APIとEmbeddings APIがサポートされ、今後数週間から数ヶ月で他のAPIとの互換性も追加される予定です。 Gemini APIの詳細は、Gemini APIドキュメントを参照してください。OpenAIライブラリを使用していない場合は、Gemini APIを直接呼び出すことを推奨しています。 ドキュメントには、Python、TypeScript/JavaScript、RESTを用いたGemini APIの使用方法のコード例が掲載されています。これらの例は、gemini-1.5-flashモデルを使用してチャットボットとやり取りする方法を示しています。 APIパラメータの詳細については、APIリファレンスを参照してください。 Vertex AI Enterpriseのお客様は、OpenAIとの互換性もサポートされています。 簡単に言うと、Googleの強力なAIモデルGeminiが、OpenAIライブラリを通じてより簡単に利用できるようになったということです。 新人エンジニアの方でも、提供されたコード例を参考に、比較的容易にGeminiを自身の開発に活用できるようになっています。 引用元: https://developers.googleblog.com/en/gemini-is-now-accessible-from-the-openai-library/ Top-Tier Open Code Large Language Models OpenCoderは、英語と中国語に対応した、15億パラメータと80億パラメータのベースモデルとチャットモデルを含む、オープンソースで再現可能なコードLLM(大規模言語モデル)ファミリーです。2.5兆トークン(コードデータ90%、コード関連ウェブデータ10%)を用いてゼロから学習されており、最先端のコードLLMと同等の性能を実現しています。 本プロジェクトの大きな特徴は、その透明性と再現性の高さです。モデルの重みと推論コードだけでなく、再現可能なトレーニングデータ、データ処理パイプライン全体、厳格な実験結果、詳細なトレーニングプロトコルも公開されています。これにより、研究者はOpenCoderを基盤として、コードAIの研究開発を容易に進めることができます。 具体的には、以下のリソースが公開されています。 OpenCoder: 複数のコードLLM評価ベンチマークで最先端の性能を達成した、完全にオープンソースのコードLLM。透明性のあるデータ処理パイプラインと再現可能なデータセットを基盤として構築されています。RefineCode: 607種類のプログラミング言語にわたる、9600億トークンからなる高品質で再現可能なコード事前学習コーパス。Instructive Ablation Studies: コードLLMの様々な設計上の選択肢やトレーニング戦略に関する有益な知見を提供することを目的とした、複数の意味のあるアブレーション実験の結果。公開リソース: 最終的なモデルの重み、完全なデータ処理パイプライン、効率的な評価パイプライン、再現可能な事前学習データセット、大規模SFT(Supervised Fine-Tuning)データセット、中間チェックポイントなど。 簡単に言うと、OpenCoderは、高い性能と再現性を両立させた、オープンソースのコード生成AIです。 コードの生成や理解に関する研究開発に役立つだけでなく、その透明性から、LLMの開発手法や学習データの影響などを深く理解するための貴重なリソースとしても活用できます。 新人エンジニアの方にとっても、学習や研究に役立つ優れたツールと言えるでしょう。 公開されているデータやコードを参考に、LLMの仕組みや開発プロセスを学ぶことができます。 引用元: https://opencoder-llm.github.io/ Introducing Prompt Canvas: a Novel UX for Developing Prompts LangChainは、プロンプトエンジニアリングを容易にする新しいツール「Prompt Canvas」を発表しました。これは、AIアプリケーション開発において重要なプロンプト作成を効率化し、最適化するための革新的なユーザーエクスペリエンスを提供するツールです。 従来のプロンプト作成は手作業で行われ、ベストプラクティスに従うための調整に時間がかかりました。Prompt Canvasは、LLM(大規模言語モデル)エージェントと協調的に作業することで、この課題を解決します。 インタラクティブなインターフェースにより、LLMエージェントからのフィードバックを受...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241112
    Nov 11 2024
    関連リンク Composio’s SWE agent advances open-source on SweBench with a 48.6% score using LangGraph and LangSmith Composio社は、AIエージェント向けのAIネイティブコーディングツールキットを搭載したオープンソースのヘッドレスIDEであるSWE-Kitをリリースしました。SWE-Kitは、コードインテリジェンスのためのLanguage Server Protocol (LSP)と安全なコード実行のための開発コンテナを提供します。さらに、CodeAnalysis、シェルツール、ファイル管理、Gitツールなどの包括的なコーディングツールも備えています。 SWE-Kitの効率性を示すために、LangGraphを使用して完全なソフトウェアエンジニアリング(SWE)エージェントを構築し、SWE Benchでテストを行いました。SWE Benchは、実際のソフトウェアエンジニアリングタスクにおけるコーディングエージェントの有効性を評価するベンチマークで、Django、SymPy、Flask、Scikit-learnなどの一般的なPythonライブラリから2294個のGitHub issueを使用しています。 検証済みのトラック(ソフトウェアエンジニアによってレビューされた500個の問題のサブセット)において、エージェントは243個の問題を解決し、48.60%の精度を達成しました。これは全体で4位、オープンソースカテゴリーでは2位という結果です。 このSWEエージェントは、LangGraphを用いた状態機械として構築されています。LangGraphを使用することで、エージェントの状態をグラフで表現し、効率的で透明性のある状態管理を実現しています。従来のルーターやオーケストレーターエージェントに比べて、隠れた状態を効果的に制御・管理できます。 また、エージェントの非決定論的な性質を考慮し、LangSmithを用いてエージェントのアクションを詳細に監視しています。LangSmithはLangGraphとの高い互換性を持ち、各ステップでのエージェントのアクションを記録することで、ツールの改善に役立てています。 エージェントは、タスクを専門的に分担する3つの専門エージェント(ソフトウェアエンジニアエージェント、CodeAnalyzerエージェント、エディターエージェント)で構成されています。それぞれ、タスクの委任とワークフローの開始・終了、コードベースの分析、ファイルの編集をそれぞれ担当することで、パフォーマンスを向上させています。 ワークフローは、ソフトウェアエンジニア、CodeAnalyzer、エディターの3つのノードと、それぞれのエージェントが使用するツールノードで構成されています。各エージェントは、現在の状態とメッセージ履歴に基づいて、利用可能なツールとタスクを決定します。状態遷移は、メッセージ内の特定のマーカー(”ANALYZE CODE”、”EDIT FILE”、”PATCH COMPLETED”など)によって制御され、ワークフローを効率的かつ予測可能に保ちます。 エージェントの状態管理には、メッセージ履歴、送信者ID、訪問回数を保持するAgentStateオブジェクトを使用しています。これにより、明確なエージェント境界と遷移を維持しながら、隠れた状態の問題を回避しています。 SWE-Kitは、開発者が独自のAIエージェントを簡単に構築できるように設計されており、様々なツール、フレームワーク、LLMを組み合わせて、ワークフローに合わせたカスタムエージェントを作成できます。 将来的には、ソフトウェアエンジニアリング以外にも、CRM、HRM、管理など、様々な現実世界のアプリケーションへの適用を目指しています。 引用元: https://blog.langchain.dev/composio-swekit/ [GPT-4o] 冷蔵庫内の写真から「おすすめレシピ」を受け取ってみました。 DevelopersIO この記事は、クラスメソッドのエンジニアが、冷蔵庫内の写真からGPT-4oを用いてレシピを生成する実験を報告したものです。 以前、マルチモーダルなLLMが存在しなかった1年前にも同様の実験を行っており、その時のブログ記事へのリンクも掲載されています。 今回の実験では、冷蔵庫の中身を撮影した写真をGPT-4oに送り、2段階のプロセスでレシピを生成しています。 まず、prompt_food_enumeration.txtというプロンプトファイルを用いて、写真から食材をリスト化します。このプロンプトは、写真に写っている食品を箇条書きでリストアップするようGPT-4oに指示しており、模型と実物の区別...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241111
    Nov 10 2024
    関連リンク Everything Ive learned so far about running local LLMs この記事は、ローカル環境でLarge Language Model (LLM) を動かす方法について、著者の経験に基づいた実践的な情報をまとめたものです。著者はLLMの専門家ではなく、情報が急速に変化する分野であるため、この記事の内容も将来は古くなる可能性が高いことを前提にしています。 LLM実行のための要件: LLMを実行するには、ソフトウェアとモデルの両方が必要です。ソフトウェアとしては、llama.cpp が推奨されています。これはC++で記述されており、Python等の依存関係がないため、Windows環境でも容易に利用できます。CPU推論はGPU推論に比べて速度は遅いものの、8GB未満のVRAMしかないGPU環境では現実的な選択肢となります。GPU推論を行う場合は、8GB以上のVRAMが必要になります。llama-serverコマンドでHTTPサーバーを起動し、Web UIやAPI経由でLLMを利用できます。 モデルの選択: モデルはHugging Faceから入手できます。llama.cppと互換性のあるGGUF形式のモデルを選択する必要があります。モデルのサイズは数GBから数百GBまで様々で、パラメータ数が多いほど性能は向上しますが、必要なメモリも増加します。著者は、Mistral-Nemo-2407 (12B)、Qwen2.5-14B、Gemma-2-2Bなどを好んで使用しており、それぞれのモデルの特性(得意なタスク、速度など)についても記述しています。量子化されたモデル(例えばQ4_K_M)を使用することで、必要なメモリを削減できます。 ユーザーインターフェース: 著者は、llama.cppの組み込みUIに満足せず、独自のCLIツールIllumeを開発しています。これは、標準入力からAPIクエリを生成し、応答を標準出力にストリーミングするツールで、テキストエディタと連携して使用することを想定しています。Illumeは様々なLLMソフトウェアのAPIに対応していますが、API間の非互換性があるため、柔軟な設定が求められます。 Fill-in-the-Middle (FIM): FIMは、既存のコードにコードを挿入する手法です。llama.cppでは/infillエンドポイントが提供されていますが、対応していないモデルもあります。著者は、IllumeでFIMに対応する独自のテンプレートを作成することで、様々なモデルでFIMを利用できるようにしています。しかし、LLMはFIMにおいても生成を停止するタイミングを適切に判断できないことがあり、注意が必要です。 LLMの用途: LLMは万能ではなく、正確性の検証が容易でないタスクには適していません。また、コンテキストの長さにも制限があり、大規模なコードの生成には不向きです。LLMの得意な用途としては、校正、短編小説の創作、言語翻訳などが挙げられています。コード生成については、現状ではまだ実用レベルには達していないと結論付けています。 本要約は、原文の技術的な詳細や具体的な使用方法については省略し、日本の新人エンジニアが理解しやすいように、全体像と重要な制約事項に焦点を当てて記述しています。 引用元: https://nullprogram.com/blog/2024/11/10/ Next.js知識ゼロから生成AI頼みでWebアプリを作って思ったこと この記事は、Next.jsの知識が全くない筆者が、生成AI(主にClaude、必要に応じてChatGPTも使用)を活用して、2~3週間でNext.jsアプリを5つ開発した経験を記したものです。 新人エンジニアの方にも理解しやすいよう、要点に絞って説明します。 開発の経緯: 筆者は、Shaberi3ベンチマーク結果の可視化アプリ作成をきっかけにNext.js開発を始めました。Claudeが生成した美しいデザインのコードを参考に、ローカル環境(Ubuntu 24.04.1 LTS)で開発を始めました。 初期段階では、csvファイルの読み込みに苦労しましたが、Claudeからの丁寧な指示とChatGPTの助けを借りて、ローカル環境での実行に成功しました。 開発中は、エラー発生時に生成AIにエラーメッセージとソースコードを提示して解決策を求め、機能拡張も生成AIとの対話を通して進めました。 Claudeは期待以上の機能を提供することもありました。 完成したアプリはVercelで簡単にデプロイされ、誰でもアクセスできるようになりました。 その後、自分用アプリから発展して、より需要の高い株価・資産運用シミュレータも開発しました。 この過程で、他者からのフィードバックが...
    Show More Show Less
    Less than 1 minute

What listeners say about 株式会社ずんだもん技術室AI放送局

Average customer ratings

Reviews - Please select the tabs below to change the source of reviews.