• AI Database Newsletter
  • Posts
  • 【今のAIトレンドに追いつける】世界的VC「a16z」のレポート『AI Canon』の日本語訳+解説

【今のAIトレンドに追いつける】世界的VC「a16z」のレポート『AI Canon』の日本語訳+解説

本日は世界最強のVCとも言われる「a16z」が出す特定の業界の必見記事まとめCannonのAIに特化した「AI Cannon」についての解説記事になります

2023年5月25日に公開された最新のまとめです。

 最新トレンドは抑えており、全ての論文や記事を見なくとも、見出しを一通り見るだけでも勉強になります。

目次はこちらです。

①入門編
②基礎学習
③専門的な技術
④LLM構築+実践的ガイド
⑤市場分析
⑥特筆すべき研究成果

元の記事はこちら

また、各項目のタイトルに記事のリンクが埋め込まれています。
(下線を引いている見出しです。)

目次

  1. 1.入門編

  2. ソフトウェア2.0:

  3. GPTの現状:

  4. ChatGPTの仕組み

  5. トランスフォーマー

  6. Stable Diffusionの仕組み:

  7. 2. 基礎学習

  8. ディープラーニングの概要

  9. コーダーのための実践的なディープラーニング

  10. Word2vecの説明

すべて表示

1.入門編

Andrej Karpathyは、新しいAIの波が本当に重要である理由を(2017年に!)明確に説明した最初の一人です。彼の主張は、AIはコンピュータをプログラムするための新しく強力な方法であるというものです。LLMが急速に改善される中、この論文は先見の明があることが証明され、AI市場がどのように進展する可能性があるのか、良いメンタルモデルを与えています。


同じくKarpathyによる、ChatGPT/GPTモデル全般の仕組みや使い方、研究開発の方向性について、とても親しみやすい説明です。

コンピュータ科学者であり起業家でもあるStephen Wolframが、現代のAIモデルがどのように機能するかについて、第一原理から長いながらも非常に読みやすい説明をしています。初期のニューラルネットから今日のLLMやChatGPTに至るまで、時系列で説明されています。

Dale Markowitzによるこの投稿は、"LLMとは何か、どのように機能するのか?"という質問に対する、より短く、より直接的な回答です。このトピックに入りやすく、技術に対する直感を養うには最適な方法です。GPT-3について書かれたものですが、新しいモデルにもまだ適用できます。

これは、前回の投稿のコンピュータビジョンのアナログ版です。Chris McCormickは、Stable Diffusionがどのように機能するのか、また一般的なテキストから画像へのモデルに関する直感を養うために、素人向けの説明をしています。さらに やさしい 紹介としては 、 r/StableDiffusionのこの コミックをご覧ください。

2. 基礎学習

ニューラルネットワーク、バックプロ、エンベッディング

ディープラーニングの基礎からAIの専門家による大学レベルの講座まで、機械学習やAIの基本的な考え方を理解するためのリソースです。

Nvidiaが提供するこの4部構成のシリーズは、2015年に実践されたディープラーニングの基本を解説しており、AIについて学び始めたばかりの方にとって良い資料となります。

AIの基礎を実践的な例とコードで解説する総合無料講座。

LLM(およびすべての言語モデル)の構成要素であるエンベッドとトークンを簡単に紹介します。

ありますね:バックプロパゲーションの詳細を理解したい場合は、より詳細な記事を参照してください。 さらに詳しく知りたい 方は、スタンフォードのCS231nの講義を Youtubeで見てみてください。

この記事は難しいので、以下の日本語の記事がお勧めです。
要は間違った出力を重み付けして正しい回答結果に直していく過程を指します。

このラインより上のエリアが無料で表示されます。

https://newtechnologylifestyle.net/%E4%BB%8A%E3%81%95%E3%82%89%E8%81%9E%E3%81%91%E3%81%AA%E3%81%84%E3%83%90%E3%83%83%E3%82%AF%E3%83%97%E3%83%AD%E3%83%91%E3%82%B2%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%A8%E3%81%AF/

無料で学べる講座

  • Stanford CS229: Andrew Ngによる機械学習入門、機械学習の基礎をカバー

  • Stanford CS224N: NLP with Deep Learning with Chris Manning、NLPの基礎から第一世代のLLMまでカバー

3.専門的な技術(Transformer+LLM)

LLMの仕組みを説明しようとする資料は、数え切れないほどあり、中にはより優れたものもあります。ここでは、幅広い読者・視聴者をターゲットにした、私たちのお気に入りのものをいくつか紹介します。

図解なので比較的わかりやすいです。

ジェイ・アランマーによるトランスフォーマーアーキテクチャーのより技術的な概要です。

日本語の記事だとこちらがかなりわかりやすいです。

トランスフォーマーをソースコードレベルで理解したい場合の詳細なポスト。PyTorchの知識が必要です

エンジニアのために、KarpathyがGPTモデルの構築方法をビデオで解説しています。

画像の生成AIモデルとして最も一般的な潜在拡散モデルの紹介。

Chip Huyenが、LLMをより予測しやすく、人に優しい方法で動作させることができるRLHFについて説明します。これは、ChatGPTのようなシステムで最も重要でありながら、最も理解されていない側面の1つです。

コンピュータサイエンティストでOpenAIの共同設立者であるJohn Shulmanは、RLHFを用いたLLMの現状、進歩、限界について、この素晴らしい講演でさらに深く説明しています。

コース紹介

  • Stanford CS25: Transformers United、トランスフォーマーのオンラインセミナーです。

  • スタンフォードCS324:Large Language Models with Percy Liang, Tatsu Hashimoto, and Chris Re, LLMの技術的、非技術的な側面を幅広くカバーします。

参考・解説文献

  • 予測学習、NIPS 2016:この初期の講演で、Yann LeCunは、大規模なAIモデルアーキテクチャの重要な要素として、教師なし学習について強く主張している。 19:20までスキップ すると、有名なケーキのアナロジーが出てきますが、これは今でも現代のAIにとって最高のメンタルモデルの1つです。

  • テスラでフルセルフドライビングを実現するAI:今回はテスラのデータ収集エンジンを取り上げた、もう一つの古典的なカルパシーの講演です。 8:35から始まる のは、長尾の問題(この場合は停止信号の検出)がなぜ難しいかを説明する、歴代の偉大なAIの暴言のひとつである。

  • スケーリング仮説:LLMの最も驚くべき側面の1つは、スケーリング(データや計算量を増やすこと)によって精度が向上し続けるということです。GPT-3はこのことを明確に示した最初のモデルで、Gwernの投稿はその背後にある直感を見事に説明しています。

  • Chinchillaの荒唐無稽な意味合い:この投稿は、重要なChinchilla論文(下記参照)の解説という名目ですが、LLMスケーリングにおける大きな疑問である「我々はデータを使い果たしたのか」という核心に迫っています。この投稿は、上記の投稿をベースに、スケーリング法則について新たな見解を示しています。

  • 大規模言語モデルの調査:開発スケジュール、サイズ、トレーニング戦略、トレーニングデータ、ハードウェアなど、現在のLLMの包括的な内訳を示します。

  • 人工的な一般知能の火種:GPT-4の初期実験:マイクロソフトリサーチによる、現在最も進んだLLMであるGPT-4の能力を人間の知能と比較した初期分析。

  • AI革命:Auto-GPTが自動化と創造性の新時代を解き放つまで:Auto-GPTとAIエージェント全般について紹介します。この技術は非常に初期のものですが、理解することが重要です。特定の複雑な問題や目標を解決するために、インターネットアクセスや自己生成されたサブタスクを使用します。

  • ワルイージ効果ワルイージ効果」(LLMの行動で「分身」が現れる理由)の説明という名目だが、LLMプロンプトの理論について深く掘り下げている点が興味深い。

4.LLMの構築+実践的ガイド

LLMを中核とした新しいアプリケーションスタックが出現しています。このトピックに関する正式な教育はまだ多くありませんが、私たちが見つけた最も有用なリソースをいくつか取り出してみました。

現代のLLMアプリスタックの最も初期の公開説明の1つです。ここに書かれているアドバイスの中には古いものもありますが、多くの意味で、新しいAIアプリの普及と実験のきっかけとなったものです。

アプリケーションの構築Chip Huyenは、LLMアプリケーションの構築における多くの重要な課題、その対処法、そしてどのような使用例が最も合理的であるかについて説明します。

LLMプロンプトを書く人(アプリ開発者も含む)にとって、これは最も包括的なガイドであり、人気のある一握りのモデルについて具体的な例を示しています。 より軽快で、より会話に近い 表現を求めるなら、Brexのプロンプトエンジニアリングガイドをお試しください。

プロンプトインジェクションは、LLMアプリに潜む潜在的に深刻なセキュリティ脆弱性で、まだ完璧な解決策はありません。Simon Willisonはこの投稿で、この問題の決定的な説明をしています。サイモンがAIについて書いたものは、ほぼすべて優れています。

開発者向けに、OpenAI APIを使用するためのガイドとコード例を集めた決定版です。新しいコード例で継続的に更新されています。

多くのLLMアプリは、ベクトル検索パラダイムをベースにしています。Pineconeのラーニングセンターは、ベンダーのブランドコンテンツであるにもかかわらず、このパターンで構築する方法について最も有用な指導を提供しています。

LangChainのドキュメント:LLMアプリのデフォルトオーケストレーションレイヤーとして、LangChainはスタックの他のすべての部分とつながっています。だから、彼らのドキュメントは、スタック全体と、その断片がどのように組み合わされているかについての本当のリファレンスなんだ。

コース紹介

LLMベンチマーク

  • チャットボットのアリーナ:UC Berkeleyのチームが主導する、人気LLMのElo式ランキングシステム。ユーザーもモデル同士を比較することで参加できる。

  • オープンLLMのリーダーボード:Hugging Faceによるランキングで、標準的なベンチマークとタスクのコレクションでオープンソースのLLMを比較します。

5. 市場分析

私たちは皆、ジェネレーティブAIが生み出すものに驚嘆していますが、 それが何を意味するのかについては、まだ多くの疑問が あります。どの製品や企業が生き残り、成功するのか?アーティストはどうなるのか?企業はどのように使うべきなのか?文字通り仕事や社会全体にどのような影響を与えるのか?ここでは、これらの疑問に答えるためのいくつかの試みを紹介します。

a16z思考

その他の視点

6. 画期的な研究成果

今日、私たちが目にする素晴らしいAI製品のほとんどは、大企業や一流大学の専門家によって行われた、決して素晴らしいとは言えない研究の結果です。しかし、最近、個人やオープンソースコミュニティが、自動エージェントや小型ハードウェアへのモデルの移植など、人気のあるプロジェクトを新たな方向へ導く素晴らしい仕事を目にするようになりました。

ここでは、生成AIを深く知りたい人のために、これらの論文やプロジェクトの多くを集めました。(研究論文やプロジェクトについては、より高度な説明がなされているブログ記事やウェブサイトへのリンクも掲載しています。また、基礎研究を長期的に追跡できるように、オリジナルの出版年を記載しています)。

大型言語モデル

新機種

モデルの改良(微調整、検索、注意など)

画像生成モデル

代理店

その他のデータモダリティ

コード生成

ビデオ世代

ヒューマンバイオロジー・メディカルデータ

オーディオジェネレーション

多次元画像生成

とかなりのボリュームでしたね。

記事を見ると専門用語や数式が並びますが、せめて専門用語の意味や各会社が提供する大規模言語モデルの名称だけでも理解、覚えておくとAI関連のニュースの理解も深まるかと思います。

特に深ぼって欲しい内容あればコメントいただければ解説するので待ってます!!

Reply

or to participate.