- AI Database Newsletter
- Posts
- 【今のAIトレンドに追いつける】世界的VC「a16z」のレポート『AI Canon』の日本語訳+解説
【今のAIトレンドに追いつける】世界的VC「a16z」のレポート『AI Canon』の日本語訳+解説
本日は世界最強のVCとも言われる「a16z」が出す特定の業界の必見記事まとめCannonのAIに特化した「AI Cannon」についての解説記事になります。
2023年5月25日に公開された最新のまとめです。
最新トレンドは抑えており、全ての論文や記事を見なくとも、見出しを一通り見るだけでも勉強になります。
目次はこちらです。
①入門編
②基礎学習
③専門的な技術
④LLM構築+実践的ガイド
⑤市場分析
⑥特筆すべき研究成果
元の記事はこちら
また、各項目のタイトルに記事のリンクが埋め込まれています。
(下線を引いている見出しです。)
目次
1.入門編
ソフトウェア2.0:
GPTの現状:
ChatGPTの仕組み
トランスフォーマー
Stable Diffusionの仕組み:
2. 基礎学習
ディープラーニングの概要
コーダーのための実践的なディープラーニング
Word2vecの説明
すべて表示
1.入門編
Andrej Karpathyは、新しいAIの波が本当に重要である理由を(2017年に!)明確に説明した最初の一人です。彼の主張は、AIはコンピュータをプログラムするための新しく強力な方法であるというものです。LLMが急速に改善される中、この論文は先見の明があることが証明され、AI市場がどのように進展する可能性があるのか、良いメンタルモデルを与えています。
同じくKarpathyによる、ChatGPT/GPTモデル全般の仕組みや使い方、研究開発の方向性について、とても親しみやすい説明です。
コンピュータ科学者であり起業家でもあるStephen Wolframが、現代のAIモデルがどのように機能するかについて、第一原理から長いながらも非常に読みやすい説明をしています。初期のニューラルネットから今日のLLMやChatGPTに至るまで、時系列で説明されています。
Dale Markowitzによるこの投稿は、"LLMとは何か、どのように機能するのか?"という質問に対する、より短く、より直接的な回答です。このトピックに入りやすく、技術に対する直感を養うには最適な方法です。GPT-3について書かれたものですが、新しいモデルにもまだ適用できます。
これは、前回の投稿のコンピュータビジョンのアナログ版です。Chris McCormickは、Stable Diffusionがどのように機能するのか、また一般的なテキストから画像へのモデルに関する直感を養うために、素人向けの説明をしています。さらに やさしい 紹介としては 、 r/StableDiffusionのこの コミックをご覧ください。
2. 基礎学習
ニューラルネットワーク、バックプロ、エンベッディング
ディープラーニングの基礎からAIの専門家による大学レベルの講座まで、機械学習やAIの基本的な考え方を理解するためのリソースです。
Nvidiaが提供するこの4部構成のシリーズは、2015年に実践されたディープラーニングの基本を解説しており、AIについて学び始めたばかりの方にとって良い資料となります。
AIの基礎を実践的な例とコードで解説する総合無料講座。
LLM(およびすべての言語モデル)の構成要素であるエンベッドとトークンを簡単に紹介します。
ありますね:バックプロパゲーションの詳細を理解したい場合は、より詳細な記事を参照してください。 さらに詳しく知りたい 方は、スタンフォードのCS231nの講義を Youtubeで見てみてください。
この記事は難しいので、以下の日本語の記事がお勧めです。
要は間違った出力を重み付けして正しい回答結果に直していく過程を指します。
このラインより上のエリアが無料で表示されます。
https://newtechnologylifestyle.net/%E4%BB%8A%E3%81%95%E3%82%89%E8%81%9E%E3%81%91%E3%81%AA%E3%81%84%E3%83%90%E3%83%83%E3%82%AF%E3%83%97%E3%83%AD%E3%83%91%E3%82%B2%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%A8%E3%81%AF/
無料で学べる講座
Stanford CS229: Andrew Ngによる機械学習入門、機械学習の基礎をカバー
Stanford CS224N: NLP with Deep Learning with Chris Manning、NLPの基礎から第一世代のLLMまでカバー
3.専門的な技術(Transformer+LLM)
LLMの仕組みを説明しようとする資料は、数え切れないほどあり、中にはより優れたものもあります。ここでは、幅広い読者・視聴者をターゲットにした、私たちのお気に入りのものをいくつか紹介します。
図解なので比較的わかりやすいです。
ジェイ・アランマーによるトランスフォーマーアーキテクチャーのより技術的な概要です。
日本語の記事だとこちらがかなりわかりやすいです。
トランスフォーマーをソースコードレベルで理解したい場合の詳細なポスト。PyTorchの知識が必要です
エンジニアのために、KarpathyがGPTモデルの構築方法をビデオで解説しています。
画像の生成AIモデルとして最も一般的な潜在拡散モデルの紹介。
Chip Huyenが、LLMをより予測しやすく、人に優しい方法で動作させることができるRLHFについて説明します。これは、ChatGPTのようなシステムで最も重要でありながら、最も理解されていない側面の1つです。
コンピュータサイエンティストでOpenAIの共同設立者であるJohn Shulmanは、RLHFを用いたLLMの現状、進歩、限界について、この素晴らしい講演でさらに深く説明しています。
コース紹介
Stanford CS25: Transformers United、トランスフォーマーのオンラインセミナーです。
スタンフォードCS324:Large Language Models with Percy Liang, Tatsu Hashimoto, and Chris Re, LLMの技術的、非技術的な側面を幅広くカバーします。
参考・解説文献
予測学習、NIPS 2016:この初期の講演で、Yann LeCunは、大規模なAIモデルアーキテクチャの重要な要素として、教師なし学習について強く主張している。 19:20までスキップ すると、有名なケーキのアナロジーが出てきますが、これは今でも現代のAIにとって最高のメンタルモデルの1つです。
テスラでフルセルフドライビングを実現するAI:今回はテスラのデータ収集エンジンを取り上げた、もう一つの古典的なカルパシーの講演です。 8:35から始まる のは、長尾の問題(この場合は停止信号の検出)がなぜ難しいかを説明する、歴代の偉大なAIの暴言のひとつである。
スケーリング仮説:LLMの最も驚くべき側面の1つは、スケーリング(データや計算量を増やすこと)によって精度が向上し続けるということです。GPT-3はこのことを明確に示した最初のモデルで、Gwernの投稿はその背後にある直感を見事に説明しています。
Chinchillaの荒唐無稽な意味合い:この投稿は、重要なChinchilla論文(下記参照)の解説という名目ですが、LLMスケーリングにおける大きな疑問である「我々はデータを使い果たしたのか」という核心に迫っています。この投稿は、上記の投稿をベースに、スケーリング法則について新たな見解を示しています。
大規模言語モデルの調査:開発スケジュール、サイズ、トレーニング戦略、トレーニングデータ、ハードウェアなど、現在のLLMの包括的な内訳を示します。
人工的な一般知能の火種:GPT-4の初期実験:マイクロソフトリサーチによる、現在最も進んだLLMであるGPT-4の能力を人間の知能と比較した初期分析。
AI革命:Auto-GPTが自動化と創造性の新時代を解き放つまで:Auto-GPTとAIエージェント全般について紹介します。この技術は非常に初期のものですが、理解することが重要です。特定の複雑な問題や目標を解決するために、インターネットアクセスや自己生成されたサブタスクを使用します。
ワルイージ効果ワルイージ効果」(LLMの行動で「分身」が現れる理由)の説明という名目だが、LLMプロンプトの理論について深く掘り下げている点が興味深い。
4.LLMの構築+実践的ガイド
LLMを中核とした新しいアプリケーションスタックが出現しています。このトピックに関する正式な教育はまだ多くありませんが、私たちが見つけた最も有用なリソースをいくつか取り出してみました。
現代のLLMアプリスタックの最も初期の公開説明の1つです。ここに書かれているアドバイスの中には古いものもありますが、多くの意味で、新しいAIアプリの普及と実験のきっかけとなったものです。
アプリケーションの構築Chip Huyenは、LLMアプリケーションの構築における多くの重要な課題、その対処法、そしてどのような使用例が最も合理的であるかについて説明します。
LLMプロンプトを書く人(アプリ開発者も含む)にとって、これは最も包括的なガイドであり、人気のある一握りのモデルについて具体的な例を示しています。 より軽快で、より会話に近い 表現を求めるなら、Brexのプロンプトエンジニアリングガイドをお試しください。
プロンプトインジェクションは、LLMアプリに潜む潜在的に深刻なセキュリティ脆弱性で、まだ完璧な解決策はありません。Simon Willisonはこの投稿で、この問題の決定的な説明をしています。サイモンがAIについて書いたものは、ほぼすべて優れています。
開発者向けに、OpenAI APIを使用するためのガイドとコード例を集めた決定版です。新しいコード例で継続的に更新されています。
多くのLLMアプリは、ベクトル検索パラダイムをベースにしています。Pineconeのラーニングセンターは、ベンダーのブランドコンテンツであるにもかかわらず、このパターンで構築する方法について最も有用な指導を提供しています。
LangChainのドキュメント:LLMアプリのデフォルトオーケストレーションレイヤーとして、LangChainはスタックの他のすべての部分とつながっています。だから、彼らのドキュメントは、スタック全体と、その断片がどのように組み合わされているかについての本当のリファレンスなんだ。
コース紹介
LLM Bootcamp:Charles Frye、Sergey Karayev、Josh Tobinによる、LLMベースのアプリケーションを構築するための実践的なコースです。
ハギング・フェイス・トランスフォーマーHugging Face transformersライブラリのオープンソースLLMを使用するためのガイドです。
LLMベンチマーク
チャットボットのアリーナ:UC Berkeleyのチームが主導する、人気LLMのElo式ランキングシステム。ユーザーもモデル同士を比較することで参加できる。
オープンLLMのリーダーボード:Hugging Faceによるランキングで、標準的なベンチマークとタスクのコレクションでオープンソースのLLMを比較します。
5. 市場分析
私たちは皆、ジェネレーティブAIが生み出すものに驚嘆していますが、 それが何を意味するのかについては、まだ多くの疑問が あります。どの製品や企業が生き残り、成功するのか?アーティストはどうなるのか?企業はどのように使うべきなのか?文字通り仕事や社会全体にどのような影響を与えるのか?ここでは、これらの疑問に答えるためのいくつかの試みを紹介します。
a16z思考
ジェネレーティブAIプラットフォームは誰のものか?ジェネレーティブAIのインフラ、モデル、アプリケーションの各レイヤーにおいて、どのような価値が発生しているのか、また発生する可能性があるのかを評価したフラッグシップです。
AIコンピュートの高コストをナビゲートする:生成AIモデルが多くのコンピューティングリソースを必要とする理由と、需要の高い市場でそれらのリソース(適切なGPUを適切な量、適切なコストで)を獲得するための考え方について詳しく説明します。
アートは死んでいない、ただ機械で作られただけだ:AIモデルが、ソフトウェア開発などの分野よりもはるかに速いスピードで、自動化に対する最後の砦とされるクリエイティブ分野を再構築することができたことを考察する。
ゲームにおけるジェネレーティブAI革命:高精細なグラフィックを簡単に作成できるようになったことで、ゲームデザイナー、スタジオ、そして市場全体の機能がどのように変化するかについて、当社のゲームチームが詳細に分析したものである。 ゲームチームは、AI が生成するコンテンツとユーザーが生成するコンテンツの違いについて、次のような見解を示しています。
B2BのジェネレーティブAIアプリの場合、less more?B2Bのエンタープライズ・アプリケーションの世界では、情報を要約する方がテキストを作成するよりも最終的に価値が高くなるという考えを中心に、LLMがどのように進化していくかを予測する。
金融サービスは、あなたが思っているよりも早くジェネレーティブAIを取り入れるでしょう:金融サービス業界は、パーソナライズされた消費者体験、コスト効率の高い業務、コンプライアンスの向上、リスク管理の改善、動的な予測・報告などにジェネレーティブAIを活用する態勢にあるとする論考。
ジェネレーティブAI:次のコンシューマー・プラットフォーム:セラピーからeコマースまで、さまざまな分野の消費者市場に影響を与えるジェネレーティブAIの機会について紹介します。
ヘルスケアに真の違いをもたらすには、AIは私たちと同じように学習する必要があるでしょう:AIは、私たちが病気の予防や治療に目を向ける方法を、取り返しのつかないほど変える用意があります。しかし、創薬から医療提供までを真に変革するためには、「スペシャリスト」AIのエコシステムを構築することに投資すべきです。
新たな産業革命:バイオ×AI:人類史に残る次の産業革命は、人工知能を搭載したバイオで ある。
その他の視点
ファウンデーションモデルの機会とリスクについて:スタンフォードのファウンデーションモデルに関する概説書。長文で意見も多いが、これがこの言葉を形成した。
State of AIレポート:技術のブレークスルー、業界の発展、政治/規制、経済的影響、安全性、将来の予測など、AIで起こっているすべてのことをまとめた年次報告書。
GPTはGPTである:大規模言語モデルの労働市場への影響可能性をいち早く考察:OpenAI、OpenResearch、ペンシルバニア大学の研究者によるこの論文は、"米国の労働者の約80%が、LLMの導入により、少なくとも10%の作業タスクに影響を受ける可能性があり、約19%の労働者は少なくとも50%のタスクに影響を受けるかもしれない "と予測している。
ディープメディスン:人工知能が医療を再び人間らしくする方法エリック・トポル博士は、人工知能が、人間同士のつながりを妨げる時間のかかる仕事から医師を解放する可能性を明らかにしています。医師と患者の関係が回復する。(a16z ポッドキャスト)
6. 画期的な研究成果
今日、私たちが目にする素晴らしいAI製品のほとんどは、大企業や一流大学の専門家によって行われた、決して素晴らしいとは言えない研究の結果です。しかし、最近、個人やオープンソースコミュニティが、自動エージェントや小型ハードウェアへのモデルの移植など、人気のあるプロジェクトを新たな方向へ導く素晴らしい仕事を目にするようになりました。
ここでは、生成AIを深く知りたい人のために、これらの論文やプロジェクトの多くを集めました。(研究論文やプロジェクトについては、より高度な説明がなされているブログ記事やウェブサイトへのリンクも掲載しています。また、基礎研究を長期的に追跡できるように、オリジナルの出版年を記載しています)。
大型言語モデル
新機種
Attention is all you need (2017年): すべての始まりとなったGoogle Brainのトランスフォーマー作品と研究論文。(ブログ記事)
BERT: 言語理解のための深層双方向変換器の事前学習 (2018年):最初に公開されたLLMの1つで、現在も多くのバリエーションが使用されている。(ブログ記事)
Generative pre-trainingによる言語理解の向上 (2018):LLMの開発パスとして主流となっているGPTアーキテクチャをカバーしたOpenAI初の論文。(ブログ記事)
言語モデルは少数精鋭の学習者 (2020年): GPT-3と現代のLLMのデコーダのみのアーキテクチャを説明したOpenAIの論文です。
人間のフィードバックで言語モデルを訓練し、指示に従わせる (2022年): 人間をループに活用してモデルを訓練し、その結果プロンプトの指示によく従うようにするInstructGPTを説明するOpenAIの論文。これは、LLMを消費者が利用できるようにする重要なアンロックの1つでした(例:ChatGPT経由)。(ブログ記事)
LaMDA:対話アプリケーションのための言語モデル (2022年): 様々なトピックで人間とチャットボットの自由な対話のために特別に設計されたGoogleのモデルです。(ブログ記事)
PaLM: Scaling language modeling with pathways (2022)」です: GoogleのPaLMは、何千ものチップにまたがるLLMをトレーニングするための新しいシステムを利用し、モデルサイズが拡大するにつれて特定のタスクで予想以上の改善が見られることを実証した。(ブログ記事)。 PaLM-2テクニカルレポートもご覧 ください。
OPTOpen Pre-trained Transformer言語モデル (2022): OPTは、完全なオープンソースのLLMの中でもトップクラスの性能を持っています。この1750億パラメータモデルのリリースにはコードが付属しており、一般に公開されているデータセットでトレーニングされたものです。(ブログ記事)
計算機最適化大規模言語モデルのトレーニング (2022): Chinchilla論文。この論文は、ほとんどのモデルが、計算量に制限があるのではなく、データに制限があることを主張し、LLMのスケーリングに関するコンセンサスを変えました。(ブログ記事)
GPT-4テクニカルレポート (2023年): OpenAIの最新かつ最高の論文で、ほとんど何も明らかにしないことで知られています!(ブログ記事)。 GPT-4システムカードは、 OpenAIが幻覚やプライバシー、セキュリティなどの問題をどのように扱っているのかについて、いくつかの光を当てています。
LLaMA:オープンで効率的な基礎言語モデル (2023年): オープンソースのLLM革命を(ほぼ)起こしたMeta社のモデル。多くの優れたクローズドソースモデルと競合していますが、制限付きライセンスで研究者にのみ公開されています。(ブログ記事)
アルパカ:強力で複製可能な命令追従型モデル (2023年): スタンフォード発、このモデルは、特に小規模なオープンソースモデルにおいて、純粋なスケールと比較して、インストラクションチューニングの威力を実証しています。
モデルの改良(微調整、検索、注意など)
人間の好みからの深い強化学習 (2017年): ゲームやロボットの文脈における強化学習の研究、それはLLMのための素晴らしいツールであることが判明した。
知識集約型NLPタスクのためのRetrieval-augmented generation (2020):Facebookが開発したRAGは、情報検索によってLLMの精度を向上させるための2つの主要な研究パスのうちの1つである。(ブログ記事)
数兆個のトークンから検索して言語モデルを改善する (2021年)RETROは「Retrieval Enhanced TRansfOrmers」の略で、これもDeepMindによるアプローチで、学習データに含まれない情報にアクセスすることでLLMの精度を向上させようというものです。(ブログ記事)
LoRA: Low-rank adaptation of large languagemodels (2021):Microsoftのこの研究は、新しいデータでLLMをトレーニングするためのファインチューニングに代わる、より効率的な方法を紹介しました。現在では、特に画像モデルの微調整を行うコミュニティの標準となっています。
体質改善AI(2022年):Anthropicチームは、AIフィードバックからの強化学習(RLAIF)の概念を導入しています。他のAIの監督を受けながら、無害なAIアシスタントを開発するという主旨です。
FlashAttention:IOを意識した高速でメモリ効率の良い正確なアテンション( 2022年):スタンフォード大学のこの研究は、法外なトレーニング時間やコストをかけずに、より長いテキストシーケンス(およびより高解像度の画像)を理解する最先端のモデルへの扉を開くものである。(ブログ記事)
ハングリーハングリーカバ:状態空間モデルによる言語モデリングに向けて(2022年):再びスタンフォードからの論文で、言語モデリングにおける注意に代わる有力な選択肢の1つについて述べています。これは、より良いスケーリングとトレーニング効率への有望な道である。(ブログ記事)
画像生成モデル
自然言語監督から転送可能なビジュアルモデルを学習する (2021年): テキスト記述と画像を結びつける基礎モデル-CLIP-を紹介した論文。コンピュータビジョンにおける基盤モデルの最初の有効かつ大規模な利用の一つ。(ブログ記事)
ゼロショット・テキストから画像への生成 (2021年): 前述のCLIPとGPT-3を組み合わせて、テキストプロンプトをもとに画像を自動生成するモデル、DALL-Eを紹介した論文です。その後継であるDALL-E 2は、2022年に画像ベースの生成AIブームを巻き起こすことになる。(ブログ記事)
潜在拡散モデルによる高解像度画像合成 (2021):Stable Diffusionを説明した論文(発売後、オープンソースで爆発的に伸びた)。
深層言語理解によるフォトリアリスティックなテキストから画像への拡散モデル (2022) Imagenは、GoogleがAIによる画像生成に踏み切ったものだ。発表から1年以上が経過したが、この記事の公開日現在、このモデルはまだ一般に公開されていない。(ウェブサイト)
DreamBooth被写体駆動型生成のためのテキストから画像への拡散モデルの微調整 (2022年):DreamBoothは、Googleで開発された、ユーザが投稿した被写体を認識し、プロンプトのコンテキストに適用するモデルを学習するシステムです(例:エッフェル塔で微笑む [USER] )。(ウェブサイト)
テキストから画像への拡散モデルに条件付き制御を追加する (2023):スタンフォードからの論文で、潜像拡散モデルによる画像生成を細かく制御するための、現在非常に人気のあるツールであるControlNetを紹介しています。
代理店
自律型機械知能 (2022年)に向けた道筋: Meta AIリードでNYU教授のYann LeCunによる、周囲の世界を真に理解する自律的で知的なエージェントを構築する方法についての提案です。
ReAct:言語モデルにおける推論と演技の相乗効果 (2022年): プリンストン大学とGoogleのプロジェクトで、LLMの推論と計画能力をテストして改善する。(ブログ記事)
ジェネレーティブ・エージェント:人間の行動のインタラクティブなシミュラクラ (2023年):スタンフォード大学とGoogleの研究者が、LLMを使用して、「The Sims」のような設定で、プログラムされたものではなく、創発的な相互作用をするエージェントを開発しました。
Reflexion: 動的記憶と自己反省を持つ自律型エージェント (2023年): ノースイースタン大学とMITの研究者が、LLMが自分の失敗や過去の経験から学ぶことで、より確実に問題を解決できるようにするための教育について取り組んでいます。
ツールフォーマー:言語モデルは、ツールの使い方を自ら教えることができる (2023年) : Metaのこのプロジェクトは、モデルサイズを大きくすることなく精度を向上させるために、LLMが外部ツール(この場合、検索エンジンや計算機のようなものを指すAPI)を使用するように訓練します。
Auto-GPT:GPT-4の自律的な実験:GPT-4に様々なツール(インターネットアクセス、ファイルストレージなど)を与え、特定のタスクを解決するためにどのツールを使うかを選択することで、GPT-4の能力を拡張するオープンソースの実験です。
BabyAGIです:GPT-4とベクトルデータベース(コンテキストを保存)を利用して、より広い目的を解決するための一連のタスクを計画・実行するPythonスクリプトです。
その他のデータモダリティ
コード生成
コードで訓練された大規模な言語モデルを評価する (2021年): GitHub Copilot製品を支えるコード生成モデル「Codex」のOpenAIの研究論文です。(ブログ記事)
AlphaCodeによる競技レベルのコード生成 (2021年):DeepMindのこの研究は、人間のプログラマーよりも優れたコードを書くことができるモデルを実証しています。(ブログ記事)
CodeGen:マルチターン・プログラム合成によるコードのためのオープンな大規模言語モデル (2022年): CodeGenはSalesforceのAI研究部門から生まれたもので、現在、コード生成のためのReplit Ghostwriter製品の基盤となっている。(ブログ記事)
ビデオ世代
メイク・ア・ビデオ:テキスト-ビデオデータなしでテキスト-ビデオ生成 (2022):テキストプロンプトから短い動画を作成するMeta社のモデルですが、静止画の入力に動きをつけたり、既存の動画のバリエーションを作ったりもします。(ブログ記事)
イマージェン動画:拡散モデルによる高解像度ビデオ生成 (2022年):Googleの画像ベースのImagenモデルを、テキストプロンプトから短い動画を生成するために最適化したバージョンです。(ウェブサイト)
ヒューマンバイオロジー・メディカルデータ
グラフ・ニューラル・ネットワークの事前学習のための戦略 (2020年): 分子物性予測やタンパク質機能予測など、創薬全般のアプリケーションに有用な効果的な事前学習法の基礎を築いた論文です。(ブログ記事)
ディープラーニングのポテンシャルを利用したタンパク質構造予測の向上 (2020年): DeepMindのタンパク質中心の変換モデル「AlphaFold」は、配列からタンパク質の構造を予測することを可能にしました。これは、生物学的プロセスの理解や病気の新しい治療法の開発に、すでに広範囲な影響を及ぼしている真のブレークスルーといえます。(ブログ記事) (説明文)
大規模言語モデルは臨床知識を符号化する (2022):Med-PaLMは、米国医師免許試験形式の問題に正しく答えることができるLLMです。チームはその後、Med-PaLM2の性能に関する結果を発表しており、「エキスパート」受験者と同等のスコアを達成した。他のチームも ChatGPTや GPT-4で 同様の実験を行って います。(動画)
オーディオジェネレーション
ジュークボックス:音楽のための生成モデル (2020年): OpenAIがトランスフォーマーを使って音楽生成に乗り出し、最小限のトレーニングで音楽、ボーカル、歌詞を生成することが可能です。(ブログ記事)
AudioLM: a language modeling approach to audio generation (2022):AudioLMは、音声や楽器演奏など、複数の種類の音声を生成するためのGoogleプロジェクトです。(ブログ記事)
MusicLM: テキストからnusicを生成する (2023):AIによる音楽生成の現状、これまでの試みより高い品質とまとまりを示す。(ブログ記事)
多次元画像生成
NeRF:ビュー合成のための神経輝度場としてシーンを表現する (2020年): UCバークレー校を中心としたチームによる、5次元座標を用いた「複雑なシーンの新規ビューの合成」についての研究。(ウェブサイト)
ドリームフュージョン2D拡散を利用したテキストから3Dへの変換 (2022年):GoogleとUC-Berkeleyの研究者による作品で、NeRFをベースにして2D入力から3D画像を生成する。(ウェブサイト)
とかなりのボリュームでしたね。
記事を見ると専門用語や数式が並びますが、せめて専門用語の意味や各会社が提供する大規模言語モデルの名称だけでも理解、覚えておくとAI関連のニュースの理解も深まるかと思います。
特に深ぼって欲しい内容あればコメントいただければ解説するので待ってます!!
Reply