# AI x Crypto:ゼロからピークへ## はじめに人工知能業界の最近の発展は、一部の人々によって第4次産業革命と見なされています。大規模モデルの出現は、さまざまな業界の効率を大幅に向上させ、報告によると、GPTはアメリカの労働効率を約20%向上させました。同時に、大規模モデルがもたらす一般化能力は新しいソフトウェア設計のパラダイムと見なされており、過去の正確なコード設計と比較して、現在のソフトウェア設計は一般化された大規模モデルのフレームワークをソフトウェアに組み込むことが多く、ソフトウェアがより良いパフォーマンスを持ち、より広範なモードの入力と出力をサポートできるようになっています。深層学習技術は確かにAI業界にも第4次の繁栄をもたらしましたが、この波は暗号通貨業界にも広がっています。本レポートでは、AI業界の発展の歴史、技術の分類、そして深層学習技術の発明が業界に与えた影響について詳しく探ります。その後、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流、及びその発展状況とトレンドを深く分析します。次に、本質的に暗号通貨とAI業界の関係について詳しく探討し、暗号通貨に関連するAI産業チェーンの構成を整理します。! [新人科学丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-7e025deb1fddcd5fa716b6f144701074)## AI業界の歴史AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、人工知能を実現するための多様な流派を発展させてきました。現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、機械がデータに基づいてタスクを繰り返し改善し、システムの性能を向上させることです。主なステップは、データをアルゴリズムに送信し、このデータを使用してモデルを訓練し、モデルをテストして展開し、モデルを使用して自動化された予測タスクを完了することです。現在、機械学習には3つの主要な流派があり、それぞれ接続主義、シンボリズム、行動主義で、人間の神経系、思考、行動を模倣しています。現在、神経ネットワークを代表とする接続主義が優位を占めています(、これは深層学習とも呼ばれています)。主な理由は、このアーキテクチャが入力層と出力層を持ち、複数の隠れ層があるためです。層の数とニューロン(のパラメータ)の数が十分に多くなると、複雑な汎用タスクに適合する十分な機会が得られます。データを入力することによって、ニューロンのパラメータを調整し続けることができ、最終的に多くのデータを経て、そのニューロンは最適な状態に達します(パラメータ)、これがいわゆる「大力出奇跡」と呼ばれるものであり、その「深層」という言葉の由来でもあります - 十分な層とニューロンの数。例えば、簡単に理解するために、関数を構築したとします。この関数にX=2を入力するとY=3、X=3を入力するとY=5になります。すべてのXに対応するこの関数を作成するには、この関数の次数とそのパラメータを追加し続ける必要があります。例えば、今この条件を満たす関数をY = 2X -1として構築できますが、もしX=2、Y=11というデータがある場合、これらの3つのデータポイントに適した関数を再構築する必要があります。GPUを使ってブルートフォースで解決したところ、Y = X2 -3X +5が比較的適していることが分かりました。ただし、データと完全に一致する必要はなく、バランスを保ちながら大まかに類似した出力を確保すれば良いのです。この中でX2、X、X0はそれぞれ異なるニューロンを示し、1、-3、5はそのパラメータを示します。この時、神経ネットワークに大量のデータを入力すると、ニューロンを増やしたり、パラメータを反復させたりして新しいデータにフィットさせることができます。これにより、すべてのデータにフィットさせることができます。神経ネットワークに基づく深層学習技術は、初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化を経て、最終的にGPTなどの現代の大規模モデルで使用されるTransformer技術に進化しました。Transformer技術は神経ネットワークの一つの進化の方向であり、変換器(Transformer)を追加して、音声、動画、画像などのすべてのモーダル(のデータを対応する数値にエンコーディングして表現します。その後、これを神経ネットワークに入力することで、神経ネットワークはあらゆるタイプのデータをフィッティングできるようになり、すなわちマルチモーダルを実現します。! [新参者科学人気丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c(AIの発展は三度の技術の波を経てきました。最初の波は20世紀60年代で、AI技術が提唱されてから十年後のことです。この波は、シンボリズム技術の発展によって引き起こされ、一般的な自然言語処理や人間とコンピュータの対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはスタンフォード大学がアメリカ航空宇宙局の監督の下で完成させたDENRAL専門家システムであり、このシステムは非常に強力な化学の知識を持ち、問題を通じて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学の知識ベースと推論システムの結合として見ることができます。専門システムの後、1990年代にイスラエル系アメリカの科学者および哲学者ユーディア・パール)Judea Pearl(がベイズネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動に基づくロボティクスを提案し、行動主義の誕生を示しました。1997年、IBMの深青"Blue"は3.5:2.5のスコアで国際チェスチャンピオンのカスパロフ)Kasparov(に勝利し、この勝利は人工知能のマイルストーンと見なされ、AI技術は第二の発展のピークを迎えました。第三次AI技術の波は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioは、人工神経ネットワークを構造とし、データを表現学習するアルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GANからTransformerやStable Diffusionまで、これら二つのアルゴリズムは第三次技術の波を共同で形作り、これは連結主義の全盛期でもありました。深層学習技術の探求と進化に伴って、多くの象徴的な出来事が徐々に現れました。これには、以下が含まれます:* 2011年、IBMのワトソン)Watson(が『危険な境界』)Jeopardy(のクイズ番組で人間に勝利し、チャンピオンになりました。* 2014年、GoodfellowはGAN)生成対抗ネットワーク、Generative Adversarial Network(を提案し、2つのニューラルネットワークが相互に競い合うことで学習を行い、本物に近い写真を生成できるようにしました。同時にGoodfellowは『Deep Learning』という本を書き、花の本と呼ばれ、深層学習分野の重要な入門書の一つとされています。* 2015年、ヒントンらは「ネイチャー」誌で深層学習アルゴリズムを提案し、この深層学習手法の提案は、すぐに学術界や産業界で大きな反響を呼びました。* 2015年、OpenAIが設立され、マスク、YC社長のオルトマン、エンジェル投資家のピーター・ティール)ピーター・ティール(などが共同で10億ドルの資金を発表しました。* 2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンであるプロ九段棋士の李世石と囲碁の人間対機械対決を行い、4対1の総スコアで勝利した。* 2017年、中国香港のハンソンロボティクス社)Hanson Robotics(が開発したヒューマノイドロボットソフィアは、歴史上初めて一等市民の地位を与えられたロボットとされており、豊富な表情と人間の言語理解能力を備えています。* 2017年、人工知能の分野で豊富な才能と技術的予備力を持つGoogleは、Transformerアルゴリズムを提案した論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。※2018年、OpenAIは、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT)Generative Pre-trained Transformer(をリリースしました。* 2018年、GoogleチームのDeepmindは深層学習に基づくAlphaGoを発表し、タンパク質の構造予測を行うことができ、人工知能分野における巨大な進歩の象徴と見なされている。* 2019年、OpenAIはGPT-2をリリースしました。このモデルは15億のパラメータを持っています。* 2020年、OpenAIが開発したGPT-3は、1,750億のパラメータを持ち、以前のバージョンのGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用して訓練されており、複数のNLP)自然言語処理(タスク)において、質問応答、翻訳、記事作成(などで最先端のパフォーマンスを達成します。* 2021年、OpenAIはGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。* 2023年1月にGPT-4モデルに基づくChatGPTアプリがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなりました。※2024年、OpenAIはGPT-4 omniを発売します。注:人工知能に関する論文は多岐にわたり、流派も多様で、技術の進化もさまざまであるため、ここでは主に深層学習またはコネクショニズムの発展の歴史に従います。他の流派や技術は依然として急速に発展中です。! 【新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/social/moments-0c9bdea33a39a2c07d1f06760ed7e804(## ディープラーニング産業チェーン現在、大規模モデル言語で使用されているのは、すべて神経ネットワークに基づく深層学習手法です。GPTを筆頭とする大規模モデルは、人工知能の熱潮を引き起こし、多くのプレーヤーがこの分野に参入しました。我々はまた、市場におけるデータや計算力の需要が急増していることを発見しました。したがって、この報告のこの部分では、主に深層学習アルゴリズムの産業チェーンを探ります。深層学習アルゴリズムが主導するAI業界において、その上下游はどのように構成されているのか、また上下游の現状と供給需要関係、未来の発展はどのようになっているのかを考察します。まず明確にする必要があるのは、Transformer技術に基づくGPTを代表とするLLMs)大規模モデル(の訓練は、合計で三つのステップに分かれているということです。トレーニングの前に、Transformerに基づいているため、変換器はテキスト入力を数値に変換する必要があります。このプロセスは「トークナイゼーション」と呼ばれ、その後、これらの数値はトークンと呼ばれます。一般的な経験則の下では、1つの英単語または文字はおおよそ1つのトークンと見なすことができ、各漢字はおおよそ2つのトークンと見なすことができます。これがGPTの評価に使用される基本単位です。第一歩、事前訓練。入力層に十分なデータ対を与えることによって、報告の第一部分に例示されている)X,Y(のように、このモデルの下で各ニューロンの最適なパラメータを見つける。この時、多くのデータが必要であり、このプロセスは最も計算リソースを消費するプロセスでもある。ニューロンがさまざまなパラメータを試すために反復的に行われるからだ。一批のデータ対の訓練が完了した後、一般的には同じバッチのデータを使用してパラメータを反復する二次訓練が行われる。第二段階、微調。微調とは、少量ですが非常に質の高いデータを与えてモデルを訓練することです。このような変更により、モデルの出力の質が向上します。事前訓練には大量のデータが必要ですが、多くのデータにはエラーや低品質のものが含まれている可能性があります。微調整ステップは、高品質のデータを通じてモデルの品質を向上させることができます。第三ステップ、強化学習。まず、全く新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果をランク付けすることです。そのため、このモデルを実現するのは比較的簡単です。なぜなら、ビジネスシーンが非常に特化しているからです。その後、このモデルを使用して、我々の大きなモデルの出力が高品質であるかどうかを判定します。こうすることで、報酬モデルを使って自動的に大きなモデルのパラメータを反復させることができます。)しかし、時には人間の参加が必要で、モデルの出力品質を評価する必要があります。(簡単に言えば、大規模モデルのトレーニング過程において、事前学習はデータの量に非常に高い要求があり、必要とされるGPU計算能力も最も多いです。一方、ファインチューニングはパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを通じてパラメータを反復的に調整し、より高品質な結果を出力することができます。訓練の過程では、パラメータが多いほどその汎化能力の上限は高くなります。例えば、関数の例で言えば、Y = aX + bという式があり、実際には2つのニューロンXとX0があります。そのため、パラメータがどのように変化しても、適合できるデータは非常に限られています。なぜなら、その本質は依然として直線だからです。ニューロンが増えるほど、より多くのパラメータを反復でき、より多くのデータに適合できるようになります。これが大規模モデルが奇跡を生む理由であり、一般的に大規模モデルと呼ばれる理由でもあります。本質的には大量のニューロンとパラメータ、大量のデータが必要であり、同時に大量の計算能力も必要です。したがって、大規模モデルの性能は主に3つの要素、すなわちパラメータの数、データの量と質、計算能力によって決まります。この3つは共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークンの数で計算すると(、一般的な経験則を用いて必要な計算量を計算することができます。
AIと暗号資産: 技術の進化から産業エコシステムの全景解析まで
AI x Crypto:ゼロからピークへ
はじめに
人工知能業界の最近の発展は、一部の人々によって第4次産業革命と見なされています。大規模モデルの出現は、さまざまな業界の効率を大幅に向上させ、報告によると、GPTはアメリカの労働効率を約20%向上させました。同時に、大規模モデルがもたらす一般化能力は新しいソフトウェア設計のパラダイムと見なされており、過去の正確なコード設計と比較して、現在のソフトウェア設計は一般化された大規模モデルのフレームワークをソフトウェアに組み込むことが多く、ソフトウェアがより良いパフォーマンスを持ち、より広範なモードの入力と出力をサポートできるようになっています。深層学習技術は確かにAI業界にも第4次の繁栄をもたらしましたが、この波は暗号通貨業界にも広がっています。
本レポートでは、AI業界の発展の歴史、技術の分類、そして深層学習技術の発明が業界に与えた影響について詳しく探ります。その後、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流、及びその発展状況とトレンドを深く分析します。次に、本質的に暗号通貨とAI業界の関係について詳しく探討し、暗号通貨に関連するAI産業チェーンの構成を整理します。
! 新人科学丨AI×暗号:ゼロからピークまで
AI業界の歴史
AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、人工知能を実現するための多様な流派を発展させてきました。
現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、機械がデータに基づいてタスクを繰り返し改善し、システムの性能を向上させることです。主なステップは、データをアルゴリズムに送信し、このデータを使用してモデルを訓練し、モデルをテストして展開し、モデルを使用して自動化された予測タスクを完了することです。
現在、機械学習には3つの主要な流派があり、それぞれ接続主義、シンボリズム、行動主義で、人間の神経系、思考、行動を模倣しています。
現在、神経ネットワークを代表とする接続主義が優位を占めています(、これは深層学習とも呼ばれています)。主な理由は、このアーキテクチャが入力層と出力層を持ち、複数の隠れ層があるためです。層の数とニューロン(のパラメータ)の数が十分に多くなると、複雑な汎用タスクに適合する十分な機会が得られます。データを入力することによって、ニューロンのパラメータを調整し続けることができ、最終的に多くのデータを経て、そのニューロンは最適な状態に達します(パラメータ)、これがいわゆる「大力出奇跡」と呼ばれるものであり、その「深層」という言葉の由来でもあります - 十分な層とニューロンの数。
例えば、簡単に理解するために、関数を構築したとします。この関数にX=2を入力するとY=3、X=3を入力するとY=5になります。すべてのXに対応するこの関数を作成するには、この関数の次数とそのパラメータを追加し続ける必要があります。例えば、今この条件を満たす関数をY = 2X -1として構築できますが、もしX=2、Y=11というデータがある場合、これらの3つのデータポイントに適した関数を再構築する必要があります。GPUを使ってブルートフォースで解決したところ、Y = X2 -3X +5が比較的適していることが分かりました。ただし、データと完全に一致する必要はなく、バランスを保ちながら大まかに類似した出力を確保すれば良いのです。この中でX2、X、X0はそれぞれ異なるニューロンを示し、1、-3、5はそのパラメータを示します。
この時、神経ネットワークに大量のデータを入力すると、ニューロンを増やしたり、パラメータを反復させたりして新しいデータにフィットさせることができます。これにより、すべてのデータにフィットさせることができます。
神経ネットワークに基づく深層学習技術は、初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化を経て、最終的にGPTなどの現代の大規模モデルで使用されるTransformer技術に進化しました。Transformer技術は神経ネットワークの一つの進化の方向であり、変換器(Transformer)を追加して、音声、動画、画像などのすべてのモーダル(のデータを対応する数値にエンコーディングして表現します。その後、これを神経ネットワークに入力することで、神経ネットワークはあらゆるタイプのデータをフィッティングできるようになり、すなわちマルチモーダルを実現します。
! [新参者科学人気丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
AIの発展は三度の技術の波を経てきました。最初の波は20世紀60年代で、AI技術が提唱されてから十年後のことです。この波は、シンボリズム技術の発展によって引き起こされ、一般的な自然言語処理や人間とコンピュータの対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはスタンフォード大学がアメリカ航空宇宙局の監督の下で完成させたDENRAL専門家システムであり、このシステムは非常に強力な化学の知識を持ち、問題を通じて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学の知識ベースと推論システムの結合として見ることができます。
専門システムの後、1990年代にイスラエル系アメリカの科学者および哲学者ユーディア・パール)Judea Pearl(がベイズネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動に基づくロボティクスを提案し、行動主義の誕生を示しました。
1997年、IBMの深青"Blue"は3.5:2.5のスコアで国際チェスチャンピオンのカスパロフ)Kasparov(に勝利し、この勝利は人工知能のマイルストーンと見なされ、AI技術は第二の発展のピークを迎えました。
第三次AI技術の波は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioは、人工神経ネットワークを構造とし、データを表現学習するアルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GANからTransformerやStable Diffusionまで、これら二つのアルゴリズムは第三次技術の波を共同で形作り、これは連結主義の全盛期でもありました。
深層学習技術の探求と進化に伴って、多くの象徴的な出来事が徐々に現れました。これには、以下が含まれます:
2011年、IBMのワトソン)Watson(が『危険な境界』)Jeopardy(のクイズ番組で人間に勝利し、チャンピオンになりました。
2014年、GoodfellowはGAN)生成対抗ネットワーク、Generative Adversarial Network(を提案し、2つのニューラルネットワークが相互に競い合うことで学習を行い、本物に近い写真を生成できるようにしました。同時にGoodfellowは『Deep Learning』という本を書き、花の本と呼ばれ、深層学習分野の重要な入門書の一つとされています。
2015年、ヒントンらは「ネイチャー」誌で深層学習アルゴリズムを提案し、この深層学習手法の提案は、すぐに学術界や産業界で大きな反響を呼びました。
2015年、OpenAIが設立され、マスク、YC社長のオルトマン、エンジェル投資家のピーター・ティール)ピーター・ティール(などが共同で10億ドルの資金を発表しました。
2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンであるプロ九段棋士の李世石と囲碁の人間対機械対決を行い、4対1の総スコアで勝利した。
2017年、中国香港のハンソンロボティクス社)Hanson Robotics(が開発したヒューマノイドロボットソフィアは、歴史上初めて一等市民の地位を与えられたロボットとされており、豊富な表情と人間の言語理解能力を備えています。
2017年、人工知能の分野で豊富な才能と技術的予備力を持つGoogleは、Transformerアルゴリズムを提案した論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。
※2018年、OpenAIは、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT)Generative Pre-trained Transformer(をリリースしました。
2018年、GoogleチームのDeepmindは深層学習に基づくAlphaGoを発表し、タンパク質の構造予測を行うことができ、人工知能分野における巨大な進歩の象徴と見なされている。
2019年、OpenAIはGPT-2をリリースしました。このモデルは15億のパラメータを持っています。
2020年、OpenAIが開発したGPT-3は、1,750億のパラメータを持ち、以前のバージョンのGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用して訓練されており、複数のNLP)自然言語処理(タスク)において、質問応答、翻訳、記事作成(などで最先端のパフォーマンスを達成します。
2021年、OpenAIはGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。
2023年1月にGPT-4モデルに基づくChatGPTアプリがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなりました。
※2024年、OpenAIはGPT-4 omniを発売します。
注:人工知能に関する論文は多岐にわたり、流派も多様で、技術の進化もさまざまであるため、ここでは主に深層学習またはコネクショニズムの発展の歴史に従います。他の流派や技術は依然として急速に発展中です。
! 【新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
ディープラーニング産業チェーン
現在、大規模モデル言語で使用されているのは、すべて神経ネットワークに基づく深層学習手法です。GPTを筆頭とする大規模モデルは、人工知能の熱潮を引き起こし、多くのプレーヤーがこの分野に参入しました。我々はまた、市場におけるデータや計算力の需要が急増していることを発見しました。したがって、この報告のこの部分では、主に深層学習アルゴリズムの産業チェーンを探ります。深層学習アルゴリズムが主導するAI業界において、その上下游はどのように構成されているのか、また上下游の現状と供給需要関係、未来の発展はどのようになっているのかを考察します。
まず明確にする必要があるのは、Transformer技術に基づくGPTを代表とするLLMs)大規模モデル(の訓練は、合計で三つのステップに分かれているということです。
トレーニングの前に、Transformerに基づいているため、変換器はテキスト入力を数値に変換する必要があります。このプロセスは「トークナイゼーション」と呼ばれ、その後、これらの数値はトークンと呼ばれます。一般的な経験則の下では、1つの英単語または文字はおおよそ1つのトークンと見なすことができ、各漢字はおおよそ2つのトークンと見なすことができます。これがGPTの評価に使用される基本単位です。
第一歩、事前訓練。入力層に十分なデータ対を与えることによって、報告の第一部分に例示されている)X,Y(のように、このモデルの下で各ニューロンの最適なパラメータを見つける。この時、多くのデータが必要であり、このプロセスは最も計算リソースを消費するプロセスでもある。ニューロンがさまざまなパラメータを試すために反復的に行われるからだ。一批のデータ対の訓練が完了した後、一般的には同じバッチのデータを使用してパラメータを反復する二次訓練が行われる。
第二段階、微調。微調とは、少量ですが非常に質の高いデータを与えてモデルを訓練することです。このような変更により、モデルの出力の質が向上します。事前訓練には大量のデータが必要ですが、多くのデータにはエラーや低品質のものが含まれている可能性があります。微調整ステップは、高品質のデータを通じてモデルの品質を向上させることができます。
第三ステップ、強化学習。まず、全く新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果をランク付けすることです。そのため、このモデルを実現するのは比較的簡単です。なぜなら、ビジネスシーンが非常に特化しているからです。その後、このモデルを使用して、我々の大きなモデルの出力が高品質であるかどうかを判定します。こうすることで、報酬モデルを使って自動的に大きなモデルのパラメータを反復させることができます。)しかし、時には人間の参加が必要で、モデルの出力品質を評価する必要があります。(
簡単に言えば、大規模モデルのトレーニング過程において、事前学習はデータの量に非常に高い要求があり、必要とされるGPU計算能力も最も多いです。一方、ファインチューニングはパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを通じてパラメータを反復的に調整し、より高品質な結果を出力することができます。
訓練の過程では、パラメータが多いほどその汎化能力の上限は高くなります。例えば、関数の例で言えば、Y = aX + bという式があり、実際には2つのニューロンXとX0があります。そのため、パラメータがどのように変化しても、適合できるデータは非常に限られています。なぜなら、その本質は依然として直線だからです。ニューロンが増えるほど、より多くのパラメータを反復でき、より多くのデータに適合できるようになります。これが大規模モデルが奇跡を生む理由であり、一般的に大規模モデルと呼ばれる理由でもあります。本質的には大量のニューロンとパラメータ、大量のデータが必要であり、同時に大量の計算能力も必要です。
したがって、大規模モデルの性能は主に3つの要素、すなわちパラメータの数、データの量と質、計算能力によって決まります。この3つは共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークンの数で計算すると(、一般的な経験則を用いて必要な計算量を計算することができます。