深夜福利网-深夜福利网站大全,国产一区二区三区久久精品,99re6热在线精品视频播放,日韩中文字幕视频免费,影院一区二区小说性鲍视频

知名百科  > 所屬分類  >  其他科技   

大語言模型

大型語言模型(Large Language Models,LLM)也稱為大型語言模型或大型語言模型,是由具有數(shù)百億個參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語言模型。它通常由大量未標記的文本使用自監(jiān)督學(xué)習(xí)方法進行訓(xùn)練,并通過大規(guī)模數(shù)據(jù)集訓(xùn)練來預(yù)測和生成文本和其他內(nèi)容。大多數(shù)大型語言模型都是基于Transformer架構(gòu)的。與傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長期記憶網(wǎng)絡(luò)(LSTM)相比,Transformer具有獨特的注意力機制,允許模型根據(jù)序列中的其他位置調(diào)整每個位置的表示,從而提高模型理解上下文的能力。

自2018年以來,谷歌、OpenAl、Meta、百度、華為等公司和研究機構(gòu)相繼發(fā)布了包括BERT和GPT在內(nèi)的各種模型,它們在幾乎所有自然語言處理任務(wù)中都表現(xiàn)良好。2019年,大模型呈現(xiàn)出爆發(fā)式增長,尤其是在2022年11月ChatGPT發(fā)布后,引起了全世界的廣泛關(guān)注。2024年3月18日,馬斯克的人工智能初創(chuàng)公司xAI正式發(fā)布了大型模型Grok-1,其參數(shù)達到了3140億,遠超open AI GPT 3.5的1750億。這是迄今為止參數(shù)數(shù)量最多的開源語言模型,模型權(quán)重和架構(gòu)都是按照Apache 2.0協(xié)議開放的。

目錄

構(gòu)建流程 編輯本段

預(yù)訓(xùn)練

預(yù)訓(xùn)練是大型語言模型訓(xùn)練的第一步,旨在使模型學(xué)習(xí)語言的統(tǒng)計模式和語義信息。主要的預(yù)訓(xùn)練步驟基本相似,最重要的是數(shù)據(jù),需要收集大量未標記的數(shù)據(jù),如互聯(lián)網(wǎng)上的文本、新聞、博客、論壇等。這些數(shù)據(jù)可能使用多種語言,需要進行清理和處理,以消除噪音、無關(guān)信息和個人隱私。最后,它們將以tokenizer粒度輸入到上述語言模型中。經(jīng)過清洗和處理后,這些數(shù)據(jù)用于訓(xùn)練和優(yōu)化語言模型。在預(yù)訓(xùn)練過程中,模型將學(xué)習(xí)詞匯、句法和語義的規(guī)則,以及上下文之間的關(guān)系。

在預(yù)訓(xùn)練語料方面,GPT-3主要包括Common Crawl、WebText2、Books1、Books2和英文維基百科等過濾數(shù)據(jù)集。其中,CommonCrawl的原始數(shù)據(jù)為45TB,過濾后僅保留570GB數(shù)據(jù)。上述語料庫按子詞分段,包含約5000億個子詞。為了確保模型使用更多高質(zhì)量的數(shù)據(jù)進行訓(xùn)練,在GPT-3訓(xùn)練過程中根據(jù)不同的語料來源設(shè)置了不同的采樣權(quán)重。在完成3000億子詞的訓(xùn)練時,英文維基百科語料庫的平均訓(xùn)練輪次為3.4次,而Common Crawl和Books 2的平均訓(xùn)練輪次僅為0.44次和0.43次。由于普通爬網(wǎng)數(shù)據(jù)集的過濾過程較為復(fù)雜,OPT采用了混合RoBERTa、Pile和Pushshift.io Redit數(shù)據(jù)的方法。由于這些數(shù)據(jù)集大多數(shù)是英語數(shù)據(jù),OPT還從常見的爬網(wǎng)數(shù)據(jù)集中提取了一些非英語數(shù)據(jù),并將其添加到訓(xùn)練語料庫中。BLOOM使用Megatron-DeepSpeed框架進行訓(xùn)練,該框架主要包括兩部分:Megatron-LM提供張量并行和數(shù)據(jù)加載原語;DeepSpeed提供ZeRO優(yōu)化器、模型管道和傳統(tǒng)的分布式訓(xùn)練組件。這樣就可以實現(xiàn)數(shù)據(jù)、張量和流水線的三維并行。

指令微調(diào)

在完成預(yù)訓(xùn)練后,我們可以通過指令微調(diào)來挖掘和增強語言模型本身的能力,這也是許多企業(yè)和研究人員使用大語言模型的重要步驟。

指令微調(diào)也稱為監(jiān)督微調(diào),它使用少量高質(zhì)量數(shù)據(jù)集,包括用戶輸入提示和相應(yīng)的理想輸出結(jié)果。用戶輸入包括問題、聊天對話、任務(wù)說明以及其他形式和任務(wù)。在指令微調(diào)階段,首先需要準備一系列NLP任務(wù),并將每個任務(wù)轉(zhuǎn)換為指令形式,其中指令包括人類應(yīng)該在模型上執(zhí)行的任務(wù)的描述以及預(yù)期的輸出結(jié)果。然后,這些指令用于監(jiān)督預(yù)訓(xùn)練的大型語言模型,使模型可以通過學(xué)習(xí)和適應(yīng)指令來提高其在特定任務(wù)上的性能。

為了使模型訓(xùn)練更加高效和簡單,現(xiàn)階段還有一種高效的微調(diào)技術(shù)。parameter-Efficient Fine-Tuning(PEFT)旨在通過最小化微調(diào)參數(shù)的數(shù)量和計算復(fù)雜度來實現(xiàn)高效遷移學(xué)習(xí)的目的,提高預(yù)訓(xùn)練模型在新任務(wù)中的性能,進而緩解大規(guī)模預(yù)訓(xùn)練模型的訓(xùn)練成本。在訓(xùn)練過程中,預(yù)訓(xùn)練模型的參數(shù)保持不變,只需要微調(diào)一些額外的參數(shù),就可以達到相當(dāng)于完全微調(diào)的性能。許多研究探索了PEFT方法,如適配器調(diào)整和前綴調(diào)整。其中,Adapter Tuning方法在面向特定下游任務(wù)時固定預(yù)訓(xùn)練模型中的某些層,僅微調(diào)與下游任務(wù)接近的幾個層的參數(shù)。前綴調(diào)整方法在預(yù)訓(xùn)練模型的基礎(chǔ)上增加了一些額外的參數(shù),這些參數(shù)將在訓(xùn)練過程中根據(jù)具體任務(wù)進行更新和調(diào)整。

低秩自適應(yīng)(LoRA)是工業(yè)中常用的適配器調(diào)整技術(shù)。它通過最小化微調(diào)參數(shù)的數(shù)量和計算復(fù)雜度來實現(xiàn)高效的遷移學(xué)習(xí),從而提高預(yù)訓(xùn)練模型在新任務(wù)中的性能。LoRA的核心思想是將預(yù)訓(xùn)練模型的權(quán)重矩陣分解為兩個低秩矩陣的乘積。通過這種分解,可以顯著減少微調(diào)參數(shù)的數(shù)量并降低計算復(fù)雜度。這種方法與機器學(xué)習(xí)中的經(jīng)典降維思想非常相似。同樣,LoRA使用矩陣分解技術(shù)中的奇異值分解或低秩近似方法將原始權(quán)重矩陣分解為兩個低秩矩陣的乘積。在微調(diào)過程中,LoRA只更新這兩個低秩矩陣的參數(shù),而保持其他預(yù)訓(xùn)練參數(shù)不變。這可以顯著減少微調(diào)所需的計算資源和時間,并在許多任務(wù)中實現(xiàn)等同于完全微調(diào)的性能。LoRA技術(shù)的引入使得大規(guī)模預(yù)訓(xùn)練模型的微調(diào)更加高效可行,為實際應(yīng)用提供了更多可能性。

獎勵建模

獎勵建模階段的目標是建立文本質(zhì)量比較模型,并對SFT模型針對同一提示給出的不同輸出結(jié)果的質(zhì)量進行排序。獎勵模型(RM模型)可以通過二元分類模型判斷兩個輸入結(jié)果之間的優(yōu)劣。RM模型不同于基本語言模型和SFT模型,并且RM模型本身不能單獨提供給用戶。

獎勵模型的訓(xùn)練通常與SFT模型相同,后者使用數(shù)十個GPU并花費數(shù)天時間來完成訓(xùn)練。由于RM模型的準確性對強化學(xué)習(xí)的效果有著至關(guān)重要的影響,因此通常需要大規(guī)模的訓(xùn)練數(shù)據(jù)來訓(xùn)練模型。

強化學(xué)習(xí)

在強化學(xué)習(xí)階段,根據(jù)數(shù)十萬用戶給出的提示,利用前一階段訓(xùn)練的RM模型,給出SFT模型對用戶提示完成結(jié)果的質(zhì)量評估,并結(jié)合語言模型的建模目標,得到較好的結(jié)果。利用強化學(xué)習(xí),在SFT模型的基礎(chǔ)上調(diào)整參數(shù),使最終生成的文本能夠獲得更高的獎勵。與預(yù)訓(xùn)練階段相比,該階段所需的計算量要少得多,通常只需要幾個+GPU即可在幾天內(nèi)完成訓(xùn)練。

通過強化學(xué)習(xí)方法訓(xùn)練的RL模型是一個類似ChatGPT的系統(tǒng),最終提供給用戶,并具有理解用戶指令和上下文的能力。然而,Andrej Karpathy指出,強化學(xué)習(xí)并非沒有問題,它會降低基本模型的熵從而降低模型輸出的多樣性。由于強化學(xué)習(xí)方法的不穩(wěn)定性和眾多的參數(shù),模型很難收斂,疊加RM模型的準確性,這使得將強化學(xué)習(xí)有效應(yīng)用于大型語言模型非常困難。

相關(guān)技術(shù) 編輯本段

Transformer

事實上,目前流行的大語言模型的網(wǎng)絡(luò)架構(gòu)中并沒有太多新技術(shù),NLP領(lǐng)域最流行、最有效的架構(gòu)——Transformer結(jié)構(gòu)一直在使用。與傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長期記憶網(wǎng)絡(luò)(LSTM)相比,Transformer具有獨特的注意力機制,相當(dāng)于增強了模型的理解能力,對更重要的單詞給予了更多的關(guān)注。同時,該機制具有更好的并行性和可擴展性,可以處理更長的序列。它立即成為自然語言處理領(lǐng)域中具有基本能力的模型,并在各種文本相關(guān)的序列任務(wù)中取得了良好的結(jié)果。

根據(jù)這種網(wǎng)絡(luò)架構(gòu)的變形,主流框架可以分為Encoder-Decoder、Encoder-Only和Decoder-Only,其中:Encoder-Only僅包含編碼器部分,主要適用于只需要對輸入進行編碼和處理的單向任務(wù)場景,如文本分類、情感分析等。這類代表是BERT相關(guān)模型。編碼器-解碼器包括編碼器和解碼器,通常用于序列到序列(Seq2Seq)任務(wù),如機器翻譯、對話生成等。這類代表是以谷歌訓(xùn)練的T5為代表的相關(guān)大模型。僅包含解碼器部分的Decoder-Only通常用于序列生成任務(wù),如文本生成和機器翻譯。這種結(jié)構(gòu)的模型適用于需要生成序列的任務(wù),相應(yīng)的序列可以從輸入代碼中生成。同時,可以進行無監(jiān)督的預(yù)訓(xùn)練也是一個重要特征。在預(yù)訓(xùn)練階段,模型通過大量未標記數(shù)據(jù)學(xué)習(xí)語言的統(tǒng)計模式和語義信息。這種方法可以使模型具有廣泛的語言知識和理解能力。經(jīng)過預(yù)訓(xùn)練后,模型可以針對特定的下游任務(wù)(如機器翻譯、文本生成等)進行監(jiān)督和微調(diào)。).這種結(jié)構(gòu)的代表是我們平時非常熟悉的GPT模型結(jié)構(gòu)。該系列的所有網(wǎng)絡(luò)結(jié)構(gòu)都是基于純解碼器逐步演進的。

許多NLP任務(wù)可以通過多種網(wǎng)絡(luò)結(jié)果來解決,這主要是由于NLP領(lǐng)域任務(wù)和數(shù)據(jù)的多樣性和復(fù)雜性,以及現(xiàn)代深度學(xué)習(xí)模型的靈活性和泛化能力。

基于人類反饋的強化學(xué)習(xí)

經(jīng)過監(jiān)督微調(diào)后,大語言模型具有跟隨指令、進行多輪對話以及與用戶進行初步對話的能力。然而,由于龐大的參數(shù)和訓(xùn)練語料庫,大型語言模型的復(fù)雜性往往難以理解和預(yù)測。當(dāng)部署這些模型時,可能會產(chǎn)生嚴重的后果,尤其是當(dāng)模型變得更強大、使用范圍更廣,并且與用戶頻繁交互時。研究人員尋求使人工智能與人類價值觀保持一致,大型語言模型的輸出應(yīng)符合3H原則:有益、誠實和無害。因為上述3H原則反映了人類的偏好,所以基于人類反饋的強化學(xué)習(xí)被自然地引入到通用對話模型的訓(xùn)練過程中。

基于人類反饋的強化學(xué)習(xí)主要分為兩個步驟:獎勵模型訓(xùn)練和近端策略優(yōu)化。獎勵模型通過人類反饋標記的偏好數(shù)據(jù)學(xué)習(xí)人類偏好,判斷模型回復(fù)的有用性,確保內(nèi)容的無害性。獎勵模型模擬人類偏好信息,可以持續(xù)為模型的訓(xùn)練提供獎勵信號。在獲得獎勵模型后,我們需要在強化學(xué)習(xí)的幫助下繼續(xù)微調(diào)語言模型。OpenAl在大多數(shù)任務(wù)中使用的強化學(xué)習(xí)算法是鄰近策略優(yōu)化(PPO)算法。近端策略優(yōu)化可以基于獎勵模型獲得的反饋優(yōu)化模型,通過不斷迭代,模型可以探索并找到更符合人類偏好的回復(fù)策略。近端策略優(yōu)化涉及以下四個模型:(1)策略模型,生成模型回復(fù)。(2)獎勵模型,輸出獎勵分數(shù)來評估回復(fù)質(zhì)量。(3)Critic模型,可以預(yù)測回復(fù)質(zhì)量,并可以在訓(xùn)練過程中實時調(diào)整和選擇未來累積收益最大的行為。(4)參考模型,它提供了SFT模型的備份,因此模型不會發(fā)生過大的變化。近端策略優(yōu)化算法的實現(xiàn)過程是:(1)環(huán)境采樣:策略模型基于給定的輸入生成一系列響應(yīng),獎勵模型對這些響應(yīng)進行評分以獲得獎勵。(2)優(yōu)勢估計:通過使用評論模型來預(yù)測生成回復(fù)的未來累積獎勵并在廣義優(yōu)勢估計(GAE)算法的幫助下估計優(yōu)勢函數(shù),有助于更準確地估計每個行為的收益。(3)優(yōu)化調(diào)整:利用優(yōu)勢函數(shù)對策略模型進行優(yōu)化調(diào)整,利用參考模型保證更新后的策略不會發(fā)生太大變化,從而保持模型的穩(wěn)定性。

混合專家系統(tǒng)

混合專家(MOE)是預(yù)訓(xùn)練萬億參數(shù)模型的關(guān)鍵技術(shù)。該模型是在不過分增加計算成本的情況下提高神經(jīng)網(wǎng)絡(luò)模型能力的有效手段。MoE的基本思想是從許多專家子網(wǎng)絡(luò)構(gòu)建一個統(tǒng)一的網(wǎng)絡(luò),其中每個輸入由一個合適的專家子集處理。因此,與標準神經(jīng)網(wǎng)絡(luò)相比,MoE僅調(diào)用整個模型的一小部分,從而獲得了如GLaM等語言模型應(yīng)用程序所示的高效率。GLaM架構(gòu)中的每個輸入令牌都被動態(tài)路由到64個專家網(wǎng)絡(luò)中的兩個進行預(yù)測。與密集模型相比,在相同的計算量下,MoE中的條件計算可以大大提高模型參數(shù)。然而,在大規(guī)模集群中高效和有效地訓(xùn)練MoE仍然是一個挑戰(zhàn)。混合專家系統(tǒng)的思想是目前較好的大型模型落地方式。在過去的十年中,人工智能特別是深度學(xué)習(xí)技術(shù)的發(fā)展積累了許多高質(zhì)量的模型。將大模型與混合專家系統(tǒng)等高質(zhì)量模型相結(jié)合,將是未來大模型從純數(shù)字經(jīng)濟向數(shù)字經(jīng)濟賦能實體經(jīng)濟轉(zhuǎn)型的重要途徑。

提示工程

提示工程主要應(yīng)用于提示詞的開發(fā)和優(yōu)化,幫助用戶將大型語言模型應(yīng)用于各種場景和研究領(lǐng)域。掌握與cue工程相關(guān)的技能將幫助用戶更好地理解大規(guī)模語言模型的功能和局限性。研究人員可以使用線索工程來提高大型語言模型處理復(fù)雜任務(wù)場景的能力,例如問答和算術(shù)推理。開發(fā)人員可以提示工程設(shè)計并開發(fā)強大的工程技術(shù),以實現(xiàn)與大型語言模型或其他生態(tài)工具的高效集成。提示工程不僅僅是設(shè)計和研發(fā)提示。它包括與大語言模型交互和發(fā)展的各種技能和技術(shù)。提示工程在實現(xiàn)與大型語言模型的交互和對接以及理解大型語言模型的能力方面發(fā)揮著重要作用。用戶可以通過提示項目來提高大語言模型的安全性,也可以為大語言模型賦能,比如借助專業(yè)領(lǐng)域知識和外部工具增強大語言模型的能力。

工作原理 編輯本段

大型語言模型通過使用深度學(xué)習(xí)技術(shù)和大量文本數(shù)據(jù)來運行。該模型通?;谵D(zhuǎn)換器架構(gòu),它擅長處理文本輸入等順序數(shù)據(jù)。在訓(xùn)練過程中,模型學(xué)習(xí)根據(jù)句子前面的單詞預(yù)測下一個單詞。它通過將概率得分歸因于重復(fù)的標記單詞(分解為更小的字符序列)來實現(xiàn)這一點。然后,這些標簽被轉(zhuǎn)換為嵌入,這是上下文的數(shù)字表示。為了確保準確性,這一過程涉及在大量文本語料庫(數(shù)十億頁)上訓(xùn)練大型語言模型,使其可以通過零樣本和自我監(jiān)督學(xué)習(xí)來學(xué)習(xí)語法、語義和概念關(guān)系。經(jīng)過這些訓(xùn)練數(shù)據(jù)的訓(xùn)練后,它可以根據(jù)接收到的信息自動預(yù)測下一個單詞,并使用它們的知識生成文本。從而生成可用于各種內(nèi)容生成任務(wù)的連貫語言。該模型還可以通過實時工程、實時調(diào)優(yōu)、微調(diào)等策略來提高模型的性能,這是確保企業(yè)LLM隨時可用且不會使組織承擔(dān)不必要的責(zé)任或損害組織聲譽的最重要方面之一。

培訓(xùn)費用 編輯本段

訓(xùn)練一個通用的大語言模型是非?!盁X”的。根據(jù)郭盛證券的“ChatGPT需要多大的計算能力”報告,預(yù)計GPT-3一次培訓(xùn)的成本約為140萬美元。對于一些較大的語言模型,訓(xùn)練成本甚至更高,從200萬美元到1200萬美元不等。以chat GPT 1月平均獨立訪客數(shù)1300萬計算,其對應(yīng)的芯片需求為3萬多片NVIDIA A100GPU,初始投資成本約為8億美元,每日電費約為5萬美元。如果當(dāng)前的ChatGPT被部署到谷歌進行的每個搜索中,則需要512,820.51個A100 HGX服務(wù)器和總共4,102,568個A100GPUs,僅這些服務(wù)器和網(wǎng)絡(luò)的資本支出就超過1000億美元。

主要應(yīng)用 編輯本段

大語言模型在社會科學(xué)、自然科學(xué)和形式科學(xué)中的應(yīng)用。到2023年,大語言模型已經(jīng)開始在許多領(lǐng)域商業(yè)化。除了ChatGPT等產(chǎn)品外,主要有以下主流應(yīng)用:

辦公Copilot類產(chǎn)品:微軟首次嘗試在自己的Office系列軟件中應(yīng)用大語言模型。通過使用大語言模型,您可以總結(jié)word文檔并提出修改和編輯建議,或者您可以總結(jié)給定的文章;Excel中的各種復(fù)雜操作也可以通過描述直接處理數(shù)據(jù);Microsoft Office PowerPoint可以通過識別需求自動生成顯示內(nèi)容;Outlook直接使用自然語言生成郵件內(nèi)容等功能,實現(xiàn)真正的AI秘書。

大語言模型大語言模型

Github Copilot產(chǎn)品:將大語言模型應(yīng)用于Github Copilot產(chǎn)品后,我們可以通過對話直接生成各種功能代碼,包括幫助編寫測試用例、解釋代碼片段和調(diào)試程序問題。該功能在解放程序員生產(chǎn)力方面取得了革命性的進步,使開發(fā)人員能夠更加關(guān)注業(yè)務(wù)理解、系統(tǒng)設(shè)計和架構(gòu)設(shè)計等更高層次的需求。

教育知識產(chǎn)品:得益于對大語言模型的強大理解和知識儲備,許多公司將模型嵌入到知識產(chǎn)品中進行應(yīng)用。在chatPDF中嵌入大型語言模型后,它可以幫助經(jīng)常閱讀論文的研究人員通過問答快速提取信息、理解和總結(jié)文章的重要內(nèi)容,這大大提高了閱讀新論文的效率。對于語言學(xué)習(xí)者來說,一款名為Call Annie的軟件嵌入到大語言模型中,基本上可以取代英語口語老師的角色,并可以隨時隨地練習(xí)英語口語。

搜索引擎和推薦系統(tǒng):大語言模型可以應(yīng)用于企業(yè)搜索引擎和推薦系統(tǒng)。通過深度學(xué)習(xí)算法,可以準確理解用戶的搜索意圖,并提供更準確的搜索結(jié)果和個性化推薦內(nèi)容。這有助于改善用戶體驗,增加用戶粘性,并提高企業(yè)的轉(zhuǎn)化率和銷售額。

計算相關(guān)的上下游相關(guān)產(chǎn)業(yè):為了跟上大型語言模型的訓(xùn)練和推理速度,許多公司正在積極探索基于GPU、FPGA和ASIC等硬件的加速制造技術(shù)。此外,云計算技術(shù)的發(fā)展也為大型語言模型的訓(xùn)練提供了更多的計算資源。

除了上述領(lǐng)域,大語言模型在算法優(yōu)化、隱私和數(shù)據(jù)安全、模型可解釋性等方面也有應(yīng)用。大語言模型的諸多應(yīng)用不斷涌現(xiàn),國內(nèi)優(yōu)秀的大語言模型代表,如百度文心,也在構(gòu)建全系統(tǒng)產(chǎn)業(yè)化全景圖。

附件列表


0

詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。

如果您認為本詞條還有待完善,請 編輯

上一篇 開放數(shù)據(jù)庫互連    下一篇 Microsoft Edge

同義詞

暫無同義詞