深夜福利网-深夜福利网站大全,国产一区二区三区久久精品,99re6热在线精品视频播放,日韩中文字幕视频免费,影院一区二区小说性鲍视频

知名百科  > 所屬分類  >  其他科技   

書生通用大模型

“書生通用大模型”是上海人工智能實驗室、商湯科技商湯科技、香港中文大學和上海交通大學于2021年11月17日聯(lián)合發(fā)布的新一代通用視覺技術(shù)系統(tǒng)。該系統(tǒng)旨在系統(tǒng)解決人工智能視覺領(lǐng)域的任務通用化、場景通用化、數(shù)據(jù)高效化等一系列瓶頸問題。《書生》自2021年發(fā)布以來,經(jīng)過多次升級,從國內(nèi)首個覆蓋各種視覺任務的通用大型模型,到包含視覺、語言和三個維度的大型模型體系?;趯W者模型,上海人工智能實驗室的聯(lián)合團隊獲得了CVPR 2023年最佳論文獎,這是近40年來中國學術(shù)機構(gòu)首次簽署論文。

在2023世界人工智能大會全會上,“學者號”升級為“學者號通用大模型系統(tǒng)”,包括“學者號多模態(tài)”、“學者號普宇”和“學者號天際線”三個基礎模型,以及首個面向大模型開發(fā)應用的全鏈條開源系統(tǒng)。此后,上海人工智能實驗室聯(lián)合中國大模型語料庫數(shù)據(jù)聯(lián)盟成員單位,開源發(fā)布了“學者萬卷”1.0多模態(tài)預訓練語料庫。

目錄

發(fā)展歷史 編輯本段

2021年11月17日,上海人工智能實驗室攜手商湯科技商湯科技、香港中文大學、上海交通大學共同發(fā)布了新一代通用視覺技術(shù)系統(tǒng)“書生通用大模型”,旨在系統(tǒng)解決人工智能視覺領(lǐng)域的任務通用化、場景通用化、數(shù)據(jù)高效化等一系列瓶頸問題。其技術(shù)報告《書生通用大模型:一種新的學習范式塔一般愿景》在arXiv平臺上發(fā)布。

2022年9月,在世界人工智能大會(WAIC)科學前沿全體會議期間,上海人工智能實驗室發(fā)布了更通用的人工智能模型“學者2.0”?!皩W者2.0”的通用圖像模型基于動態(tài)稀疏卷積網(wǎng)絡,可根據(jù)不同的視覺任務自適應調(diào)整卷積位置和組合方式,從而靈活、準確地適應不同的視覺任務?!皩W者2.0”積累了大量以中文為核心的翻譯數(shù)據(jù),提出了異步多分支訓練技術(shù),構(gòu)建了以中文為核心的通用翻譯模型,支持161種語言。

2023年3月14日,商湯科技發(fā)布了多模態(tài)多任務通用大型模型“書生通用大模型(INTERN)2.5”。“學者2.5”擁有30億個參數(shù),通用可視化開源平臺OpenGVLab已開放“學者2.5”的多模態(tài)通用模型。

2023年6月7日,商湯科技、上海AI Lab聯(lián)合香港中文大學、復旦大學、上海交通大學發(fā)布千億級參數(shù)化大語言模型“學者普語”(InternLM)?!皩W者普宇”擁有1040億個參數(shù),并在包含1.6萬億token的多語言高質(zhì)量數(shù)據(jù)集上進行訓練。綜合評價結(jié)果顯示,“學者普語”不僅在知識掌握、閱讀理解、數(shù)學推理、多語種翻譯等多項測試任務中表現(xiàn)出色,而且綜合能力較強,因此在綜合考試中表現(xiàn)突出,并在多項中國考試中超過ChatGPT,包括中國高考各科目數(shù)據(jù)集(高考)。

2023年7月6日,在2023世界人工智能大會暨科學前沿全會開幕式上,上海人工智能實驗室攜手商湯科技、香港中文大學、復旦大學、上海交通大學、清華大學發(fā)布了全新升級的“學者通用大模型系統(tǒng)”,包括學者多模態(tài)、學者普宇、學者天際線三個基礎模型,以及首個面向大模型開發(fā)應用的全鏈條開源系統(tǒng)。

2023年8月14日,上海人工智能實驗室宣布與中國大模型語料庫數(shù)據(jù)聯(lián)盟成員單位合作,共同發(fā)布“學者萬卷”1.0多模態(tài)預訓練語料庫。目前(截至2023年12月18日)分為文本數(shù)據(jù)集、圖形數(shù)據(jù)集和視頻數(shù)據(jù)集三部分。開源數(shù)據(jù)總量超過2TB,包括5億多文本、2200萬圖文文檔和1000個視頻節(jié)目,涵蓋科技、文學、媒體、教育和法律等領(lǐng)域。

基礎原理 編輯本段

通用視覺技術(shù)系統(tǒng)INTERN由七個模塊組成,包括三個基礎設施模塊:通用視覺數(shù)據(jù)系統(tǒng)、通用視覺網(wǎng)絡結(jié)構(gòu)和通用視覺評估基準,以及四個用于區(qū)分上游和下游的訓練階段模塊。

在“書生通用大模型”的四個訓練階段中,前三個階段位于技術(shù)鏈上游,在模型的表示普適性上下足了功夫;第四級位于下游,可用于解決各種下游任務。

第一階段重點培養(yǎng)“基本能力”,即讓他們廣泛學習基本常識,為后續(xù)學習階段打好基礎;第二階段是培養(yǎng)“專家能力”,即多個專家模型學習某一領(lǐng)域的專業(yè)知識,使每個專家模型都能掌握該領(lǐng)域的技能并成為專家;第三階段是培養(yǎng)“通用能力”。隨著各種能力的整合,“學者”在所有技能領(lǐng)域都表現(xiàn)出出色的水平,并具有快速學習新技能的能力。

在循序漸進的前三個培訓階段中,“學者”在循序漸進的學習過程中具有高度的通用性。當它進化到第四階段時,系統(tǒng)將具有“遷移能力”。此時,“學者”所學的通用知識可以應用于特定領(lǐng)域的不同任務,如智慧城市、智慧醫(yī)療、自動駕駛等。,實現(xiàn)廣泛賦能。

“學者”在圖文跨模態(tài)領(lǐng)域的突出表現(xiàn)來自于視覺、語音和多任務建模能力的有效整合,即Intermage-G通用視覺模型、用于文本理解的超大規(guī)模語言預訓練模型(LLM)和用于多任務的Uni-epider模型。

其中,Intermage-G通用視覺宏大模型可以基于動態(tài)稀疏卷積算子自適應地調(diào)整卷積的位置和組合,從而為多功能視覺感知提供了有力的表示。超大型語言模型通過在超大型富文本語料庫上進行預訓練來提供強大而可靠的文本特征。uni-epider通用任務解碼建模通過將不同模式的數(shù)據(jù)編碼到統(tǒng)一的表示空間中,將不同的任務統(tǒng)一到同一任務范式中,從而可以使用相同的架構(gòu)和共享的模型參數(shù)同時處理各種模式和任務。

此外,《書生》創(chuàng)新性地引入了任務級稀疏激活機制,使其具備高效的多任務協(xié)同能力。在主流視覺圖像分類數(shù)據(jù)集ImageNet上,僅基于公開數(shù)據(jù),該模型就達到了90.1%的Top-1準確率。

“學者”模型可以全面覆蓋四個視覺核心任務:分類、對象檢測、語義分割和深度估計。在ImageNet等26個下游場景中,學者模型具有普適性,提高了這些長尾小樣本可視化場景的性能。借助“學者”通用視覺技術(shù)系統(tǒng),行業(yè)能夠以極低的下游數(shù)據(jù)獲取成本快速驗證多個新場景,有利于解鎖和實現(xiàn)人工智能的長尾應用。依托“學者”的特色表達能力,它還實現(xiàn)了多任務學習、小樣本學習和脫離分布檢測的能力。針對各類細分質(zhì)檢場景,準確率可達99.5%以上,打破了AI技術(shù)在工業(yè)質(zhì)檢領(lǐng)域大規(guī)模應用的壁壘。

功能特性 編輯本段

書生多式聯(lián)運:學者多模態(tài)將語言、圖像、視頻等多種模態(tài)無縫融合,首次通過自然語言實現(xiàn)視覺任務的定義,具備多模態(tài)交互和跨模態(tài)生成能力。多模態(tài)模型擁有200億個參數(shù),支持350萬個語義標簽。學者多模態(tài)有三個核心能力:開放世界理解、跨模態(tài)生成和多模態(tài)交互。

書生2.5的多模態(tài)通用大模型具有AIGC“從文本創(chuàng)建圖片”的能力,可以根據(jù)用戶提出的文本創(chuàng)建需求,使用擴散模型生成算法生成高質(zhì)量、自然逼真的圖像。例如,在“學者2.5”的幫助下,它幫助自動駕駛技術(shù)的研發(fā),并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓練數(shù)據(jù)。,然后訓練自動駕駛系統(tǒng)對拐角情況場景的感知上限。

同時,它可以在自動駕駛和家用機器人等一般場景中輔助完成任務:在自動駕駛和家用機器人等一般場景中,“學者”可以輔助處理各種復雜任務。例如,在自動駕駛場景中,它可以大大提高對場景的感知和理解能力,準確輔助車輛判斷紅綠燈、路標等信息的狀態(tài),為車輛的決策規(guī)劃提供有效的信息輸入。例如,在“學者2.5”的幫助下,它幫助自動駕駛技術(shù)的研發(fā),并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓練數(shù)據(jù)。,然后訓練自動駕駛系統(tǒng)對拐角情況場景的感知上限。

在自動駕駛和家用機器人等一般場景中,“書生”可以輔助完成任務:在自動駕駛和家用機器人等一般場景中,“書生”可以輔助處理各種復雜任務。例如,在自動駕駛場景中,它可以大大提高對場景的感知和理解能力,準確輔助車輛判斷紅綠燈、路標等信息的狀態(tài),為車輛的決策規(guī)劃提供有效的信息輸入。例如,在“學者2.5”的幫助下,它幫助自動駕駛技術(shù)的研發(fā),并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓練數(shù)據(jù)。,然后訓練自動駕駛系統(tǒng)對拐角情況場景的感知上限。

書圣璞玉:學者普語是國內(nèi)首個支持8K上下文長度的官方語言模型。學者Pu Yu擁有1040億個參數(shù),并在包含1.8萬億token的高質(zhì)量語料庫上進行訓練。

學者普宇開發(fā)了具有70億個參數(shù)的輕量級版本InternLM-7B,以及貫穿數(shù)據(jù)、預訓練、微調(diào)、部署和評估五個環(huán)節(jié)的全鏈工具系統(tǒng)。在40個評估集的全維評估中,InternLM-7B表現(xiàn)出出色而均衡的性能,創(chuàng)造了7B級模型的新世界紀錄。上海人工智能實驗室教授林達華表示:“通過開源開放,我們希望助力大模型的創(chuàng)新和應用,讓更多領(lǐng)域和行業(yè)在大模型變革的浪潮中受益。”

在數(shù)據(jù)鏈路方面,通過OpenDataLab開放了包含30多種模態(tài)的5500個公共數(shù)據(jù)集,其中以自然語言開放了超過10000億token的高質(zhì)量語料庫。在預訓練中,面向輕量級語言模型的訓練框架InternLM-Train開源,支持從8張卡到1024張卡的并行訓練,并提出了Hybrid-Zero的獨特技術(shù)。在微調(diào)階段,全流程微調(diào)工具開源,支持SFT和RLHF,還支持訓練模型進行復雜符號計算和工具調(diào)用,通過代碼解決復雜的數(shù)學計算問題。在部署過程中,部署推理工具鏈LMDeploy是開源的。它支持10億到1000億個參數(shù)化語言模型的高效推理,其性能超越了HuggingFace、Deepspeed和vLLM等主流推理框架。在評測階段,開放評測平臺OpenCompass上線,支持大模型一站式全方位評測,包含40多個評測集和30萬個評測主題。通過全自動分布式評測,可以有效復現(xiàn)開源模型的性能。

蜀圣天記:“學者天空”是全球首個城市級NeRF(神經(jīng)輻射場)三維大規(guī)模模型,擁有千億級參數(shù),并在全球首次實現(xiàn)100平方公里城市實景的4K高精度建模和編輯。

同時支持全范圍高精度實時渲染,首次實現(xiàn)城市級NeRF百平方公里全范圍1k分辨率、30幀實時渲染、4k分辨率離線渲染。此外,它還支持城市級編輯、風格轉(zhuǎn)換等功能,并提供豐富的超越和重建功能,包括城市編輯功能,如移除、構(gòu)建和旋轉(zhuǎn)城市建筑,以及調(diào)整城市風格變化,如照明和季節(jié)。Scholar Sky提供了一個訓練、渲染和交互的一體化系統(tǒng),并實現(xiàn)了一個覆蓋算法、算子、計算系統(tǒng)和用戶交互的城市級NeRF系統(tǒng),為訓練、渲染、交互和應用提供了基礎。

為滿足行業(yè)實際需求,上海AI Lab開放了學者天空的核心算法和訓練策略,用戶可根據(jù)自身應用場景復現(xiàn)大模型能力。核心算法和模型訓練策略是學者天空實現(xiàn)當前能力的關(guān)鍵。在本次開源中,學者Skyline首次公開了多分支GridNeRF模型的核心算法及其匹配訓練策略。在特定的場景中,研究人員和從業(yè)者可以使用開源內(nèi)容來重現(xiàn)和實現(xiàn)學者Skyline相關(guān)的能力。

舒萬圣卷:學者萬卷語料數(shù)據(jù)聯(lián)盟成員的內(nèi)容積累和上海ai實驗室的數(shù)據(jù)處理能力,“學者萬卷”為學術(shù)界和產(chǎn)業(yè)界提供大規(guī)模多模態(tài)預訓練語料。

“學者萬卷”1.0的多模態(tài)預訓練語料分為文本數(shù)據(jù)集、圖形數(shù)據(jù)集和視頻數(shù)據(jù)集三部分,開源數(shù)據(jù)總量超過2TB。其中,文本數(shù)據(jù)是從不同來源(如網(wǎng)頁、百科全書、書籍、專利、教科書、試題等)清洗后的預訓練語料。數(shù)據(jù)總量超過5億文檔,數(shù)據(jù)規(guī)模超過1TB,涵蓋科技、文學、傳媒、教育、法律等多個領(lǐng)域。圖形數(shù)據(jù)主要來自公共網(wǎng)頁,經(jīng)過處理后形成圖形交錯文檔。文檔總數(shù)超過2200萬,數(shù)據(jù)大小超過140GB(不含圖片),涵蓋新聞事件、人物、自然景觀、社會生活等多個領(lǐng)域。視頻數(shù)據(jù)主要來自中央廣播電視總臺和上海文光集團,包括新聞、電影和其他類型的節(jié)目圖像。視頻文件總數(shù)超過1000個,數(shù)據(jù)大小超過900GB,涵蓋軍事、文學、體育、自然、真實世界、知識、視頻藝術(shù)、媒體、食品、歷史、科教等。

交互特點  編輯本段

跨模態(tài)生成:通過聯(lián)合學習,學者多模態(tài)可以實現(xiàn)模式之間的相互轉(zhuǎn)換。研究人員試圖讓學者多模根據(jù)張大千的《湖山清夏圖》創(chuàng)作一首七言絕句。驗證結(jié)果表明,經(jīng)過聯(lián)合學習,學者多模態(tài)具有良好的從圖像到文本的跨模態(tài)生成能力,在中國具有深厚的文化積淀。在生成文本的同時,書生多模也給出了創(chuàng)作思路:根據(jù)畫面,確定描繪美麗的自然風光畫面;從畫面中尋找能表達詩人思想感情的元素,如畫中的巍峨山峰、云霧繚繞、蒼松蒼松;根據(jù)元素構(gòu)思一首詩;最后根據(jù)詩的節(jié)奏和格律加以完善。學者多模還特別描述了第四句的靈感來源:他借用了唐代詩人韋莊的名句“春水比天亮,畫船聽雨眠”。

多模態(tài)交互:學者多模態(tài)繼承了上一代學者在常規(guī)預定義視覺任務中的表現(xiàn),但也創(chuàng)新了人機交互的方式。用戶可以通過光標點擊、聊天等方式準確傳達指令。Scholar multimodal降低了人工智能任務的門檻,并使人工智能成為可供數(shù)千人使用的生產(chǎn)工具。多模態(tài)理解、生成和交互能力正成為大模型新一輪進化的重要方向。

書圣璞玉:上下文窗口的長度很長:上下文窗口的長度從2K增加到8K,具有理解長輸入、擴展復雜推理和進行長時間多輪對話的能力。

強大的多語言和結(jié)構(gòu)化表達能力:新模型支持20多種語言,還可以通過表格和圖表總結(jié)和呈現(xiàn)復雜信息。

多維度能力全面提升:在42個主流評測集上性能均有提升。

書生通用大模型書生通用大模型

數(shù)學邏輯能力強:提高數(shù)值計算、函數(shù)運算、方程求解等數(shù)學能力。2023年高考數(shù)學選擇題中,正確率提高了70%以上。

強大的安全性和對準能力:它可以更可靠地遵循人類指令,安全性也明顯提高。

蜀圣天記:從單一渲染到使用GirdNeRF的自由擴展:

NeRF是一種新的三維重建和表征技術(shù),可以用少量數(shù)據(jù)實現(xiàn)三維重建,廣泛應用于對象級三維建模。為實現(xiàn)城市級大規(guī)模實景建模,2021年12月,上海AI Lab首次提出CityNeRF,將不同高度的衛(wèi)星和近景影像有效融合,率先將NeRF建模技術(shù)從物體級擴展到城市級。通過采集單個建筑物的飛行圖像,可以實現(xiàn)一定規(guī)模的真實場景渲染和重建。在CityNeRF的基礎上,上海AI實驗室進一步開發(fā)了第二代CityNeRF技術(shù),即GridNeRF。

基于網(wǎng)格表示和NeRF表示相結(jié)合的GridNeRF支持模型的多層次擴展,為大規(guī)模城市級建模奠定了技術(shù)基礎。第二代CityNeRF從捕捉單個建筑物擴展到收集整個區(qū)域的細節(jié)。與第一代CityNeRF技術(shù)只能在單個建筑物周圍進行渲染不同,最新技術(shù)可以實現(xiàn)在整個區(qū)域內(nèi)上下飛行,平移和穿梭,建模效率更高。

真實三維建模的新范例:基于“算法+計算系統(tǒng)+算子”的系統(tǒng)化解決思路,并通過其采用的漸進渲染、并行訓練和多分支策略,在實際應用中,Scholar Sky已成為集訓練、渲染和交互于一體的系統(tǒng),開創(chuàng)了城市級真實場景三維建模的新范式。

雙枝模型結(jié)構(gòu),捕捉場景細節(jié);GirdNeRF由兩個分支組成,其中Grid分支將場景分解為地面特征平面和垂直特征軸,即將城市場景分解為更小的粒度,然后通過NeRF分支使用輕量級MLP網(wǎng)絡重構(gòu)訓練視角,生成高質(zhì)量的渲染圖像。同時,通過一種化整為零的策略,采用漸進渲染的方式更好地支持大規(guī)模場景渲染,為無限城市場景的重構(gòu)提供了可能。

合理化跳轉(zhuǎn)空白:Scholar Sky可以在算法的光線收集階段準確預測對實際重建無效的采樣點,從而“合理化跳躍”。Scholar Sky擁有數(shù)千億個參數(shù),preamble的采樣數(shù)量和計算效率對模型的訓練和渲染性能至關(guān)重要。而且算法模型會提前終止不必要的渲染,不僅可以更好地減少渲染計算量,提高計算效率,還可以將前導的采樣數(shù)量減少90%以上,降低計算復雜度和渲染成本。

平行培訓和多分支戰(zhàn)略;在訓練策略方面,學者天璣通過PlaneParallel和ChannelParallel模型的并行訓練,將訓練任務分成多個部分,并在多臺計算機上同時完成,提高了訓練速度。同時設計了多分支模型和相應的BranchParallel訓練策略,將模型分成多個部分,每個部分負責處理圖像的一部分,以使模型適應不同的場景和尺度。這些策略有助于減少訓練時間和資源需求,使模型更好地理解和編輯城市場景,并將渲染效率提高1000倍。

舒萬圣卷:基于語料庫數(shù)據(jù)聯(lián)盟構(gòu)建的語料庫,上海AI Lab對部分數(shù)據(jù)進行了細粒度清洗、去重和對齊值處理,形成了多模態(tài)預訓練語料庫“學者萬卷”1.0,具有多元融合、精細加工、值對齊、易用高效四大特點。

在多元融合方面,“學者萬卷”1.0包含文本、圖形、視頻等多模態(tài)數(shù)據(jù),涵蓋科技、文學、傳媒、教育、法律等多個領(lǐng)域,在訓練和提升模型的知識內(nèi)容、邏輯推理和泛化能力方面效果顯著。

在精細化處理方面:學者萬卷1.0經(jīng)歷了語言篩選、文本抽取、格式標準化、基于規(guī)則和模型的數(shù)據(jù)過濾和清洗、多尺度去重、數(shù)據(jù)質(zhì)量評估等多個精細化數(shù)據(jù)處理步驟。,因此可以更好地滿足后續(xù)模型預訓練的需要。

在價值對齊方面:在“學者萬卷”1.0的建設過程中,研究人員重點關(guān)注內(nèi)容與中國主流價值觀之間的對齊,并通過算法和人工評估相結(jié)合的方式提高語料庫的純度。

在易用性和效率方面,研究人員在“學者萬卷”1.0中采用了統(tǒng)一的格式,并提供了詳細的領(lǐng)域描述和工具指導,使其既易用又高效,可以快速應用于語言和多模態(tài)模型等大型模型的預訓練。

附件列表


0

詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。

如果您認為本詞條還有待完善,請 編輯

上一篇 虛擬地址    下一篇 OFO小黃車

同義詞

暫無同義詞