Databricks
Databricks是一家基于云計算Spark大數(shù)據(jù)的軟件運營商,于2013年1月1日正式成立,總部設(shè)在美國舊金山。作為大數(shù)據(jù)處理領(lǐng)域的領(lǐng)軍企業(yè),Databricks專注于提供基于Spark的云服務(wù),涵蓋數(shù)據(jù)集成、數(shù)據(jù)清洗、數(shù)據(jù)管理等多個環(huán)節(jié),致力于為企業(yè)打造高效、安全的數(shù)據(jù)處理解決方案?,F(xiàn)任首席執(zhí)行官為阿里?戈西(Ali Ghodsi)。
發(fā)展歷程 編輯本段
Databricks由Apache Spark的7位初始成員(Ali Ghodsi、Andy Konwinski、Arsalan Tavakoli-Shiraji、Ion Stoica、Matei Zaharia、Patrick Wendell和Reynold Xin)共同創(chuàng)立。2016年,Databricks與微軟達(dá)成合作,開啟了其在云計算領(lǐng)域的重要布局。2017年11月,Databricks成功成為微軟Azure的第一方服務(wù)平臺,進(jìn)一步鞏固了其在云市場的地位。
2018年:Databricks發(fā)布了MLflow,這是一款用于管理機(jī)器學(xué)習(xí)項目的開源平臺,旨在簡化數(shù)據(jù)科學(xué)家構(gòu)建、測試和部署機(jī)器學(xué)習(xí)模型的復(fù)雜過程。
2019年:Databricks發(fā)布了Delta Lake,構(gòu)建了數(shù)據(jù)湖屋架構(gòu)的存儲框架,為數(shù)據(jù)湖的構(gòu)建和管理提供了有力支持。
2020年:6月,Databricks宣布收購以色列初創(chuàng)公司Redash,并基于其技術(shù)推出了數(shù)據(jù)湖屋關(guān)鍵開源技術(shù)Delta Engine,該技術(shù)可在Delta Lake之上分層,顯著提高查詢性能。11月,Databricks推出了Databricks SQL,用于在數(shù)據(jù)湖上運行商業(yè)智能和分析報告,進(jìn)一步豐富了其產(chǎn)品線。
2021年:Databricks與谷歌云建立合作,使用戶能夠在谷歌云上應(yīng)用Databricks平臺的功能,成為當(dāng)時唯一一個可以在谷歌、亞馬遜和微軟三大云平臺上使用的統(tǒng)一數(shù)據(jù)平臺。10月,Databricks收購了德國無代碼公司8080Labs,降低了平臺的使用門檻,并在CIDR 2021發(fā)表論文,首次正式提出了數(shù)據(jù)湖屋(Lakehouse)的概念。
2023年:為了應(yīng)對OpenAI的ChatGPT,Databricks推出了開源語言模型Dolly,展現(xiàn)了其在人工智能領(lǐng)域的創(chuàng)新能力。
2024年:3月,Databricks推出了一款名為DBRX的通用大型語言模型,進(jìn)一步提升了其在人工智能領(lǐng)域的競爭力。
2023年6月26日:Databricks正式宣布以約13億美元收購生成式人工智能初創(chuàng)公司MosaicML,旨在為企業(yè)提供構(gòu)建類ChatGPT工具的服務(wù),交易預(yù)計于7月31日前完成。
2023年9月14日:Databricks完成了超過5億美元的I輪融資,為其后續(xù)發(fā)展提供了強(qiáng)大的資金支持。
2024年12月7日:Databricks宣布完成100億美元J輪融資,公司估值從此前的430億美元攀升至620億美元。本輪融資由Thrive Capital領(lǐng)投,多家知名投資機(jī)構(gòu)參與,包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management作為共同領(lǐng)投方。
2025年8月19日:Databricks發(fā)布公告稱,正在進(jìn)行一輪超過10億美元的K輪融資,各方已經(jīng)簽署了投資條款清單,對應(yīng)估值將超過1000億美元。
機(jī)構(gòu)治理 編輯本段
管理團(tuán)隊
聯(lián)合創(chuàng)始人兼首席執(zhí)行官阿里?戈西(Ali Ghodsi)
全球現(xiàn)場運營總裁安迪?科福德(Andy Kofoid)
首席財務(wù)官大衛(wèi)?孔特(David Conte)
首席人力官艾米?賴克南德特(Amy Reichanadter)
高級副總裁兼總法律顧問特蘭?菲(Tram Phi)
首席營收官羅恩?加布里斯科(Ron Gabrisko)
首席營銷官里克?舒爾茨(Rick Schultz)
首席運營官哈蒂姆?沙菲克(Hatim Shafique)
業(yè)務(wù)服務(wù) 編輯本段
主營業(yè)務(wù)
Databricks旗下主要產(chǎn)品為大數(shù)據(jù)平臺Spark,該平臺基于Apache Spark開源大數(shù)據(jù)框架,是統(tǒng)一的數(shù)據(jù)分析平臺,定義了云計算時代數(shù)據(jù)處理標(biāo)準(zhǔn)的引擎,為企業(yè)提供了高效、靈活的數(shù)據(jù)處理能力。
產(chǎn)品服務(wù)
Data Sharing(數(shù)據(jù)共享平臺):Databricks和Linux基金會聯(lián)合開發(fā)了Delta Sharing數(shù)據(jù)共享平臺,為跨數(shù)據(jù)、分析和人工智能的數(shù)據(jù)共享提供了一個開源方法。客戶可以在高度安全和治理的平臺區(qū)域之間共享實時數(shù)據(jù),適用于企業(yè)內(nèi)部業(yè)務(wù)線共享、B2B分享與數(shù)據(jù)貨幣化等場景。
Unity Catalog(統(tǒng)一管理方法):Databricks Unity Catalog為Databricks數(shù)據(jù)智能平臺內(nèi)的數(shù)據(jù)和人工智能提供了統(tǒng)一的管理方法。組織可以在任何云或平臺上無縫地管理其結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、機(jī)器學(xué)習(xí)模型、筆記本、儀表板和文件。數(shù)據(jù)科學(xué)家、分析師和工程師可以使用Unity Catalog發(fā)現(xiàn)、訪問可信數(shù)據(jù)和人工智能資產(chǎn)并進(jìn)行協(xié)作,利用人工智能提高生產(chǎn)力并釋放數(shù)據(jù)湖屋架構(gòu)的全部潛力。該功能能夠提高生產(chǎn)力,簡化許可模型,進(jìn)行人工智能監(jiān)控并提高可視性。
Mosaic AI(統(tǒng)一構(gòu)建工具):Databricks Mosaic AI能夠提供統(tǒng)一的工具來構(gòu)建、部署和監(jiān)控人工智能和機(jī)器學(xué)習(xí)解決方案,包括構(gòu)建預(yù)測模型、最新的GenAI和大型語言模型?;贒atabricks數(shù)據(jù)智能平臺,Mosaic AI使組織能夠安全且經(jīng)濟(jì)高效地將企業(yè)數(shù)據(jù)集成到AI生命周期中。在保證企業(yè)對模型和數(shù)據(jù)的所有權(quán)的同時,提供準(zhǔn)確、安全和可控的AI應(yīng)用程序,并以更低的成本為用戶培訓(xùn)定制化的大語言模型。
DBRX(通用大語言模型):DBRX是Databricks下一代GenAI產(chǎn)品的核心支柱,是由Databricks創(chuàng)建的開放的通用大語言模型,采用了創(chuàng)新的先進(jìn)技術(shù)。它為開放社區(qū)和企業(yè)提供了構(gòu)建定制化大語言模型的功能,可供Databricks客戶通過應(yīng)用程序接口使用。根據(jù)Databricks的測試,它超過了GPT-3.5,與Gemini 1.0 Pro有相似的競爭力。另外,DBRX在開放模型中提高了效率,是同類型的模型計算速度的2倍。
Delta Lake(構(gòu)建湖屋架構(gòu)的存儲框架):Delta Lake是DataBricks公司開源的、用于構(gòu)建數(shù)據(jù)湖屋架構(gòu)的存儲框架,是可以在開放格式之間自動即時轉(zhuǎn)換的開放格式存儲層,能夠支持Spark、Flink、Hive、PrestoDB、Trino等查詢計算引擎。數(shù)據(jù)湖和數(shù)據(jù)庫、數(shù)據(jù)倉庫一樣,都是數(shù)據(jù)存儲的設(shè)計模式。區(qū)別在于,數(shù)據(jù)庫和數(shù)據(jù)倉庫通常采用明確的模式設(shè)計,即先定義好數(shù)據(jù)模型和數(shù)據(jù)結(jié)構(gòu),再將數(shù)據(jù)整合到這個模型中,因此數(shù)據(jù)庫和數(shù)據(jù)倉庫更固定、更靜態(tài);而數(shù)據(jù)湖則更注重數(shù)據(jù)的采集和存儲,采用更靈活的架構(gòu)對各種異構(gòu)的數(shù)據(jù)源和數(shù)據(jù)格式進(jìn)行處理,因此數(shù)據(jù)湖更加動態(tài)和靈活。數(shù)據(jù)湖屋結(jié)合了兩者的優(yōu)勢,并且通過打通數(shù)據(jù)湖和數(shù)據(jù)倉庫,能有效消除用戶組織內(nèi)部的數(shù)據(jù)壁壘。
Data Streaming(數(shù)據(jù)流):Databricks數(shù)據(jù)智能平臺極大地簡化了數(shù)據(jù)流,在一個平臺上提供實時分析、機(jī)器學(xué)習(xí)和應(yīng)用程序。Data Streaming能夠幫助用戶使用已知的語言和工具構(gòu)建數(shù)據(jù)平臺,通過自動化構(gòu)建和維護(hù)實時數(shù)據(jù),簡化開發(fā)和操作流程,并通過流的方式批量處理數(shù)據(jù),消除數(shù)據(jù)孤島。Spark結(jié)構(gòu)化流是實現(xiàn)Databricks數(shù)據(jù)智能平臺上數(shù)據(jù)流的核心技術(shù),為批處理和流處理提供統(tǒng)一的應(yīng)用程序接口。Databricks是運行Apache Spark工作負(fù)載的最佳場所,其托管服務(wù)能夠達(dá)到99.95%的正常運行率。
MLflow(開源的機(jī)器學(xué)習(xí)平臺):MLflow是一個能夠覆蓋機(jī)器學(xué)習(xí)全流程(從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練到最終部署)的平臺,旨在簡化數(shù)據(jù)科學(xué)家構(gòu)建、測試和部署機(jī)器學(xué)習(xí)模型的復(fù)雜過程。MLflow的第一個alpha版本有三個組件,其中"跟蹤"組件(Tracking)支持記錄和查詢實驗周圍的數(shù)據(jù),如評估指標(biāo)和參數(shù);"項目"組件(Projects)提供了可重復(fù)運行的簡單包裝格式;"模型"組件(Models)提供了管理和部署模型的工具。
相關(guān)事件 編輯本段
2024年,Databricks陷入了一場版權(quán)糾紛。多名作家在舊金山聯(lián)邦法院對Databricks提起集體訴訟,指控該公司在訓(xùn)練大模型時“未經(jīng)同意、未經(jīng)認(rèn)可、無補(bǔ)償”地復(fù)制和借鑒了他們的書籍。根據(jù)起訴書,Databricks被指控使用盜版數(shù)字電子書庫Books3的數(shù)據(jù)訓(xùn)練了公司旗下的大模型MosaicML。原告認(rèn)為,Databricks收購了MosaicML公司,而MosaicML生產(chǎn)MPT系列大型語言模型中使用了含有盜版內(nèi)容的數(shù)據(jù)集進(jìn)行訓(xùn)練,因此構(gòu)成著作權(quán)侵權(quán)。這一事件對Databricks的聲譽(yù)和市場形象造成了一定的影響。
附件列表
詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。

