數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的和時(shí)變的數(shù)據(jù)集合。它是一個(gè)綜合性的解決方案,主要用于幫助相關(guān)部門(mén)和業(yè)務(wù)人員做出更符合業(yè)務(wù)發(fā)展規(guī)律的決策。它具有分析歷史數(shù)據(jù)、集成多個(gè)來(lái)源的數(shù)據(jù)以及一致和準(zhǔn)確的數(shù)據(jù)質(zhì)量的優(yōu)勢(shì)。
數(shù)據(jù)倉(cāng)庫(kù)的最早概念可以追溯到20世紀(jì)70年代,其最初目標(biāo)是實(shí)現(xiàn)企業(yè)范圍的集成。比爾。學(xué)者Inmon最早將數(shù)據(jù)倉(cāng)庫(kù)上升到理論層面進(jìn)行分析,并提出了數(shù)據(jù)倉(cāng)庫(kù)的概念。數(shù)據(jù)倉(cāng)庫(kù)在20世紀(jì)90年代開(kāi)始流行。1994年,Ralph Kimball提出了數(shù)據(jù)集市的概念,允許構(gòu)建更小、更專用的數(shù)據(jù)倉(cāng)庫(kù)來(lái)解決企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施困難。隨著數(shù)據(jù)集市的增加,企業(yè)面臨著數(shù)據(jù)一致性的問(wèn)題。最后,比爾·恩門(mén)提出的CIF(企業(yè)信息工廠)體系結(jié)構(gòu)將數(shù)據(jù)集市集成到一個(gè)統(tǒng)一的企業(yè)信息框架中。
其基本架構(gòu)包括數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)和計(jì)算、OLAP服務(wù)器以及前端工具和應(yīng)用程序。該系統(tǒng)分為邏輯結(jié)構(gòu)、客戶機(jī)/服務(wù)器(C/S)結(jié)構(gòu)和不同的體系結(jié)構(gòu)模式。它包括五個(gè)層次:數(shù)據(jù)源、數(shù)據(jù)提取、元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)管理和數(shù)據(jù)集市,并涵蓋索引和分區(qū)等技術(shù)。因?yàn)樗鼮樽罱K用戶提供了處理所需決策信息的有效方法,所以它被廣泛應(yīng)用于銀行、金融服務(wù)、消費(fèi)品和零售及批發(fā)部門(mén),以及許多基于需求的產(chǎn)品的生產(chǎn)部門(mén)。
發(fā)展歷史 編輯本段
萌芽階段
數(shù)據(jù)倉(cāng)庫(kù)的最早概念可以追溯到麻省理工學(xué)院在20世紀(jì)70年代進(jìn)行的一項(xiàng)研究,該研究致力于開(kāi)發(fā)一個(gè)技術(shù)框架。麻省理工學(xué)院的研究人員曾經(jīng)提出一個(gè)指導(dǎo)意見(jiàn),建議將業(yè)務(wù)系統(tǒng)和分析系統(tǒng)分開(kāi),將業(yè)務(wù)處理和分析處理分為不同的級(jí)別,并采用單獨(dú)的數(shù)據(jù)存儲(chǔ)和完全不同的設(shè)計(jì)標(biāo)準(zhǔn)。
20世紀(jì)80年代初,數(shù)據(jù)庫(kù)、模型庫(kù)和方法庫(kù)的概念和方法被初步提出,這與麻省理工學(xué)院的研究成果不謀而合,并描述了一個(gè)具有決策系統(tǒng)的理想框架。然而,當(dāng)時(shí)數(shù)據(jù)庫(kù)技術(shù)還沒(méi)有廣泛應(yīng)用,理論研究多于系統(tǒng)建設(shè),以至于決策支持系統(tǒng)的開(kāi)發(fā)缺乏可操作、可實(shí)施的技術(shù)、方法和工具。于是在20世紀(jì)80年代中后期,DEC作為當(dāng)時(shí)技術(shù)最先進(jìn)的公司,集結(jié)眾人研究新的分析系統(tǒng)框架,并結(jié)合麻省理工學(xué)院的研究,創(chuàng)建了TA2(Technical Architecture 2)規(guī)范,推動(dòng)了數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展。后來(lái)在1988年,IBM愛(ài)爾蘭公司的巴里·德夫林和保羅·墨菲提出了“信息倉(cāng)庫(kù)”的概念。雖然IBM僅用于市場(chǎng)營(yíng)銷,尚未在實(shí)踐中應(yīng)用,但數(shù)據(jù)倉(cāng)庫(kù)的基本原理和體系結(jié)構(gòu)已初步形成,相關(guān)技術(shù)如關(guān)系數(shù)據(jù)訪問(wèn)、網(wǎng)絡(luò)、客戶機(jī)-服務(wù)器體系結(jié)構(gòu)和圖形界面也已基本具備。。
發(fā)展階段
1991年,比爾·恩門(mén)發(fā)表了關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)創(chuàng)性著作,解釋了數(shù)據(jù)倉(cāng)庫(kù)的必要性和好處,并提供了構(gòu)建指南。這本書(shū)奠定了他在該領(lǐng)域的權(quán)威地位,為數(shù)據(jù)倉(cāng)庫(kù)的基本理論、體系結(jié)構(gòu)和分析原理奠定了基石。
1994年,企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和實(shí)施變得越來(lái)越困難,第一家實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的公司遭遇了大規(guī)模失敗。因此,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建者和分析者開(kāi)始考慮只構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一部分,然后逐步增加它,但這種想法與比爾·恩門(mén)相反。此時(shí),Ralph Kimball提出了數(shù)據(jù)集市和詳細(xì)指導(dǎo)的概念,在傳統(tǒng)關(guān)系數(shù)據(jù)模型和多維OLTP之間建立了良好的橋梁,解決了當(dāng)前的企業(yè)級(jí)問(wèn)題。從那以后,數(shù)據(jù)集市取代數(shù)據(jù)倉(cāng)庫(kù)變得流行起來(lái)。
1996年,關(guān)于“企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門(mén)級(jí)數(shù)據(jù)集市”和“關(guān)系和多維”出現(xiàn)了“Inmon”和“Kimball”兩個(gè)對(duì)立的流派。最初,數(shù)據(jù)集市的成功實(shí)施占了上風(fēng),但隨著數(shù)據(jù)集市的增加,企業(yè)面臨數(shù)據(jù)一致性的問(wèn)題,因此數(shù)據(jù)集市被視為OLTP系統(tǒng)之一。由于數(shù)據(jù)集市經(jīng)常出錯(cuò),因此出現(xiàn)了一些新的應(yīng)用,如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和ODS。由于概念模糊,數(shù)據(jù)倉(cāng)庫(kù)被理解為OLTP。直到2001年,比爾·恩門(mén)提出的CIF(Corporation Information Factory)體系結(jié)構(gòu)終于將數(shù)據(jù)集市集成到一個(gè)統(tǒng)一的企業(yè)信息框架中。
快速發(fā)展
21世紀(jì)初,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,大數(shù)據(jù)時(shí)代即將到來(lái)。數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)的融合也成為當(dāng)前的發(fā)展趨勢(shì)。例如,在傳統(tǒng)數(shù)據(jù)源的基礎(chǔ)上,引入來(lái)自傳感器、地理信息、社交網(wǎng)絡(luò)等方面的非關(guān)系數(shù)據(jù),通過(guò)Hadoop進(jìn)行數(shù)據(jù)處理,利用數(shù)據(jù)虛擬化技術(shù)可以整合不同的數(shù)據(jù)源,然后利用壓縮技術(shù)管理更大規(guī)模的數(shù)據(jù),從而進(jìn)一步提供數(shù)據(jù)分析。隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在大數(shù)據(jù)場(chǎng)景中的廣泛應(yīng)用,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)工具逐漸被大數(shù)據(jù)工具取代,如OLAP(在線分析處理)。它是一種呈現(xiàn)綜合決策信息的方法,常用于決策支持系統(tǒng)、商業(yè)智能或數(shù)據(jù)倉(cāng)庫(kù)。其主要功能是便于大規(guī)模數(shù)據(jù)分析和統(tǒng)計(jì)并為決策提供參考和支持。
基本架構(gòu) 編輯本段
數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)包括數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)和計(jì)算、OLAP服務(wù)器以及前端工具和應(yīng)用程序。數(shù)據(jù)源主要由來(lái)自多個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)組成。數(shù)據(jù)存儲(chǔ)和計(jì)算主要負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行清洗和處理,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)元數(shù)據(jù)系統(tǒng)。OLAP服務(wù)器主要重組多維數(shù)據(jù)模型分析所需的數(shù)據(jù),支持用戶多角度、多層次的分析。前端工具和應(yīng)用主要包括數(shù)據(jù)倉(cāng)庫(kù)的查詢、分析和報(bào)表工具以及基于數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)的各種應(yīng)用。
核心成分:數(shù)據(jù)倉(cāng)庫(kù)的組成主要包括五層:數(shù)據(jù)源、數(shù)據(jù)抽取、元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)管理和數(shù)據(jù)集市。
數(shù)據(jù)源:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,主要來(lái)自大中型關(guān)系數(shù)據(jù)庫(kù)(如Oracle、SQL Server等。)、桌面數(shù)據(jù)庫(kù)(如Access、FoxBase等。)、文件和其他(如Excel、Word、圖像文件、圖形文件等。)和互聯(lián)網(wǎng)上的數(shù)據(jù)(如網(wǎng)頁(yè)和電子郵件數(shù)據(jù))。從地理上看,數(shù)據(jù)源可以分布在不同的區(qū)域。在數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)模式方面,它具有不同的結(jié)構(gòu)形式,在數(shù)據(jù)內(nèi)涵方面,它具有不同的語(yǔ)義理解。它們構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)的原始信息源,并為數(shù)據(jù)倉(cāng)庫(kù)處理數(shù)據(jù)提供了基本材料。
數(shù)據(jù)析?。簲?shù)據(jù)提取層是數(shù)據(jù)源和數(shù)據(jù)倉(cāng)庫(kù)之間的數(shù)據(jù)接口層。它的任務(wù)是將分散在網(wǎng)絡(luò)節(jié)點(diǎn)中的數(shù)據(jù)源經(jīng)過(guò)該層處理后,構(gòu)建一個(gè)統(tǒng)一平臺(tái)、統(tǒng)一結(jié)構(gòu)和統(tǒng)一語(yǔ)法(語(yǔ)義)的數(shù)據(jù)實(shí)體——數(shù)據(jù)倉(cāng)庫(kù)。因此,這一層的功能極其重要。它的主要任務(wù)是為數(shù)據(jù)倉(cāng)庫(kù)提供統(tǒng)一的數(shù)據(jù)并及時(shí)更新這些數(shù)據(jù)。一個(gè)完整的數(shù)據(jù)提取功能包括數(shù)據(jù)提取、數(shù)據(jù)轉(zhuǎn)換和清理、數(shù)據(jù)加載和刷新,它們構(gòu)成了數(shù)據(jù)提取過(guò)程的四個(gè)連續(xù)階段。因?yàn)閿?shù)據(jù)抽取由三部分組成:抽取、轉(zhuǎn)換和加載,所以通常也稱為ETL。
元數(shù)據(jù):元數(shù)據(jù)是指從數(shù)據(jù)源中的數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的轉(zhuǎn)換過(guò)程需要按照一定的規(guī)則進(jìn)行,這些規(guī)則往往由一定的規(guī)則表示。元數(shù)據(jù)通常存儲(chǔ)在元數(shù)據(jù)管理系統(tǒng)中并由其管理。元數(shù)據(jù)類似于數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù)字典,主要用于抽取和刷新,是抽取和刷新的基本依據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)管理:數(shù)據(jù)倉(cāng)庫(kù)管理一般由數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)完成,其管理方法類似于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)。因此,傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)一般經(jīng)過(guò)適當(dāng)?shù)母暮笥糜跀?shù)據(jù)倉(cāng)庫(kù)管理,例如racle、DB2和SQL Server,它們可以用作數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),有時(shí)它也可以用于特殊系統(tǒng)管理。
數(shù)據(jù)集市:數(shù)據(jù)倉(cāng)庫(kù)是反映主題的全局?jǐn)?shù)據(jù)組織,但全局?jǐn)?shù)據(jù)組織往往過(guò)于龐大。在實(shí)際應(yīng)用中,它們被設(shè)置為根據(jù)部門(mén)或特定任務(wù)反映子主題的本地?cái)?shù)據(jù)組織,這被稱為數(shù)據(jù)集市。數(shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系相當(dāng)于傳統(tǒng)數(shù)據(jù)庫(kù)中視圖和數(shù)據(jù)庫(kù)的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來(lái)自數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的一部分,通常是直接面向應(yīng)用的層。
邏輯結(jié)構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)的邏輯結(jié)構(gòu)包括三個(gè)部分:后期數(shù)據(jù)源、中間數(shù)據(jù)存儲(chǔ)管理和前期數(shù)據(jù)分析。
后數(shù)據(jù)源:主要指操作系統(tǒng)數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)信息來(lái)源廣泛,包括企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),通過(guò)相應(yīng)的數(shù)據(jù)存儲(chǔ)進(jìn)行存儲(chǔ)。
中間數(shù)據(jù)存儲(chǔ)管理:主要是在定義決策主題需求后,進(jìn)行數(shù)據(jù)建模,然后對(duì)存儲(chǔ)的數(shù)據(jù)信息進(jìn)行清洗和轉(zhuǎn)換,放入數(shù)據(jù)倉(cāng)庫(kù),劃分維度,確定數(shù)據(jù)倉(cāng)庫(kù)的物理存儲(chǔ)結(jié)構(gòu)。
前置數(shù)據(jù)分析:是指數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)經(jīng)過(guò)部門(mén)數(shù)據(jù)中心或多維數(shù)據(jù)中心,形成對(duì)用戶查詢和應(yīng)用有用的信息。在這個(gè)過(guò)程中,需要多維分析工具、數(shù)據(jù)挖掘工具、報(bào)表和查詢工具來(lái)實(shí)現(xiàn)自己的決策支持功能。
C/S結(jié)構(gòu):通用的C/S結(jié)構(gòu)不僅可以簡(jiǎn)化整個(gè)工作流程,還可以減少系統(tǒng)的數(shù)據(jù)傳輸。數(shù)據(jù)倉(cāng)庫(kù)具有這樣的典型特征,提高了整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的效率??蛻舳说闹饕δ苄枨蟀蛻艚换?、格式化查詢、報(bào)表生成等。服務(wù)器上的主要功能包括輔助決策查詢、復(fù)雜計(jì)算等綜合支持功能。
架構(gòu)模式
星形模式:星型模式是最常見(jiàn)的數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)模式,它由一個(gè)數(shù)據(jù)量大且無(wú)冗余的大型事實(shí)表和一組小型維度表組成。每個(gè)維度表都通過(guò)主鍵連接到事實(shí)表。這個(gè)模式圖就像一個(gè)恒星爆發(fā),維度表顯示在中心表周圍的射線上。
雪花圖案:雪花圖案是星形圖案的延伸,與雪花的形狀相似。該模型進(jìn)一步規(guī)范了一些維度表,將數(shù)據(jù)進(jìn)一步分解為多個(gè)詳細(xì)的類別表,并減少了事實(shí)表。
主要特征
面向主題的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照某個(gè)主題領(lǐng)域組織的。主題是一個(gè)抽象的概念,是指僅使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)用戶關(guān)心的關(guān)鍵領(lǐng)域。面向主題的數(shù)據(jù)組織方法是在更高層次上對(duì)分析對(duì)象的數(shù)據(jù)進(jìn)行完整、一致的描述,可以完整、統(tǒng)一地刻畫(huà)每個(gè)分析對(duì)象所涉及企業(yè)的數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系。
完整的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)主要是對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行整合,這些數(shù)據(jù)是在對(duì)原始分散的數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行提取和清洗的基礎(chǔ)上,經(jīng)過(guò)系統(tǒng)的加工、匯總和整理而得到的。數(shù)據(jù)倉(cāng)庫(kù)決策支持系統(tǒng)需要集成的數(shù)據(jù),而全面正確的數(shù)據(jù)是有效分析和決策的首要前提。相關(guān)數(shù)據(jù)越完整,結(jié)果就越可靠。因此,源數(shù)據(jù)的集成是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中最關(guān)鍵也是最復(fù)雜的一步。
穩(wěn)定的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)主要用于決策分析,它存儲(chǔ)相對(duì)穩(wěn)定的歷史數(shù)據(jù)。涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和定期更新。一旦某個(gè)數(shù)據(jù)被加載到數(shù)據(jù)倉(cāng)庫(kù)中,它一般會(huì)作為數(shù)據(jù)文件保存很長(zhǎng)時(shí)間,并且?guī)缀醪粫?huì)進(jìn)行任何修改或刪除。
時(shí)變:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含長(zhǎng)期歷史數(shù)據(jù),因此它總是包含一個(gè)時(shí)間維度,以便可以研究趨勢(shì)和變化。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通常記錄一個(gè)單位從過(guò)去某個(gè)時(shí)期到現(xiàn)在的信息。通常,這些信息可以對(duì)該股的發(fā)展歷史和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。
關(guān)鍵環(huán)節(jié) 編輯本段
數(shù)據(jù)析取:數(shù)據(jù)提取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程從聯(lián)機(jī)事務(wù)處理、外部數(shù)據(jù)源和脫機(jī)數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)。數(shù)據(jù)抽取主要涉及互聯(lián)、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控。
數(shù)據(jù)清理:數(shù)據(jù)清洗是數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的關(guān)鍵步驟,主要是消除錯(cuò)誤和不一致數(shù)據(jù)以及解決記錄重復(fù)問(wèn)題的過(guò)程。因此它也被稱為數(shù)據(jù)清理和數(shù)據(jù)擦洗。數(shù)據(jù)清洗主要應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和綜合數(shù)據(jù)質(zhì)量管理。
數(shù)據(jù)變換:數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)源中的數(shù)據(jù)按照轉(zhuǎn)換規(guī)則轉(zhuǎn)換為數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),轉(zhuǎn)換規(guī)則一般包括數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)表示方法、命名轉(zhuǎn)換、數(shù)據(jù)合成和數(shù)據(jù)篩選。一般情況下,數(shù)據(jù)轉(zhuǎn)換的實(shí)現(xiàn)只能通過(guò)相應(yīng)的軟件工具來(lái)實(shí)現(xiàn)。
數(shù)據(jù)挖掘技術(shù):數(shù)據(jù)挖掘是一種從超大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)和提取隱藏信息的新技術(shù)。其目的是幫助決策者發(fā)現(xiàn)JUs之間的潛在關(guān)系,并找到經(jīng)營(yíng)者忽略的因素,這些因素可能是對(duì)預(yù)測(cè)趨勢(shì)和決策行為非常有用的信息。
系統(tǒng)設(shè)計(jì) 編輯本段
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)分為五個(gè)步驟,即需求分析、概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)、物理模型設(shè)計(jì)和數(shù)據(jù)倉(cāng)庫(kù)生成。
需求分析:它是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的基礎(chǔ)。在數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)之初,我們應(yīng)該詳細(xì)了解需求。
概念模型:它是從現(xiàn)實(shí)世界到計(jì)算機(jī)世界的中間層次。通過(guò)概念模型,客觀世界中的具體問(wèn)題可以用適合計(jì)算機(jī)世界的語(yǔ)言和模型來(lái)描述。
邏輯模型設(shè)計(jì):目的是定義每個(gè)加載主題的邏輯實(shí)現(xiàn),并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)中。
物理模型設(shè)計(jì):主要目的是確定數(shù)據(jù)和其他物理相關(guān)內(nèi)容的存儲(chǔ)結(jié)構(gòu)、索引策略和存儲(chǔ)策略。
數(shù)據(jù)倉(cāng)庫(kù)的生成:它是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié)。所需的數(shù)據(jù)將從數(shù)據(jù)源中提取出來(lái),并在數(shù)據(jù)轉(zhuǎn)換后根據(jù)預(yù)定義的數(shù)據(jù)倉(cāng)庫(kù)模型最終加載到數(shù)據(jù)倉(cāng)庫(kù)中。
相關(guān)技術(shù) 編輯本段
指數(shù):索引技術(shù)的作用是提高數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)效率。有三種重要的數(shù)據(jù)倉(cāng)庫(kù)索引技術(shù):位索引技術(shù)、廣義索引技術(shù)和標(biāo)識(shí)技術(shù)。
比特索引技術(shù):位索引是數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)結(jié)構(gòu)中非常重要的索引技術(shù)。它在存儲(chǔ)數(shù)據(jù)的方式上不同于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)。它以“示例”而不是“行記錄”為單位存儲(chǔ)數(shù)據(jù),也就是說(shuō),它垂直劃分?jǐn)?shù)據(jù)。對(duì)于每條記錄,滿足查詢條件的真值和假值以“1”或“0”的形式表示,或者以該字段中不能取的值(即多位二進(jìn)制)表示。
廣義指數(shù):在從操作數(shù)據(jù)環(huán)境中提取數(shù)據(jù)并將其加載到數(shù)據(jù)倉(cāng)庫(kù)中的同時(shí),可以根據(jù)用戶的需求建立各種“廣義索引”。對(duì)于一些頻繁的查詢,建立“廣義索引”比查詢事實(shí)表快得多。廣義索引一般以元數(shù)據(jù)的形式存儲(chǔ),但其建立的目的與普通索引一樣,都是為了幫助用戶快速完成信息查詢。
識(shí)別技術(shù):使用標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)技術(shù)來(lái)存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)是非常昂貴的,而更好的替代方案是使用基于身份的技術(shù)來(lái)存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)。它的優(yōu)點(diǎn)是可以壓縮大量數(shù)據(jù),索引所有行和列,并且數(shù)據(jù)越多,識(shí)別數(shù)據(jù)就比基于標(biāo)準(zhǔn)記錄的數(shù)據(jù)更有優(yōu)勢(shì)。標(biāo)識(shí)技術(shù)是為數(shù)據(jù)庫(kù)中的每個(gè)實(shí)體創(chuàng)建一個(gè)標(biāo)識(shí),原始數(shù)據(jù)庫(kù)可以簡(jiǎn)化為一系列標(biāo)識(shí)。識(shí)別記錄后,存儲(chǔ)這些記錄的空間將大大減少。此外,數(shù)據(jù)量越大,標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)和標(biāo)識(shí)數(shù)據(jù)庫(kù)之間的存儲(chǔ)需求差異就越大,基于標(biāo)識(shí)的數(shù)據(jù)庫(kù)的優(yōu)勢(shì)就越明顯。
劃分:數(shù)據(jù)分區(qū)在數(shù)據(jù)倉(cāng)庫(kù)中非常重要,通常在應(yīng)用層。它將數(shù)據(jù)分解成小的物理單元,以便可以在小的離散單元中管理數(shù)據(jù)。這將使數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)加載更加容易,索引建立更加順利,數(shù)據(jù)歸檔更加容易。
應(yīng)用領(lǐng)域 編輯本段
銀行業(yè)務(wù):銀行部門(mén)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行市場(chǎng)研究、單個(gè)產(chǎn)品的性能評(píng)估、匯率和匯率研究以及制定營(yíng)銷計(jì)劃。通過(guò)分析持卡人的交易、消費(fèi)習(xí)慣和商戶分類,提供利潤(rùn)豐厚的議價(jià)和特殊優(yōu)惠。銀行家可以通過(guò)數(shù)據(jù)倉(cāng)庫(kù)解決方案有效地處理可用資源。幫助他們做出更好的決策可以更好地檢查消費(fèi)者數(shù)據(jù)、政府要求和市場(chǎng)趨勢(shì)。甚至一些銀行使用數(shù)據(jù)倉(cāng)庫(kù)來(lái)有效管理其可支配資源。
政府:政府公共部門(mén)可以使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行與會(huì)計(jì)相關(guān)的服務(wù),如薪酬管理、人力資源、招聘等。除了將完整的刑法數(shù)據(jù)庫(kù)連接到下屬的數(shù)據(jù)倉(cāng)庫(kù)外,政府還可以使用數(shù)據(jù)倉(cāng)庫(kù)來(lái)維護(hù)和分析稅務(wù)記錄和醫(yī)療保險(xiǎn)信息。這有助于根據(jù)模式和趨勢(shì)預(yù)測(cè)犯罪活動(dòng),查找恐怖分子檔案,評(píng)估威脅并發(fā)現(xiàn)欺詐。從前罪犯的歷史信息的數(shù)據(jù)分析中獲得的模式和趨勢(shì)可用于預(yù)測(cè)犯罪活動(dòng)。
制造業(yè)生產(chǎn)和流通:制造和分銷供應(yīng)商可以使用數(shù)據(jù)倉(cāng)庫(kù)將所有數(shù)據(jù)集成在一起。這有助于預(yù)測(cè)市場(chǎng)變化,檢查當(dāng)前模式,確定潛在的增長(zhǎng)領(lǐng)域,并最終做出積極的決策。
零售數(shù)據(jù)管理:零售商使用數(shù)據(jù)倉(cāng)庫(kù)來(lái)組織數(shù)據(jù)存儲(chǔ)。這可以密切關(guān)注產(chǎn)品、廣告活動(dòng)和消費(fèi)者購(gòu)買模式。此外,您還可以使用預(yù)測(cè)消除過(guò)程通過(guò)分析銷售額來(lái)確定快銷和滯銷產(chǎn)品線,并計(jì)算每個(gè)產(chǎn)品線的貨架空間。
保險(xiǎn)承保:數(shù)據(jù)倉(cāng)庫(kù)對(duì)于保險(xiǎn)業(yè)非常重要。它可以保存當(dāng)前客戶的記錄,并對(duì)其進(jìn)行分析以發(fā)現(xiàn)模式。除了跟蹤記錄之外,它主要用于評(píng)估數(shù)據(jù)模式和未來(lái)的客戶趨勢(shì)。保險(xiǎn)促銷和優(yōu)惠可以為每個(gè)客戶量身定制。最后,它最突出的用途是評(píng)估承保過(guò)程中的客戶風(fēng)險(xiǎn)并設(shè)定最佳保險(xiǎn)費(fèi)。
附件列表
詞條內(nèi)容僅供參考,如果您需要解決具體問(wèn)題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。
如果您認(rèn)為本詞條還有待完善,請(qǐng) 編輯
上一篇 剪映 下一篇 MES制造執(zhí)行系統(tǒng)