一、系統(tǒng)結(jié)構(gòu)
流程:源數(shù)據(jù)層—>數(shù)據(jù)加工層—>數(shù)據(jù)倉庫層—>數(shù)據(jù)應用層—>數(shù)據(jù)訪問層
左側(cè):結(jié)構(gòu)化數(shù)據(jù)(Mysql)(研究)
右側(cè):非結(jié)構(gòu)化數(shù)據(jù)(Hadoop)(不研究)
二、目標|群體
目標:熟悉數(shù)據(jù)倉庫的框架結(jié)構(gòu)、概念和步驟
群體:適合數(shù)據(jù)倉庫的入門數(shù)據(jù)分析小白群體
排版:極簡
三、分析步驟
1、結(jié)構(gòu)化數(shù)據(jù)倉庫系統(tǒng)
數(shù)據(jù)倉庫系統(tǒng)
流程:數(shù)據(jù)源—>ETL—>數(shù)據(jù)倉庫(數(shù)據(jù)集市)|數(shù)據(jù)倉庫服務器—>OLAP服務器—>數(shù)據(jù)應用(高級報表、多維分析、數(shù)據(jù)挖掘)
數(shù)據(jù)倉庫系統(tǒng):由數(shù)據(jù)源、集成工具(ETL)、數(shù)據(jù)倉庫與數(shù)據(jù)倉庫服務器、OLAP服務器、元數(shù)據(jù)與元數(shù)據(jù)管理工具、數(shù)據(jù)集市和前臺分析工具等組成。
2、數(shù)據(jù)源
數(shù)據(jù)源:外部數(shù)據(jù)、操作型數(shù)據(jù)庫、訂單系統(tǒng)、商家系統(tǒng)、客戶系統(tǒng)、客服系統(tǒng)等
3、數(shù)據(jù)存儲和管理
ETL(Extract - - Load ):數(shù)據(jù)抽取()、清洗()、轉(zhuǎn)換()、加載(Load)工具,簡稱為ETL工具,完成數(shù)據(jù)的集成。
數(shù)據(jù)抽取:就是從數(shù)據(jù)源中選擇數(shù)據(jù)倉庫需要的數(shù)據(jù)。數(shù)據(jù)抽取的技術(shù)難點在于要針對不同平臺、不同結(jié)構(gòu)、不同廠商的數(shù)據(jù)庫,設(shè)計不同的抽取工具。
數(shù)據(jù)清洗:為了保證數(shù)據(jù)的質(zhì)量,對抽取得到的數(shù)據(jù)要進行清洗,例如,消除不一致性(同名異義、異名同義等)、統(tǒng)一計量單位、估算默認值,等等。
數(shù)據(jù)轉(zhuǎn)換:是將清洗后的數(shù)據(jù)按照數(shù)據(jù)倉庫的主題進行組織。
數(shù)據(jù)加載,就是將數(shù)據(jù)裝入數(shù)據(jù)倉庫中。
ELT:(Extract - Load- ):方法與ETL相反。
數(shù)據(jù)庫(DB):簡而言之可視為電子化的文件柜,存儲電子文件的處所,用戶可以對文件中的數(shù)據(jù)進行新增、截取、更新、刪除等操作。
操作數(shù)據(jù)存儲(ODS: Data Store):是數(shù)據(jù)倉庫體系結(jié)構(gòu)中的一個可選部分,ODS具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當前或接近當前的、不斷變化的”數(shù)據(jù)。
數(shù)據(jù)倉庫(DW):面對主題、集成、不可更新、隨時間不斷變化的數(shù)據(jù)集合,用以更好地支持企業(yè)或組織的決策分析處理。
數(shù)據(jù)倉庫服務器(data server),負責管理數(shù)據(jù)倉庫中的數(shù)據(jù),存儲企業(yè)級的數(shù)據(jù),為整個企業(yè)的數(shù)據(jù)分析提供一個完整的、統(tǒng)一的視圖。一般由關(guān)系數(shù)據(jù)庫管理系統(tǒng)擴展而成。
數(shù)據(jù)集市:是一種小型的數(shù)據(jù)倉庫。它通常有較少的主題域,因此細節(jié)數(shù)據(jù)以及歷史數(shù)據(jù)都較少,是部門級的。數(shù)據(jù)集市面向部門級的應用,一般只能為某個部門的管理人員服務,因此也稱之為部門級數(shù)據(jù)倉庫。
數(shù)據(jù)集市:從屬型數(shù)據(jù)集市和獨立型數(shù)據(jù)集市,“自上而下“地建立數(shù)據(jù)倉庫是從屬型數(shù)據(jù)集市,“自下向上”地建立數(shù)據(jù)倉庫是獨立型數(shù)據(jù)集市。
企圖由數(shù)據(jù)集市直接升級為數(shù)據(jù)倉庫的做法,實際上是避開了數(shù)據(jù)倉庫建設(shè)中必須面對的核心問題:組織問題和設(shè)計問題。一個完全由數(shù)據(jù)集市簡單疊加而成的“數(shù)據(jù)倉庫”,不可能成為真正有用的決策分析平臺。首先,數(shù)據(jù)集市設(shè)計中的不全面性導致了它不可能具有數(shù)據(jù)倉庫所需要的長期穩(wěn)定的體系結(jié)構(gòu)。同時,這種簡單疊加的“數(shù)據(jù)倉庫”不僅會影響企業(yè)原有的業(yè)務系統(tǒng),而且也會影響先期建立的數(shù)據(jù)集市,任何一方的輕微變動都可能給其他系統(tǒng)帶來自底向上的一系列大的變動。
4、分析和挖掘引擎
OLAP服務器(Online :在線數(shù)據(jù)分析程序):對分析需要的數(shù)據(jù)按照多維數(shù)據(jù)模型進行再次重組,以支持用戶多角度、多層次的數(shù)據(jù)分析。其具體實現(xiàn)可以分為:ROLAP、MOLAP、HOLAP以及特殊SQL服務器。
元數(shù)據(jù):是整個數(shù)據(jù)倉庫的所有描述性信息(描述數(shù)據(jù)的數(shù)據(jù)),例如列名,或描述結(jié)構(gòu)、功能等。
5、應用
image.png
查詢報表:制作各類表格式數(shù)據(jù)報表、圖形報表的工具,代表軟件EXCEL
多維分析
多維分析:將數(shù)據(jù)存放在一個n維數(shù)組中,而不是像關(guān)系數(shù)據(jù)庫那樣以記錄的形式存放,代表軟件Tableau、FindBI。
多維分析
多維分析方法:切塊、切片、旋轉(zhuǎn)、鉆取、上卷。
數(shù)據(jù)挖掘分類
數(shù)據(jù)挖掘:數(shù)據(jù)庫中挖掘信息的過程,代表軟件:SAS、SPSS
數(shù)據(jù)倉庫使用對象:操作層(基層程序員)—>數(shù)據(jù)倉庫層(企業(yè)高層或DSS分析員)—>部門|數(shù)據(jù)集市(部門級)—>個體層(主管經(jīng)理層|)
四、設(shè)計數(shù)據(jù)倉庫
1、主要步驟:
數(shù)據(jù)倉庫的規(guī)劃和需求分析()—>數(shù)據(jù)倉庫的建模—>數(shù)據(jù)倉庫的物理模型設(shè)計—>數(shù)據(jù)倉庫的部署—>數(shù)據(jù)倉庫的維護。
2、設(shè)計示意:
五、疑問解答
1、關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫區(qū)別?
2、DB、ETL、DW、OLAP、DM、BI關(guān)系區(qū)別?
①、DB//數(shù)據(jù)庫——這里一般指的就是OLTP數(shù)據(jù)庫,在線事物數(shù)據(jù)庫,用來支持生產(chǎn)的,比如超市的買賣系統(tǒng)。DB保留的是數(shù)據(jù)信息的最新狀態(tài),只有一個狀態(tài)!比如,每天早上起床洗臉照鏡子,看到的就是當時的狀態(tài),至于之前的每天的狀態(tài),不會出現(xiàn)的你的眼前,這個眼前就是db。
②、DW/Data /數(shù)據(jù)倉庫——這里保存的是DB中的不同時間點的狀態(tài),比如,每天早上洗完照鏡子時,都拍一張照片,天天這樣,這些照片放入到一個相冊中,之后就可以查看每一天的狀態(tài)了,這個相冊就是數(shù)據(jù)倉庫,他保存的是數(shù)據(jù)在不同時間點的狀態(tài),對同一個數(shù)據(jù)信息,保留不同時間點的狀態(tài),就便于我們做統(tǒng)計分析了。
③、ETL/--Loading——用于完成DB到DW的數(shù)據(jù)轉(zhuǎn)存,它將DB中的某一個時間點的狀態(tài),“抽取”出來,根據(jù)DW的存儲模型要求,“轉(zhuǎn)換”一下數(shù)據(jù)格式,然后再“加載”到DW的一個過程,這里需要強調(diào)的是,DB的模型是ER模型,遵從范式化設(shè)計原則,而DW的數(shù)據(jù)模型是雪花型結(jié)構(gòu)或者星型結(jié)構(gòu),用的是面向主題,面向問題的設(shè)計思路,所以DB和DW的模型結(jié)構(gòu)不同,需要進行轉(zhuǎn)換。
④、OLAP——在線分析系統(tǒng),簡單說就是報表系統(tǒng),銷售報表,統(tǒng)計報表,等等,這個大家都熟悉,當然,OLAP的統(tǒng)計要更復雜更豐富一些,比如切面,鉆取等等。
⑤、DM/Data Mining/數(shù)據(jù)挖掘——這個挖掘,不是簡單的統(tǒng)計了,他是根據(jù)概率論的或者其他的統(tǒng)計學原理,將DW中的大數(shù)據(jù)量進行分析,找出我們不能直觀發(fā)現(xiàn)的規(guī)律,比如,如果我們每天早上照相,量身材的時候,還記錄下頭一天吃的東西,黃瓜,豬腿,烤鴨,以及心情,如果記錄上10年,形成了3650天的相貌和飲食心情的數(shù)據(jù),我們每個人都記錄,有20萬人記錄了,那么,我們也許通過這些記錄,可以分析出,身材相貌和飲食的客觀規(guī)律;再說一個典型的實例,就是英國的超市,在積累了大量數(shù)據(jù)之后,對數(shù)據(jù)分析挖掘之后,得到了一個規(guī)律:將小孩的尿布和啤酒放在一起,銷量會更好——業(yè)務專家在得到該結(jié)論之后,仔細分析,知道了原因,因為英國男人喜歡看足球的多,老婆把小孩介紹男人看管,小孩尿尿需要尿布,而男人看足球喜歡喝酒,所以兩樣商品有密切的關(guān)系,放在一起銷售會更好!
⑥、BI/ /商業(yè)智能——領(lǐng)導,決策者,在獲取了OLAP的統(tǒng)計信息,和DM得到的科學規(guī)律之后,對生產(chǎn)進行適當?shù)恼{(diào)整,比如,命令超市人員將啤酒喝尿布放在一起銷售,這就反作用于DB修改存貨數(shù)據(jù)了——這就是整個BI的作用!
參考:
3、數(shù)據(jù)倉庫為什么要分層?
①、清晰數(shù)據(jù)結(jié)構(gòu):每一個數(shù)據(jù)分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。
②、數(shù)據(jù)血緣追蹤:簡單來講可以這樣理解,我們最終給業(yè)務誠信的是一能直接使用的張業(yè)務表,但是它的來源有很多,如果有一張來源表出問題了,我們希望能夠快速準確地定位到問題,并清楚它的危害范圍。
③、減少重復開發(fā):規(guī)范數(shù)據(jù)分層,開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復計算。
④、把復雜問題簡單化:講一個復雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便于維護數(shù)據(jù)的準確性,當數(shù)據(jù)出現(xiàn)問題之后,可以不用修復所有的數(shù)據(jù),只需要從有問題的步驟開始修復。
⑤、屏蔽原始數(shù)據(jù)的異常。
⑥、屏蔽業(yè)務的影響,不必改一次業(yè)務就需要重新接入數(shù)據(jù)。
4、數(shù)據(jù)倉庫如何分層?
數(shù)據(jù)運營層(ODS)、數(shù)據(jù)倉庫層/數(shù)據(jù)集市(DW)、數(shù)據(jù)產(chǎn)品層(APP)
六、概念補充
DSS( Support System):支持決策系統(tǒng)
OLTP(On-line ):操作型處理主要完成數(shù)據(jù)的收集、整理、存儲、查詢和增、刪、改操作等,主要由一般工作人員和基層管理人員完成。
OLAP(On-Line ):分析型處理是對數(shù)據(jù)的再加工,往往要訪問大量的歷史數(shù)據(jù),進行復雜的統(tǒng)計分析,從中獲取信息,因此也稱為信息型處理,主要由中高級管理人員完成。
OLTP與OLAP區(qū)別
星型模式
星形模式(Star Schema)是最常用的數(shù)據(jù)倉庫設(shè)計結(jié)構(gòu)的實現(xiàn)模式,它由一個事實表和一組維表組成,每個維表都有一個維主鍵,所有這些維組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外鍵。
雪花模式
雪花模式( Schema)是對星形模式的擴展,每一個維表都可以向外連接多個詳細類別表。
星形模式與雪花模式差異
事實星座模型
事實星座模型:需要多個事實表共享維度表,因而可以視為星形模型的集合,故亦被稱為星系模型。
三范式:
第一范式:字段是最小的的單元不可再分;
第二范式:滿足第一范式,表中的字段必須完全依賴于全部主鍵而非部分主鍵;
第三范式:滿足第二范式,非主鍵外的所有字段必須互不依賴;
七、參考文獻
《數(shù)據(jù)倉庫工具箱(第3版)-維度建模權(quán)威指南》
《數(shù)據(jù)倉庫與數(shù)據(jù)分析教程-王珊-高等教育出版社》
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵺`-電子工業(yè)出版社》
八、備注信息
若有錯誤,還望指出,我會及時更新,謝謝!
五萬七看過來 劍網(wǎng)三CTM團隊框架調(diào)整指引
雕琢版更新后,系統(tǒng)以及盒子的團隊框架都沒有了。插件下載提供的是CTM團隊框架。很多治療表示不習慣。其實這個插件調(diào)整好了非常好用的。
以下內(nèi)容提供給剛用CTM的童鞋們,會調(diào)的高手就不用看了。
首先解釋下,CTM不是國罵啦,原意應該是來自魔獸世界的一個版本叫大災變(,縮寫CTM),魔獸里很著名的團隊框架有Grid之類。劍三的團監(jiān)作者應該也是基于此開發(fā)的插件,CTM原本就是為了團隊事件監(jiān)控準備的,最早的時候綁定在一起下載,后來才分開讓玩家自選,所以兩者搭配相得益彰。
說回劍三,網(wǎng)上找的三種團隊框架截圖:
系統(tǒng)自帶:官方出品,清爽美觀。但顏色對比度不夠,容易對血量變化反應遲鈍。
盒子:丑-_-!
CTM:默認配置-亂,顏色太亮。但最適合搭配團隊事件監(jiān)控。
你可能用得著的設(shè)置:
◆關(guān)閉血量數(shù)值顯示。治療們應該對自己的奶量有大致了解,看血條的損失部分就夠了,數(shù)字太多反而繁雜。
◆讓按距離著色更好看點。舉個栗子:20尺以內(nèi)綠色、24尺以內(nèi)黃色(我還有救,奶媽快走兩步奶我一口)、24尺以上都灰色·淺。這樣放生誰一目了然。遺憾的是不能顏色反轉(zhuǎn),很多奶媽的怨念。
(如果默認暗色,掉血的高亮顯示,像這樣,大家會喜歡么?
◆小方格的長寬比例按百分比調(diào)整到合適的大小。
◆關(guān)閉臨時選擇隊友功能。如果你只是想把鼠標移到隊友的面板上,而不想改變當前目標,那么關(guān)閉它。
◆被攻擊隊友提示、被目標選中的隊友提示,如果嫌亂可以關(guān)掉。
◆關(guān)閉角色框按職業(yè)著色。有心法圖標/文字、名字著色就夠了。
◆團隊事件監(jiān)控,有些buff/debuff可以不顯示在團隊框架上,舉個例子,你不想讓大師獅子吼的無威脅氣勁出現(xiàn)在面板。
*請認真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。