ER/Studio生成數(shù)據(jù)庫設(shè)計文檔
用ER/Studio生成數(shù)據(jù)庫設(shè)計文檔之前,至少應(yīng)該完成數(shù)據(jù)庫的邏輯模型(Logical Model),如果有需要,再進一步可以生成物理模型( Model)。之后,就可以通過導(dǎo)出報告( Reports)來生成數(shù)據(jù)庫設(shè)計文檔了,步驟如下:
1、導(dǎo)出報告( Reports)
2、設(shè)置導(dǎo)出報告的格式、路徑、名稱等
在彈出的ER/Studio Report Wizard對話框中,Page 1 of 4,設(shè)置設(shè)置導(dǎo)出報告的格式、路徑、名稱。
首先選擇導(dǎo)出的報告類型,即圖中步驟1。由于通常數(shù)據(jù)庫設(shè)計文檔需要查看方便、最好可編輯,所以選擇后面的RTF格式。而選擇HTML report會生成htm格式的文件,此處就不細講了。
接著分別設(shè)置文件生成路徑、生成文件的名稱,分別為圖中2和3。
下面的兩個部分分別是,選擇導(dǎo)出報告的設(shè)置文件、在設(shè)置完成后是否直接查看生成的文件。
設(shè)置完以上信息后,點擊next。
3、設(shè)置導(dǎo)出的內(nèi)容項
在左側(cè)樹狀圖中選擇需要導(dǎo)出的表,右側(cè)的樹狀圖中分別勾選
Entity/Table->Detail->General ->Name
設(shè)置完之后點擊next。
4、導(dǎo)出文件頁面格式設(shè)置
在Page Break Options中點擊“ All”。點擊next。
5、文件封面信息設(shè)置、保存導(dǎo)出設(shè)置
設(shè)置導(dǎo)出報告文件的名稱、 作者、公司、版權(quán)、版本、時間等信息,這些內(nèi)容將顯示在文件的封面上。下方的版塊則是對本次導(dǎo)出報告文件設(shè)置的保存,便于之后類似報告的快速導(dǎo)出設(shè)置。
設(shè)置完成后,點擊finish。導(dǎo)出的報告文件會在生成后自動在word等編輯器中彈出預(yù)覽。
這樣的文檔只要修改部分內(nèi)容,調(diào)整格式之后就可以成為一份數(shù)據(jù)庫設(shè)計書了。
【白話數(shù)據(jù)分析】聊聊數(shù)分中的“相關(guān)性分析”
00寫在前面
很久沒有更新文章了,很多粉絲也在不斷地催更,之所以一直沒有更新,一方面不想因為更新而更新,這樣出來的內(nèi)容質(zhì)量也不高,另一方面,我公眾號的文章都是按照系列更新的,并不是零散的知識點,這樣更便于大家系統(tǒng)地查看,如果大家有看過,應(yīng)該注意到,到目前為止,我已經(jīng)更新了【初識數(shù)據(jù)分析】、【數(shù)據(jù)分析思維】、【數(shù)據(jù)分析工具】、【數(shù)據(jù)分析統(tǒng)計學(xué)】、【數(shù)據(jù)分析面試寶典】、【機器學(xué)習(xí)】等6個系列,所以我也一直在思考,接下來和大家聊一聊哪些話題、寫哪個系列。
不知道大家有沒有類似的經(jīng)歷?有沒有曾經(jīng)因為追求高端的算法和工具而沒有及時交付最終的業(yè)務(wù)結(jié)果,最后被老板一通批評;有沒有拿著一個單點的數(shù)據(jù)分析結(jié)果就給出了一個全面的結(jié)論和建議;有沒有給過一些因果倒置或者“幸存者偏差”的結(jié)論,導(dǎo)致業(yè)務(wù)走了彎路。
這些經(jīng)歷大家多多少少都會遇到,為什么會犯這些錯誤?因為我們?nèi)狈α艘恍┗镜臄?shù)據(jù)分析思維。剛好最近一直在拜讀郭煒的【數(shù)據(jù)分析思維課】,講地很好,內(nèi)容深入淺出,很接地氣。我們很多人缺乏的不是數(shù)據(jù)分析的理論,而是在實際場景中應(yīng)用理論的能力,理論+實際場景=方法論,如何把看似浮在空中的理論落地到實際的工作場景中來,就需要通過簡單易懂的案例和近似白話的語言傳達出來,這也是為什么會有【白話數(shù)據(jù)分析】這個系列的原因。無論你是什么階段什么水平,我們從生活/工作中最常見的案例出發(fā),用最直白的文字把理論講清楚,真正掌握數(shù)據(jù)分析的基本思維和原理,這也是寫這個系列文章的初衷。
因為是白話,所以在這個系列文章中,沒有晦澀難懂的公式和復(fù)雜的程序,我只是希望用大白話的形式,結(jié)合工作和生活中的各種各樣的例子,學(xué)會怎樣從數(shù)據(jù)分析的角度來解決這些問題,掌握一些數(shù)據(jù)分析最基本的知識。放我們再看待同一件事情的時候,思路和以前不一樣了,可以從數(shù)據(jù)的角度來詮釋身邊發(fā)生的事情,用數(shù)據(jù)的思維來做出你的判斷。
01 什么是相關(guān)性分析?
當(dāng)我們面對海量數(shù)據(jù)時,如何從中提取有價值的信息?相關(guān)性分析是數(shù)據(jù)分析中非常重要的一環(huán),它可以幫助我們了解數(shù)據(jù)之間的關(guān)系,為我們做出更好的決策提供依據(jù)。在本篇文章中,我們將結(jié)合一個實際的業(yè)務(wù)場景,來介紹相關(guān)性分析的基本概念、步驟和應(yīng)用,并探討其局限性和注意事項。
相關(guān)性是指兩個或多個變量之間的關(guān)系程度。在數(shù)據(jù)分析中,我們通常使用相關(guān)系數(shù)來衡量變量之間的相關(guān)程度。常見的相關(guān)系數(shù)包括皮爾遜相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)、切比雪夫相關(guān)系數(shù)等等。其中,皮爾遜相關(guān)系數(shù)是最為常見的一種,它可以用來衡量兩個變量之間的線性關(guān)系程度。皮爾遜相關(guān)系數(shù)的取值范圍為-1到1,當(dāng)相關(guān)系數(shù)接近1時,說明兩個變量之間的正相關(guān)性非常強;當(dāng)相關(guān)系數(shù)接近-1時,說明兩個變量之間的負相關(guān)性非常強;當(dāng)相關(guān)系數(shù)接近0時,說明兩個變量之間沒有線性關(guān)系。
需要注意的是,相關(guān)性并不代表因果關(guān)系。兩個變量之間的相關(guān)性只是表明它們之間存在某種聯(lián)系或關(guān)聯(lián),但并不一定能夠說明其中一個變量的變化是導(dǎo)致另一個變量發(fā)生變化的原因。因此,在進行相關(guān)性分析時,我們需要同時考慮其他因素,以避免誤判。
02 相關(guān)性分析實際案例
我們以一個銷售業(yè)務(wù)場景為例來介紹相關(guān)性分析的應(yīng)用。假設(shè)某家公司銷售兩種產(chǎn)品:A和B,每月的銷售額和廣告投入如下表所示:
月份
產(chǎn)品A銷售額
產(chǎn)品B銷售額
廣告投入
10000
8000
500
12000
9000
600
13000
10000
700
14000
11000
800
15000
12000
900
16000
13000
1000
現(xiàn)在,我們想要分析廣告投入與產(chǎn)品銷售額之間的關(guān)系,以便更好地制定銷售策略。
首先,我們可以使用皮爾遜相關(guān)系數(shù)來計算廣告投入與產(chǎn)品銷售額之間的相關(guān)性。下面是具體的步驟:
計算每個月產(chǎn)品A和產(chǎn)品B的銷售額的平均值和標準差。計算每個月廣告投入的平均值和標準差。計算產(chǎn)品A銷售額和廣告投入、產(chǎn)品B銷售額和廣告投入之間的皮爾遜相關(guān)系數(shù)。
根據(jù)上述步驟,我們可以得到以下結(jié)果:
產(chǎn)品A銷售額
產(chǎn)品B銷售額
廣告投入
平均值
13333.33
9833.33
700
標準差
2287.06
2287.06
169.71
相關(guān)系數(shù)
0.981
0.981
0.988
從上表中可以看出,廣告投入與產(chǎn)品A銷售額、產(chǎn)品B銷售額之間的皮爾遜相關(guān)系數(shù)均非常高,分別為0.981。也就是說,廣告投入與銷售額之間存在非常強的正相關(guān)關(guān)系。這個結(jié)論可以幫助公司制定更好的廣告投入策略,進一步提高銷售額。
除了皮爾遜相關(guān)系數(shù)外,還有其他的相關(guān)系數(shù),如斯皮爾曼相關(guān)系數(shù)。在某些情況下,非線性關(guān)系可能更為顯著,此時可以使用斯皮爾曼相關(guān)系數(shù)進行分析。
03 相關(guān)性系數(shù)的計算方法
計算相關(guān)性系數(shù)的方法有很多種,下面介紹一些常用的方法和工具。
Excel實現(xiàn)
Excel 中的相關(guān)性函數(shù)為 CORREL,可以用于計算兩個數(shù)據(jù)系列之間的相關(guān)系數(shù)。具體使用方法如下:
打開 Excel 并新建一個工作簿。在需要計算相關(guān)系數(shù)的兩個數(shù)據(jù)系列的單元格中輸入數(shù)據(jù)。選中一個空白單元格,輸入 =CORREL(數(shù)據(jù)系列1, 數(shù)據(jù)系列2),按下回車鍵即可計算出兩個數(shù)據(jù)系列之間的相關(guān)系數(shù)。
SQL實現(xiàn)
在 SQL 中,可以使用 CORR 函數(shù)計算相關(guān)系數(shù)。具體使用方法如下:
打開 SQL 工具并連接到數(shù)據(jù)庫。編寫 SQL 語句,使用 CORR 函數(shù)計算兩個數(shù)據(jù)列之間的相關(guān)系數(shù),例如:
SELECT CORR(column1, column2) AS correlation_coefficient
FROM table_name;
Python實現(xiàn)
在 Python 中,可以使用 numpy 庫中的 函數(shù)來計算相關(guān)系數(shù)。具體使用方法如下:
#導(dǎo)入numpy庫
import numpy as np
# 將兩個數(shù)據(jù)系列轉(zhuǎn)換為 numpy 數(shù)組。
x = np.array([1, 2, 3, 4, 5])
y = np.array([6, 7, 8, 9, 10])
#使用 corrcoef 函數(shù)計算相關(guān)系數(shù)。
np.corrcoef(x, y)
這將返回一個 2x2 的數(shù)組,其中第一行第二列和第二行第一列的值就是相關(guān)系數(shù)。
除了以上介紹的方法,還有一些其他的方法和工具可以用于計算相關(guān)系數(shù),例如 MATLAB、R 等。根據(jù)實際情況選擇合適的工具和方法,可以快速、準確地計算出相關(guān)系數(shù)。
04 相關(guān)性≠因果性
雖然相關(guān)性分析在數(shù)據(jù)分析中非常重要,但是我們需要有一些注意事項。
最需要注意的一點是:相關(guān)性并不代表因果關(guān)系,兩個變量之間的相關(guān)性只是表明它們之間存在某種聯(lián)系或關(guān)聯(lián),但并不一定能夠說明其中一個變量的變化是導(dǎo)致另一個變量發(fā)生變化的原因。因此,在進行相關(guān)性分析時,我們需要同時考慮其他因素,以避免誤判。下面我們分別給出一個生活中和數(shù)據(jù)分析工作中的例子。
生活中的例子
在生活中,有一個經(jīng)典的例子是冰淇淋銷量和溺水人數(shù)之間的相關(guān)性。這個例子指出,冰淇淋銷量和溺水人數(shù)之間存在正相關(guān)關(guān)系。也就是說,當(dāng)冰淇淋銷量增加時,溺水人數(shù)也會增加。然而,這并不意味著冰淇淋銷量是導(dǎo)致溺水人數(shù)增加的原因。實際上,這個例子中的相關(guān)性是由一個更為基礎(chǔ)的因素引起的,即天氣炎熱。當(dāng)天氣炎熱時,人們更傾向于購買冰淇淋,同時也更傾向于到水中游泳,從而導(dǎo)致了冰淇淋銷量和溺水人數(shù)之間的正相關(guān)關(guān)系。
數(shù)分工作中的例子
在數(shù)據(jù)分析工作中,有一個例子是網(wǎng)站流量和用戶購買量之間的相關(guān)性。在分析這兩個變量之間的關(guān)系時,我們可能會發(fā)現(xiàn)它們之間存在正相關(guān)關(guān)系。也就是說,當(dāng)網(wǎng)站流量增加時,用戶購買量也會增加。然而,這并不意味著網(wǎng)站流量是導(dǎo)致用戶購買量增加的原因。實際上,這個例子中的相關(guān)性是由其他一些因素引起的,比如營銷活動的效果、產(chǎn)品質(zhì)量、用戶口碑等。因此,在數(shù)據(jù)分析工作中,我們需要通過更深入的分析,才能確定這兩個變量之間的因果關(guān)系,從而制定出更為有效的策略和措施。
05 相關(guān)性分析的局限性
盡管相關(guān)性分析可以幫助我們理解不同變量之間的關(guān)系,但是它也存在一些局限性,主要表現(xiàn)在:
相關(guān)性分析只能衡量線性關(guān)系,對于非線性關(guān)系,其表現(xiàn)可能不如預(yù)期。此時,可以使用其他的相關(guān)系數(shù)進行分析。相關(guān)性分析只能衡量兩個變量之間的關(guān)系,而現(xiàn)實中往往存在多個變量之間的相互作用。在這種情況下,我們需要采用更為復(fù)雜的統(tǒng)計模型,如回歸分析等。相關(guān)性可能是偶然的。在一些情況下,兩個變量之間的相關(guān)性可能只是偶然的。例如,在進行大量的數(shù)據(jù)分析時,有時候會發(fā)現(xiàn)兩個變量之間存在很高的相關(guān)性,但是這并不代表它們之間存在真正的關(guān)系。
06 總結(jié)
相關(guān)性分析是數(shù)據(jù)分析中非常重要的一環(huán),可以幫助我們了解數(shù)據(jù)之間的關(guān)系,為我們做出更好的決策提供依據(jù)。在實際應(yīng)用中,我們需要根據(jù)具體問題選擇合適的相關(guān)系數(shù)進行分析,并注意相關(guān)性分析的局限性和注意事項。
*請認真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。