1節(jié) DNA的復(fù)制
教學(xué)目標(biāo)https://www.shimengyuan.com/nianji/2450.html
1.概述DNA分子的復(fù)制過程。
2.探討DNA復(fù)制的生物學(xué)意義。
3.通過學(xué)生對(duì)DNA復(fù)制的推測(cè),再次領(lǐng)悟假說—演繹方法在研究中的應(yīng)用。
4. 通過探究DNA分子復(fù)制的驗(yàn)證實(shí)驗(yàn),再次領(lǐng)悟同位素標(biāo)記法,拓寬學(xué)生解決問題的思路。
教學(xué)重難點(diǎn)
【教學(xué)重點(diǎn)】
DNA復(fù)制的條件、過程和特點(diǎn)。
【教學(xué)難點(diǎn)】
DNA分子的復(fù)制過程。
教學(xué)過程
一、導(dǎo)入新課
(建議下載使用視頻:【情境素材】DNA的復(fù)制。)
教師展示一對(duì)母女(如明星戚薇和女兒,父女等均可)的照片。教師引導(dǎo)學(xué)生思考:為什么母女這樣像?教師引導(dǎo)學(xué)生得出答案:親代的遺傳物質(zhì)通過復(fù)制傳遞給了子代。
那么,何謂DNA的復(fù)制?
所謂DNA的復(fù)制就是指以親代DNA為模板合成子代DNA的過程,1DNA→2DNA。
那么,新產(chǎn)生的DNA分子是一個(gè)全新的DNA分子嗎?
二、講授新課
(一)對(duì)DNA復(fù)制的推測(cè)
1.全保留復(fù)制:新復(fù)制出的分子直接形成,完全沒有舊的部分。
2.半保留復(fù)制:形成的分子一半是新的,一半是舊的。
3.分散復(fù)制(彌散復(fù)制):新復(fù)制的分子中新舊都有,但分配是隨機(jī)組合的。
如何來判斷DNA的復(fù)制究竟是哪種方式呢?這就需要用假說-演繹法來預(yù)測(cè)。
(二)對(duì)DNA復(fù)制方式的探究
【作出假設(shè)】DNA復(fù)制是一種半保留式的復(fù)制
每個(gè)子代DNA均由1條母鏈和1條子鏈組成。
問題1:如果DNA是半保留復(fù)制,復(fù)制后得到的子一代DNA和子二代DNA的組成是什么樣的呢?
問題2:如果要在實(shí)驗(yàn)中直觀地區(qū)別、“標(biāo)識(shí)”母鏈或子鏈,可以采取什么辦法?(放射性同位素標(biāo)記法)
問題3:如果用同位素(放射性)進(jìn)行標(biāo)記,用什么元素?(N、P)
問題4:如果親代DNA是15N的,放在14N的環(huán)境中進(jìn)行培養(yǎng),則親代、子一代、子二代DNA分別含有哪種N元素?
(親代:15N/15N-DNA (全部)
子一代:15N/14N-DNA (全部)
子二代:15N/14N-DNA(1/2) 14N/14N-DNA(1/2) )
問題5:要驗(yàn)證上述預(yù)測(cè),就要分別觀察親代和子代的情況,但實(shí)驗(yàn)中,復(fù)制后的DNA分子混合在一起的,不易分離。怎么解決這個(gè)問題?
(通過密度梯度離心使其發(fā)生分層)https://www.renjiaoshe.com/jiaocai/2046.html
【驗(yàn)證假設(shè)】
學(xué)生閱讀教材并觀察討論圖示:證明DNA進(jìn)行半保留復(fù)制的實(shí)驗(yàn)。
DNA是肉眼看不見的,如何才能分辨DNA呢?此時(shí),教師可以讓學(xué)生分析經(jīng)典實(shí)驗(yàn)中用同位素15N 標(biāo)記的方法,分析用CsCl密度梯度離心后重帶、中帶、輕帶表示的DNA分子的雙鏈構(gòu)成是怎樣的,在整個(gè)實(shí)驗(yàn)中親代、子一代、子二代細(xì)胞中提取出的DNA離心的結(jié)果說明了什么。通過層層分析,學(xué)生不僅能夠自己得出結(jié)論:DNA的確具有半保留復(fù)制的特點(diǎn),同時(shí)還能感受科學(xué)探究的魅力。
實(shí)驗(yàn)結(jié)果與預(yù)期結(jié)果一致,故證明了DNA的復(fù)制是以半保留的方式進(jìn)行的。
小結(jié):總結(jié)本實(shí)驗(yàn)假說演繹的流程。(作出假設(shè)、演繹推理、驗(yàn)證假設(shè)、得出結(jié)論)
(三)DNA復(fù)制過程
播放多媒體課件,演示DNA復(fù)制的過程,首先讓學(xué)生明確DNA并不是由原來DNA分子產(chǎn)生一個(gè)全新的DNA分子,而是DNA分子的兩條鏈分開,每一條鏈(母鏈)作為一個(gè)模板再配上一條子鏈,這樣形成的2個(gè)DNA分子每個(gè)都有一條母鏈和一條子鏈。DNA復(fù)制過程大體分為三個(gè)階段:(1)DNA雙螺旋結(jié)構(gòu)在DNA解旋酶作用下解旋成2個(gè)單鏈片段;(2)以解開的每一條單鏈片段(母鏈)為模板,遵循堿基互補(bǔ)配對(duì)原則,與提供原料中的4種脫氧核苷酸各自互補(bǔ)配對(duì),并在DNA聚合酶作用下連接成一段子鏈;(3)子鏈不斷延伸并與對(duì)應(yīng)母鏈盤繞成雙螺旋結(jié)構(gòu),形成各含一條母鏈和一條子鏈的2個(gè)DNA分子。
然后,設(shè)置問題讓學(xué)生分析DNA復(fù)制過程的特點(diǎn)、條件等,領(lǐng)會(huì)DNA的結(jié)構(gòu)和堿基互補(bǔ)配對(duì)與復(fù)制的關(guān)系。
思考:(1)DNA復(fù)制過程的特點(diǎn)有哪些?(其特點(diǎn)是邊解旋邊復(fù)制,半保留復(fù)制。)(2)DNA復(fù)制需要哪些條件?(復(fù)制需要模板、原料、酶和能量等基本條件。特別需要向?qū)W生說明的是,DNA復(fù)制所需要的酶有多種,教材中介紹的“DNA解旋酶”、“DNA聚合酶”只是其中主要的兩種。)(3)DNA復(fù)制的場(chǎng)所在哪里?在什么時(shí)間進(jìn)行的?(DNA復(fù)制的場(chǎng)所是細(xì)胞核,復(fù)制時(shí)間是在細(xì)胞有絲分裂的間期和減數(shù)第一次分裂的間期。)
教師還可結(jié)合教材經(jīng)典實(shí)驗(yàn)中大腸桿菌的半保留復(fù)制圖例,計(jì)算在第一代、第二代和第三代中含15N DNA分子的個(gè)數(shù)及所占比例,進(jìn)一步強(qiáng)調(diào)DNA半保留復(fù)制的特點(diǎn)。(建議使用知識(shí)卡片:【知識(shí)解析】“圖解法”分析DNA復(fù)制過程中的相關(guān)計(jì)算)
最后,教師可以讓學(xué)生分析子代DNA與親代DNA的堿基序列的特征,探討DNA自我復(fù)制的生物學(xué)意義。正是由于DNA分子的這一復(fù)制過程,才使得親代的遺傳信息傳遞給子代,從而使前后代保持了一定的連續(xù)性。
師生共同完成下表:
DNA分子復(fù)制產(chǎn)生出與親代相同的子代DNA分子。復(fù)制n次,得到2n個(gè)DNA分子,其中原親代DNA分子的鏈有兩條,新合成的鏈為2n+1-2個(gè),在復(fù)制過程中,所需要某種堿基數(shù)為(2n -1)a,a為DNA分子中某種堿基的數(shù)目。
三、課堂反饋
1.DNA的復(fù)制是在細(xì)胞的______分裂和______第一次分裂前的_____期進(jìn)行的。復(fù)制是指以_____________為模板來合成____________的過程。復(fù)制特點(diǎn)是______________。復(fù)制過程必需以____________________為模板、_______________為原料、_______ 提供能量、_____的催化等條件,___________________為DNA的復(fù)制提供精確的模板、并有_____________能力保證復(fù)制能夠準(zhǔn)確無誤地完成。一個(gè)親代DNA分子通過復(fù)制形成了兩個(gè)____________,新形成的DNA分子都是既含一條_____鏈、又含一條_______鏈,因此,稱DNA的復(fù)制為“_________________”。
答案:有絲 減數(shù) 間 親代DNA分子 子代DNA分子 邊解旋邊復(fù)制
親代DNA分子一條鏈 脫氧核苷酸 ATP 酶 DNA分子雙螺旋結(jié)構(gòu)
堿基互補(bǔ)配對(duì) 結(jié)構(gòu)完全相同的子代DNA分子 母 子 半保留復(fù)制
2.一個(gè)DNA分子經(jīng)過3次復(fù)制后,保留有原來母鏈的子代DNA分子占全部子代DNA分子的比例為_______; 原來的母鏈占全部脫氧核苷酸鏈的比例為______。
A.1/2 B.1/4 C.1/8 D.1/16
答案:B C
3.一雙鏈DNA分子在解旋時(shí),一條鏈上的G變成C,則DNA分子經(jīng)n次復(fù)制后,發(fā)生差錯(cuò)的DNA分子占( A )
A.1/2 B.1/(2n-1) C.1/2n D.1/(2n+1)
四、課堂小結(jié)
教師與學(xué)生一起小結(jié)本節(jié)知識(shí),學(xué)生邊講教師邊板書,或通過課件展示。
建球棍模型認(rèn)識(shí)有機(jī)化合物分子結(jié)構(gòu)的特點(diǎn)
【教學(xué)目標(biāo)】
知識(shí)與技能:
1.加深對(duì)有機(jī)化合物分子結(jié)構(gòu)的認(rèn)識(shí)。
2.初步了解使用模型研究物質(zhì)結(jié)構(gòu)的方法。
過程與方法:
1.通過搭建球棍模型真正提高學(xué)生的思維能力,歸納碳原子的成鍵特征和各類烴分子中的化學(xué)鍵類型。
2.對(duì)同分異構(gòu)體及同分異構(gòu)現(xiàn)象有一個(gè)整體的認(rèn)識(shí),能準(zhǔn)確判斷同分異構(gòu)體及其種類的多少。
情感態(tài)度與價(jià)值觀:
1.體會(huì)物質(zhì)之間的普遍性與特殊性。
2.認(rèn)識(shí)到事物不能只看到表面,要透過現(xiàn)象看本質(zhì)。
【教學(xué)重難點(diǎn)】
重點(diǎn):了解使用模型研究物質(zhì)結(jié)構(gòu)的方法。
難點(diǎn):歸納碳原子的成鍵特征和各類烴分子中的化學(xué)鍵類型,準(zhǔn)確判斷同分異構(gòu)體及其種類的多少。
【教學(xué)過程】
一、實(shí)驗(yàn)原理
有機(jī)化合物分子的立體模型常用的有凱庫勒模型和斯陶特模型。應(yīng)用最廣泛的是凱庫勒模型。它用不同大小和不同顏色的圓球代表不同的原子或官能團(tuán),用木棍代表化學(xué)鍵,因此又稱為球棍模型。
碳原子最外層有4個(gè)電子,不易失去或獲得電子而形成陽離子或陰離子。碳原子通過共價(jià)鍵與氫、氧、氮、硫、磷等多種非金屬形成共價(jià)化合物。科學(xué)實(shí)驗(yàn)證明,甲烷分子里,1個(gè)碳原子與4個(gè)氫原子形成4個(gè)共價(jià)鍵,構(gòu)成以碳原子為中心,4個(gè)氫原子位于四個(gè)頂點(diǎn)的正四面體立體結(jié)構(gòu)。鍵角均為109o28’。
鍵長:原子核間的距離稱為鍵長,越小鍵能越大,鍵越穩(wěn)定。
鍵角:分子中1個(gè)原子與另外2個(gè)原子形成的兩個(gè)共價(jià)鍵在空間的夾角,決定了分子的空間構(gòu)型。
鍵能:以共價(jià)鍵結(jié)合的雙原子分子,裂解成原子時(shí)所吸收的能量稱為鍵能,鍵能越大,化學(xué)鍵越穩(wěn)定。
二、實(shí)驗(yàn)步驟
觀察甲烷、乙烯、乙炔的球棍模型,思考碳原子的成鍵方式與分子的空間構(gòu)型、鍵角有什么關(guān)系?
觀察乙烷分子的模型
當(dāng)碳原子與4個(gè)原子以單鍵相連時(shí),碳原子與周圍的4個(gè)原子都以四面體取向成鍵。
三、問題和討論https://www.shimengyuan.com/nianji/2432.html
1.碳原子成鍵規(guī)律:
①當(dāng)一個(gè)碳原子與其他4個(gè)原子連接時(shí),這個(gè)碳原子將采取四面體取向與之成鍵。
②當(dāng)碳原子之間或碳原子與其他原子之間形成雙鍵時(shí),形成雙鍵的原子以及與之直接相連的原子處于同一平面上。
③當(dāng)碳原子之間或碳原子與其他原子之間形成叁鍵時(shí),形成叁鍵的原子以及與之直接相連的原子處于同一直線上。
④烴分子中,僅以單鍵方式成鍵的碳原子稱為飽和碳原子;以雙鍵或叁鍵方式成鍵的碳原子稱為不飽和碳原子。
⑤只有單鍵可以在空間任意旋轉(zhuǎn)。
2.二氯甲烷有同分異構(gòu)體嗎?
提示:因?yàn)榧淄榭臻g結(jié)構(gòu)為正四面體而不是平面型,所以二氯甲烷無同分異構(gòu)體。
3.4個(gè)碳原子相互結(jié)合可能有多少種方式?https://www.renjiaoshe.com/jiaocai/2055.html
提示:碳原子間能相互結(jié)合成共價(jià)鍵(單鍵、雙鍵、叁鍵……)可以形成碳鏈,也可以形成碳環(huán)。
驗(yàn)原理
假設(shè)檢驗(yàn)的目標(biāo)是拒絕原假設(shè),它的核心是證偽。先假設(shè)原假設(shè)成立,然后計(jì)算原假設(shè)反面出現(xiàn)的概率,如果概率較大,則證明原假設(shè)不成立。
對(duì)于 A/B Test 來說, p值是在實(shí)驗(yàn)組和對(duì)照組沒有差別這個(gè)前提成立的條件下,實(shí)驗(yàn)仍然檢測(cè)到差異(即極端事件出現(xiàn))的概率。如果 p值非常小,就拒絕原假設(shè),認(rèn)為實(shí)驗(yàn)組和對(duì)照組沒有差別這個(gè)前提是錯(cuò)誤的。那么怎么定義非常???這時(shí)需要 顯著性水平(significance level) 來做標(biāo)尺。
需要注意的是,統(tǒng)計(jì)顯著性不是實(shí)際顯著性(Practical significance)。p值只能告訴你兩個(gè)版本有沒有差異,并不能說明實(shí)驗(yàn)組到底比對(duì)照組好了多少。舉個(gè)例子,在某個(gè)A/B Test中,實(shí)驗(yàn)組相比對(duì)照組只有0.1%的提升, p=0.001,這說明這次實(shí)驗(yàn)是達(dá)到統(tǒng)計(jì)顯著的,但是實(shí)驗(yàn)效果卻只提升了0.1%。是否你會(huì)為了這0.1%的提升全量上線實(shí)驗(yàn)組方案,還需從成本等角度全面衡量一個(gè)實(shí)驗(yàn)的商業(yè)效果。因此不能僅憑統(tǒng)計(jì)顯著性做決策。
實(shí)驗(yàn)誤區(qū)
一類錯(cuò)誤、二類錯(cuò)誤和功效的定義如下:
H0:實(shí)驗(yàn)組之間無顯著性差異
顯著性水平 :誤報(bào),F(xiàn)alse Negative,I 類錯(cuò)誤,即 H0 為真但拒絕了的概率,1 - 置信水平(confidence level)=顯著性水平( , significance level);一般設(shè)定=5%
:漏報(bào),F(xiàn)alse Positive, II 類錯(cuò)誤,即 H0 為假但接受了的概率。樣本量較小時(shí),有增加漏報(bào)的可能(H0為假,但數(shù)據(jù)量少?zèng)]有觀測(cè)到),但是高功效需要更多的樣本量,延長測(cè)試所需要的時(shí)間
統(tǒng)計(jì)功效 Power:H0為假且拒絕,即接受H1的概率
最小提升 lift : 差異越小,需要的樣本量越多
基線轉(zhuǎn)化率: Baseline越小,相同的提升度下,所需要的樣本量越多
總結(jié):當(dāng) p<alpha 時(shí),得出拒絕 H0,接受 H1 的結(jié)論容易犯第二類錯(cuò)誤,因此還需要結(jié)合 power 來看,即觀察到 H0 為假這一判斷成立的概率。
1、誤解 p 值
p值并不是原假設(shè)事件發(fā)生的概率也不是拒絕原假設(shè)的概率,比如原假設(shè)為 Y1-Y2=0,p值并不是兩者差異為0的概率(貝葉斯檢驗(yàn)的概率是)。p值表示在原假設(shè)為真的條件下,比所得到的樣本觀察結(jié)果(檢驗(yàn)統(tǒng)計(jì)量)更極端的結(jié)果出現(xiàn)的概率,如果概率小于alpha值,說明小概率事件發(fā)生,而我們認(rèn)為小概率事件是不會(huì)發(fā)生的(或者說如果在原假設(shè)真實(shí)存在的條件下,不太應(yīng)該出現(xiàn)這個(gè)事件,但是出現(xiàn)了該事件,那么更有可能是在備擇假設(shè)存在的條件下產(chǎn)生的),那么就說明原假設(shè)錯(cuò)誤。所以說 p 值說明不了任何事。它僅僅是以預(yù)期比較為基礎(chǔ)的一種方法,幫助我們做出一個(gè)相對(duì)合理的決策。比如原假設(shè)一枚硬幣是均勻的,但發(fā)現(xiàn)連續(xù)拋5次硬幣都為正面,而這個(gè)事件(統(tǒng)計(jì)量)的概率為 小于0.05(alpha值,為極端值出現(xiàn)或小概率事件發(fā)生的最大概率),認(rèn)為這是小概率事件,不可能發(fā)生,因此這是一枚不均勻的硬幣。
2、缺乏統(tǒng)計(jì)功效
統(tǒng)計(jì)功效 power=p(拒絕H0|H0為假),解釋為真實(shí)情況為H0為假時(shí),觀測(cè)結(jié)果能正確檢測(cè)出來的概率,即為統(tǒng)計(jì)檢驗(yàn)結(jié)果正確的‘拒絕零假設(shè)”(H0)的概率。因此當(dāng) p<alpha時(shí),還需要看power是否達(dá)到一定的條件(樣本量是否充足),才能判斷是否有顯著差異。因?yàn)榻Y(jié)合上面對(duì)p值含義的解釋可以發(fā)現(xiàn),再微小的差異,達(dá)到足夠大的樣本量和測(cè)量精度,都能得到有統(tǒng)計(jì)學(xué)意義的P值;再大的差異,在樣本量過小和測(cè)量精度不那么高的時(shí)候,也可能只能得到P>0.05。所以在實(shí)驗(yàn)研究中不應(yīng)該唯P值是論,單看P值大小并不代表實(shí)際的差異大小,實(shí)際差異要看 effect size。實(shí)驗(yàn)預(yù)期是拒絕原假設(shè),那么在實(shí)驗(yàn)開始前需要設(shè)定power的大小,反推出實(shí)驗(yàn)所需的樣本量,當(dāng)達(dá)到該樣本量時(shí),實(shí)驗(yàn)結(jié)論才會(huì)更準(zhǔn)確。
假設(shè)檢驗(yàn)的功效受以下幾個(gè)因素影響:
樣本量 (n):其他條件保持不變,樣本量越大,功效就越大。
顯著性水平 (α):其他條件保持不變,顯著性水平越低,功效就越小。
兩總體之間的差異:其他條件保持不變,總體參數(shù)的真實(shí)值和估計(jì)值之間的差異越大,功效就越大。也可以說,效應(yīng)量(effect size)越大,功效就越大。
標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差越小,代表兩組差異的趨勢(shì)越穩(wěn)定,越容易觀測(cè)到顯著的統(tǒng)計(jì)結(jié)果,功效越大。
統(tǒng)計(jì)功效的計(jì)算
原假設(shè)與備擇假設(shè)如下:
令 ,按照二類錯(cuò)誤的概念,假設(shè) ,有
代表 A 組的樣本數(shù)量, 代表 B 組的樣本數(shù)量。K 為 與 的比值,這個(gè)值一般情況下,我們都默認(rèn)為1,即 A、B 兩組的用戶數(shù)量相等,方便做嚴(yán)謹(jǐn)?shù)腁B實(shí)驗(yàn)對(duì)比。可以看到所需樣本量大小與以下四個(gè)變量有關(guān)系,在其他三個(gè)變量都確定的情況下,統(tǒng)計(jì)功效與樣本量成正比,因此通常在實(shí)驗(yàn)開始前計(jì)算達(dá)到功效需要多少樣本量:
顯著性水平 :顯著性水平越低,對(duì)實(shí)驗(yàn)結(jié)果的要求也就越高,越需要更大的樣本量來確保精度
統(tǒng)計(jì)功效 :統(tǒng)計(jì)功效意味著避免犯二類錯(cuò)誤的概率,這個(gè)值越大,需要的樣本量也越大
均值差異 :如果兩個(gè)版本的均值差別巨大,也不太需要多少樣本,就能達(dá)到統(tǒng)計(jì)顯著
標(biāo)準(zhǔn)差 :標(biāo)準(zhǔn)差越小,代表兩組差異的趨勢(shì)越穩(wěn)定。越容易觀測(cè)到顯著的統(tǒng)計(jì)結(jié)果
根據(jù)實(shí)驗(yàn)的預(yù)期結(jié)果確定實(shí)驗(yàn)所需最小流量,可以通過現(xiàn)有網(wǎng)站工具計(jì)算所需樣本量:
https://www.evanmiller.org/ab-testing/sample-size.html
如果預(yù)期提升的指標(biāo)是人均時(shí)長、人均收入等,需要運(yùn)用 t 檢驗(yàn)反算需要的樣本量:
https://www.evanmiller.org/ab-testing/t-test.html
3、實(shí)驗(yàn)中窺視實(shí)驗(yàn)并下結(jié)論的后果
即實(shí)驗(yàn)中途查看實(shí)驗(yàn)結(jié)果并因此判斷實(shí)驗(yàn)結(jié)論,造成實(shí)驗(yàn)結(jié)論犯第一類錯(cuò)誤率提高。窺視實(shí)驗(yàn)結(jié)果對(duì)實(shí)驗(yàn)的有效統(tǒng)計(jì)意義會(huì)產(chǎn)生不利影響。它實(shí)際上大大增加了誤報(bào)的可能性,并使置信區(qū)間不可信。
背景: 假設(shè)模擬兩個(gè)方案的 10,000 個(gè)轉(zhuǎn)化事件,其中兩個(gè)方案的轉(zhuǎn)化率均為 10%。由于轉(zhuǎn)化率相同,因此進(jìn)行實(shí)驗(yàn)時(shí),應(yīng)該檢測(cè)到轉(zhuǎn)化率提升度沒有差異。
問題: 如果使用 95% 的置信水平,當(dāng)收集所有 10,000 個(gè)觀測(cè)值之后,測(cè)試結(jié)果為預(yù)期的 5% 誤報(bào)率(I 類錯(cuò)誤)。因此,如果我們運(yùn)行 100 個(gè)這樣的測(cè)試,則平均會(huì)得到 5 個(gè)誤報(bào)(實(shí)際上在此示例中,所有的顯著性結(jié)論都是錯(cuò)誤的,因?yàn)閮蓚€(gè)方案之間的轉(zhuǎn)化率沒有差異,我們荏苒檢測(cè)到具有統(tǒng)計(jì)意義的提升)。但是,如果我們?cè)趯?shí)驗(yàn)過程中進(jìn)行 10 次評(píng)估(每 1,000 個(gè)觀測(cè)值評(píng)估一次),結(jié)果會(huì)顯示誤報(bào)率高達(dá) 40%。對(duì)測(cè)試進(jìn)行監(jiān)控使出現(xiàn)誤報(bào)的可能性增加了三倍以上!這是怎么回事?
原因: 如果使用 95% 的置信水平計(jì)算10次實(shí)驗(yàn),總體誤報(bào)率Pr(至少一個(gè)誤報(bào))=1- Pr(沒有誤報(bào))=1 - 0.95^10=40% 則大約40%的概率會(huì)檢測(cè)到一個(gè)或多個(gè)誤報(bào)。
當(dāng)檢測(cè)到具有統(tǒng)計(jì)意義的結(jié)果時(shí)停止實(shí)驗(yàn)。但是,如果該結(jié)果不具有統(tǒng)計(jì)意義,則會(huì)繼續(xù)測(cè)試。這種操作情況極易偏向于尋求顯著差異的結(jié)果,這樣就扭曲了測(cè)試的有效顯著性水平。
如何解決? 要避免此問題,應(yīng)該在開始測(cè)試之前,先確定足夠的測(cè)試運(yùn)行時(shí)間。雖然在測(cè)試過程中查看測(cè)試結(jié)果以確保測(cè)試正確運(yùn)行是可以的,但在達(dá)到所需訪客數(shù)量之前,請(qǐng)勿得出結(jié)論或停止測(cè)試。換言之,不要作弊。對(duì)于需要分段測(cè)試的實(shí)驗(yàn),即分職業(yè)、年齡等屬性分段查看實(shí)驗(yàn)結(jié)果,需要Bonferroni 校正?;蛟O(shè)計(jì)序貫實(shí)驗(yàn)。
4、多組比較
主要有以下的場(chǎng)景:
查看對(duì)比多組實(shí)驗(yàn)的指標(biāo)
在不同時(shí)間peeking
查看不同分組群的指標(biāo)
重復(fù)實(shí)驗(yàn)結(jié)果對(duì)比
5、置信區(qū)間
誤區(qū):?jiǎn)为?dú)查看控制組和實(shí)驗(yàn)組的置信區(qū)間,如果重疊,那么無顯著差異。但實(shí)際案例中delta有顯著差異,依然能重疊 29%;
另一個(gè)關(guān)于置信區(qū)間的誤區(qū)是,認(rèn)為95%置信水平的置信區(qū)間有95%的概率包含真正的實(shí)驗(yàn)效應(yīng)。置信度95%說的是我們有95%的自信能說出“實(shí)驗(yàn)組轉(zhuǎn)化率相比對(duì)照組轉(zhuǎn)化率高0.8-1.2%”這句話。從概率論的角度解釋,就是在其他參數(shù)不變的情況下,如果我們重復(fù)做同樣的實(shí)驗(yàn)100次,那么有95次得出的實(shí)驗(yàn)組和對(duì)照組的轉(zhuǎn)化率差異都在0.8%-1.2%這個(gè)區(qū)間內(nèi)。
6、內(nèi)部有效性問題
違反SUTVA假設(shè):即實(shí)驗(yàn)個(gè)體之間相互不影響,而社交網(wǎng)絡(luò)、通訊網(wǎng)絡(luò)、協(xié)同工具、雙邊市場(chǎng)、共享經(jīng)濟(jì)平臺(tái)的個(gè)體都違反了SUTVA假設(shè),因此一般采用聚類作為隨機(jī)單元。
幸存者偏差:針對(duì)一段時(shí)間才活躍的用戶實(shí)驗(yàn),存在嚴(yán)重的幸存者偏差問題。
ITT(Intent to Treat):剔除不服從實(shí)驗(yàn)干預(yù)的用戶,其實(shí)驗(yàn)結(jié)論將產(chǎn)生偏差。所以實(shí)驗(yàn)計(jì)算應(yīng)該是從分配(assignment)開始,而不是真正執(zhí)行了 treatment 的用戶
SRM(Sample Ratio Mismatch): 實(shí)驗(yàn)組與對(duì)照組的用戶數(shù)量在統(tǒng)計(jì)上與配置的比例不同。比如對(duì)照組和實(shí)驗(yàn)組各分配 50%的流量,結(jié)果對(duì)照組 821, 588 個(gè)用戶,實(shí)驗(yàn)組 815, 482 個(gè)用戶,比率為0.993,但是按照實(shí)驗(yàn)配置的比例應(yīng)該為1.0,以上樣本比率大于 0.993 的概率在 1.8E-6(p值),結(jié)論為按照實(shí)驗(yàn)1:1的流量配比而得到結(jié)果的概率為1.8E-6,因此有理由懷疑實(shí)驗(yàn)出現(xiàn)了bug,實(shí)驗(yàn)結(jié)論不可信。
SRM 成因:
隨機(jī)化有問題
Data Pipeline 問題,比如數(shù)據(jù)收集問題
殘留效應(yīng),指每個(gè)試驗(yàn)階段對(duì)后一階段的延滯作用。比如實(shí)驗(yàn)出現(xiàn)了bug,分析日期從修復(fù)好bug當(dāng)天開始,一開始出現(xiàn)的bug會(huì)對(duì)用戶有殘留效應(yīng),就會(huì)出現(xiàn) SRM 問題
不合適的觸發(fā) (trigger) 條件,實(shí)驗(yàn)觸發(fā)的用戶需要包含應(yīng)被treat的用戶,比如網(wǎng)站重定向問題
基于影響實(shí)驗(yàn)的屬性作為觸發(fā)條件,比如依據(jù)機(jī)器學(xué)習(xí)算法結(jié)果來觸發(fā),因?yàn)殡S著實(shí)驗(yàn)進(jìn)行,模型會(huì)更新,且模型會(huì)持續(xù)受實(shí)驗(yàn)組的效應(yīng)影響。
如何判斷 SRM
需要使用統(tǒng)計(jì)檢驗(yàn),如卡方統(tǒng)計(jì)量檢驗(yàn)SRM問題,以確定在實(shí)驗(yàn)變量中觀察到的用戶分布是否在統(tǒng)計(jì)上與配置的用戶分布不同。使用的閾值是保守的,以減少假陽性的可能性: p值 <
如何debug SRM
驗(yàn)證隨機(jī)化點(diǎn)或觸發(fā)點(diǎn)上游沒有差異
驗(yàn)證實(shí)驗(yàn)分配是否正確
檢查data pipelines
檢查實(shí)驗(yàn)各組是否沒有一同開始,比如時(shí)段效應(yīng),不同時(shí)間段的活躍用戶率不同,如果設(shè)置不同組的開始時(shí)間不同,那么會(huì)導(dǎo)致SRM
分組查看樣本比例
按每天分組
按設(shè)備等維度分組
按新老用戶等特征分組
https://mp.weixin.qq.com/s/fOdSUesYTOJT5MiTo3vLrA
7、外部有效性問題
外部有效性是指結(jié)論是否能延展到一般的場(chǎng)景。比如外推到其他國家,其他群體,或者說隨著時(shí)間的推移,該結(jié)論是否會(huì)消失。一般后者的外部有效性困難較大,時(shí)間外部有效性問題一般為新奇效應(yīng)和首因效應(yīng)。
驗(yàn)證以上問題,可以畫出關(guān)于指標(biāo)的時(shí)間序列圖,看指標(biāo)在一開始時(shí)間是否有增加或下降。處理以上的問題,可以制定更合適的指標(biāo),比如次周留存率?;蛘咴黾訉?shí)驗(yàn)的時(shí)間。
8、異質(zhì)效應(yīng)
不同群體的對(duì)比分析可以洞察更多,一般基于以下幾種類型進(jìn)行分層分析:
市場(chǎng)或者國家
設(shè)備或者平臺(tái)
周內(nèi)分天或者天內(nèi)分小時(shí)效應(yīng)
用戶類型
用戶賬號(hào)特征
9、辛普森悖論
總體和分群體的指標(biāo)趨勢(shì)不一致,主要有以下幾個(gè)情況:
用戶采樣不均勻,不同的場(chǎng)景各用戶占比不一致
用戶在某特征上的分布不均,比如在各個(gè)國家上的某些指標(biāo)不相等
實(shí)驗(yàn)指標(biāo)構(gòu)建
實(shí)驗(yàn)平臺(tái)的四個(gè)階段:
爬(~10個(gè)/year):能實(shí)現(xiàn)實(shí)驗(yàn)分析
走(~50個(gè)/year):實(shí)驗(yàn)驗(yàn)證——A/A實(shí)驗(yàn)和SRM問題驗(yàn)證;定義標(biāo)準(zhǔn)指標(biāo)
跑(~250個(gè)/year):規(guī)?;\(yùn)行實(shí)驗(yàn)
飛(~成千/year):能完成自助分析,元分析
指標(biāo)類型
目標(biāo)指標(biāo):簡(jiǎn)單且口徑較固定
評(píng)價(jià)指標(biāo):可操作性高、比目標(biāo)指標(biāo)更敏捷且直接影響目標(biāo)指標(biāo),多為一些因果模型中的中間指標(biāo),比如在線時(shí)長、點(diǎn)擊率等
護(hù)欄指標(biāo):驗(yàn)證型指標(biāo),驗(yàn)證實(shí)驗(yàn)運(yùn)行的正確性;二是保護(hù)商業(yè)的一些預(yù)警指標(biāo);數(shù)據(jù)質(zhì)量指標(biāo)
評(píng)價(jià)指標(biāo)必須能正面影響目標(biāo)指標(biāo)。一般我們只能通過潛在的 causal model 利用現(xiàn)有數(shù)據(jù)完成假設(shè)檢驗(yàn)來找到評(píng)價(jià)指標(biāo),這里有一些方法來驗(yàn)證因果關(guān)系:利用一手?jǐn)?shù)據(jù),比如調(diào)研、焦點(diǎn)訪談和用戶體驗(yàn)研究(UER)等用戶研究方法,確定影響方向和顯著性。
指標(biāo)開發(fā)
用戶研究相關(guān)方法探索 causal model 中的重要指標(biāo)
考慮指標(biāo)的質(zhì)量,什么樣的行為和口徑更能衡量該指標(biāo)
可解釋性強(qiáng)
可以用多指標(biāo)衡量同一事件,互相驗(yàn)證
指標(biāo)的評(píng)估
常見且具有挑戰(zhàn)的指標(biāo)評(píng)估是建立從驅(qū)動(dòng)指標(biāo)到目標(biāo)指標(biāo)之間的因果關(guān)系,也就是說,驅(qū)動(dòng)指標(biāo)是否真的可以驅(qū)動(dòng)目標(biāo)指標(biāo),解決因果檢驗(yàn)?zāi)壳翱梢圆捎靡韵聨追N方式:
使用調(diào)研、用戶訪談等收集一手?jǐn)?shù)據(jù)來檢驗(yàn)它們是否都指向同一方向
分析觀測(cè)數(shù)據(jù)
使用行業(yè)內(nèi)以有經(jīng)驗(yàn)
以評(píng)估指標(biāo)為主要目的運(yùn)行線上實(shí)驗(yàn)
用歷史實(shí)驗(yàn)集合做哦為“黃金”樣例來評(píng)估新的指標(biāo)
組合多個(gè)指標(biāo)為一個(gè)OEC 指標(biāo)
為什么需要?
如果只單單觀測(cè)一個(gè)指標(biāo),會(huì)局限在短期收益;比如對(duì)于“給用戶是否發(fā)送推薦郵件能否提高收益”,只觀測(cè)收益會(huì)忽視郵件對(duì)用戶帶來的負(fù)面體驗(yàn),因此需要同時(shí)觀測(cè)收益和傷害體驗(yàn)的收益損失之和,來評(píng)判實(shí)驗(yàn)是否成功。
如何實(shí)行?
將指標(biāo)標(biāo)準(zhǔn)化后加權(quán)組合為一個(gè)目標(biāo)指標(biāo)?;蛘呦拗浦笜?biāo)數(shù)量到5個(gè)以內(nèi),至少看到一個(gè)指標(biāo)顯著的概率為1-(1-0.5)^k
如何決策?
如果所有關(guān)鍵指標(biāo)不顯著或者顯著,且至少有一個(gè)指標(biāo)顯著,那么改版
如果所有關(guān)鍵指標(biāo)不顯著或者負(fù)向顯著,且至少有一個(gè)指標(biāo)負(fù)向顯著,那么不改版
如果所有關(guān)鍵指標(biāo)不顯著,那么不改版??紤]增加實(shí)驗(yàn)統(tǒng)計(jì)功效
不同指標(biāo)間的平衡,如果一個(gè)指標(biāo)上升,一個(gè)指標(biāo)下降,如何判斷?上升的指標(biāo)所上升價(jià)值是否能彌補(bǔ)下降指標(biāo)的下降價(jià)值,可等價(jià)換算到同一指標(biāo)上,看是否目標(biāo)指標(biāo)還能有提升。
觀測(cè)性研究
為更好的提出假設(shè)、驗(yàn)證假設(shè)、保證外部有效性,可以使用user experience research、焦點(diǎn)小組、調(diào)查和觀測(cè)性研究來輔助實(shí)驗(yàn)結(jié)論。
各方法的所需用戶量和信息深度
1.日志研究——回顧性分析
確定指標(biāo)的分布、各關(guān)鍵維度的指標(biāo)不同分布區(qū)別、指標(biāo)隨時(shí)間的趨勢(shì)特征;特征化潛在特征,探索指標(biāo)間關(guān)系。缺陷:日志分析通常能大規(guī)模分析用戶的行為但無法解釋為什么會(huì)如此表現(xiàn)(user experience research可以)
觀測(cè)性因果研究
當(dāng)隨機(jī)實(shí)驗(yàn)無法執(zhí)行時(shí),可以用觀測(cè)性因果研究代替。觀測(cè)性因果研究的挑戰(zhàn)主要有:
如何構(gòu)造控制組和實(shí)驗(yàn)組做對(duì)比
如何建立因果效應(yīng)模型
觀測(cè)性因果研究的相關(guān)模型如下:
Interrupted Time Series——貝葉斯結(jié)構(gòu)時(shí)間序列分析模型,為田野實(shí)驗(yàn)設(shè)計(jì),通過設(shè)計(jì)實(shí)驗(yàn)和對(duì)照組為相同的群體,測(cè)量兩組群體隨時(shí)間的變化的效應(yīng)差異。
Interleaved experiments,評(píng)估排序模型的差異,Netflix設(shè)計(jì)了一個(gè)兩階段的線上測(cè)試過程(如圖)。第一階段利用被稱為Interleaving的測(cè)試方法進(jìn)行候選算法的快速篩選,從大量初始想法中篩選出少量“優(yōu)秀的”Ranking算法。第二階段是對(duì)縮小的算法集合進(jìn)行傳統(tǒng)的AB Test,以測(cè)量它們對(duì)用戶行為的長期影響。
Regression Discontinuity Design
Instrumented Variables and Natural Experiments,工具變量大致等同隨機(jī)實(shí)驗(yàn)的隨機(jī)分配assignment,兩階段最小二乘法回歸模型被用來評(píng)估效應(yīng)。
Propensity Score Matching
Difference In Difference
構(gòu)建實(shí)驗(yàn)平臺(tái)
實(shí)驗(yàn)隨機(jī)單元
“試驗(yàn)單元 (experiment unit)” 是接受 “處理” 的對(duì)象或?qū)嶓w。
頁面層面:每個(gè)網(wǎng)頁被視為一個(gè)隨機(jī)單元
訪問層面:一次session被視為一個(gè)隨機(jī)單元
用戶層面:?jiǎn)蝹€(gè)用戶被視為一個(gè)隨機(jī)單元,用戶可以是真實(shí)用戶,也可以是一個(gè)loginID
對(duì)比理解這三個(gè)層面:
訪問層面和頁面層面的單位適合變化不易被用戶察覺的實(shí)驗(yàn),因?yàn)檫@樣受用戶干擾較少;而業(yè)務(wù)變化容易被用戶察覺,盡量選用用戶單元。
從用戶層面到訪問層面再到頁面層面,實(shí)驗(yàn)單位顆粒度越來越細(xì),相應(yīng)地可獲得的樣本量越來越多
判斷如何選擇實(shí)驗(yàn)單元,要避免選取的實(shí)驗(yàn)單元會(huì)造成同一個(gè)用戶被分到不同組
一般的,當(dāng)期望實(shí)驗(yàn)的策略場(chǎng)景遭遇以下兩種制約時(shí),AB實(shí)驗(yàn)往往不能有效開展:
用戶體驗(yàn)制約:一些較為敏感的全局策略,如價(jià)格調(diào)整、新產(chǎn)品上線等,往往需要考慮用戶間體驗(yàn)公平性和用戶長期體驗(yàn)的一致性。比如出行業(yè)務(wù),AB實(shí)驗(yàn)導(dǎo)致兩組司機(jī)定價(jià)不一致,這就造成用戶體驗(yàn)的不公平性;又或者用戶在早上9點(diǎn)看到產(chǎn)品的形態(tài)和下午2點(diǎn)不一樣,這就和用戶長期體驗(yàn)不一致。因此,當(dāng)不同策略下用戶的感知體驗(yàn)差異非常明顯時(shí)不能開展AB實(shí)驗(yàn)。
樣本數(shù)量制約:部分實(shí)驗(yàn)場(chǎng)景由于天然不可抗因素限制樣本量非常小,樣本量過小無法通過分流的方法開展AB實(shí)驗(yàn)。
核心原則:要求用戶體驗(yàn)一致的實(shí)驗(yàn)場(chǎng)景以用戶為樣本單位;用戶難以感知和分辨的實(shí)驗(yàn)場(chǎng)景以事件為樣本單位。
因此,當(dāng)決定隨機(jī)單元時(shí),需要考慮以下幾個(gè)原則:
保證用戶體驗(yàn)一致性,同一個(gè)用戶不會(huì)進(jìn)入兩個(gè)組
實(shí)驗(yàn)單元和評(píng)價(jià)指標(biāo)單元一致,否則兩單元不一致,違反相互獨(dú)立前提假設(shè)
保證前兩個(gè)原則后,樣本數(shù)量盡可能多
比如隨機(jī)單元和分析單元應(yīng)該一致,實(shí)驗(yàn)以頁面層面為隨機(jī)單元,那么實(shí)驗(yàn)指標(biāo)就無法評(píng)估干預(yù)對(duì)用戶會(huì)話量的影響。用戶暴露在不同的分組里會(huì)違反獨(dú)立單元干預(yù)假設(shè)(SUTVA),那么無法評(píng)估該干預(yù)的實(shí)驗(yàn)效應(yīng),因?yàn)椴煌姆纸M會(huì)干涉用戶的界面和行為。比如廣告競(jìng)拍的實(shí)驗(yàn),可以隨機(jī)化經(jīng)常競(jìng)拍同一類廣告的廣告主或者廣告主的聚類。社交網(wǎng)絡(luò)平臺(tái)的實(shí)驗(yàn),為了最小化互相干擾的影響,可以隨機(jī)化用戶的聚類。
隨機(jī)單元和分析單元
一般更推薦隨機(jī)單元和分析單元(指標(biāo)細(xì)化維度)一致,比如隨機(jī)化page,意味著每個(gè)pv的點(diǎn)擊都是獨(dú)立的,所以計(jì)算點(diǎn)擊率(點(diǎn)擊/pv)這類均值的方差是標(biāo)準(zhǔn)的。如果隨機(jī)化用戶,那么分析指標(biāo)也是每個(gè)用戶的平均session量、每個(gè)用戶的平均點(diǎn)擊量等指標(biāo)。
如果隨機(jī)單元比分析單元更粗粒度,比如隨機(jī)化用戶,但分析點(diǎn)擊率CTR(page-level)也可以,點(diǎn)擊率指標(biāo)計(jì)算有兩種方式,一是直接總點(diǎn)擊除以總pv,二是單個(gè)用戶的總點(diǎn)擊/總pv,然后算總平均CTR,第二種方式更能很好的避免極端值。但計(jì)算方差時(shí)容易忽略方差變量間的非獨(dú)立性,因此需要 bootstrap 或者 delta 方法分析。但是隨機(jī)單元比分析單元更細(xì)粒度,因?yàn)闊o法計(jì)算這樣分析指標(biāo)無意義。
user-level 隨機(jī)化實(shí)驗(yàn)
user-level隨機(jī)化實(shí)驗(yàn)?zāi)芨帽苊庥脩趔w驗(yàn)不一致的問題,適合用戶留存等長期實(shí)驗(yàn),使用user-level隨機(jī)化實(shí)驗(yàn)需要注意:
可以跨設(shè)備、跨平臺(tái)的用戶登錄id,因?yàn)椴粫?huì)隨時(shí)間、隨平臺(tái)不同而變化
cookies id,比如ios的IDFA、Android的Android ID,這類id在不同平臺(tái)會(huì)不一致,準(zhǔn)確度不如用戶id
設(shè)備ID只標(biāo)記特定的設(shè)備,這類id在不同平臺(tái)會(huì)不一致,準(zhǔn)確度不如用戶id
實(shí)驗(yàn)分析
1、保證實(shí)驗(yàn)分析前提的合理性
檢驗(yàn)實(shí)驗(yàn)/對(duì)照組樣本量比例,查看是否存在 SRM 問題(后面有具體的檢驗(yàn)方法)
檢驗(yàn)實(shí)驗(yàn)/對(duì)照組中特征分布,即可能影響評(píng)價(jià)指標(biāo)的維度,其在兩組中的分布比例。分布有差異可能會(huì)導(dǎo)致辛普森悖論問題
2、正態(tài)性假設(shè),選擇合適的統(tǒng)計(jì)檢驗(yàn)方法
應(yīng)用 T 檢驗(yàn)的前提假設(shè)是統(tǒng)計(jì)量服從正態(tài)分布,有一個(gè)誤區(qū)是認(rèn)為指標(biāo) Y 服從正態(tài)分布,但其實(shí)是指標(biāo) Y 的均值(統(tǒng)計(jì)量的一種)在大數(shù)定理下(抽樣分布在大數(shù)據(jù)下服從正態(tài)分布)服從正態(tài)分布,因此對(duì)于偏度較嚴(yán)重的抽樣分布,需要適當(dāng)增加樣本量來滿足大數(shù)定理中的“大數(shù)條件”。同時(shí)可以用 Kolmogorov–Smirnov and Anderson-Darling 統(tǒng)計(jì)檢驗(yàn)分布是否滿足正態(tài)要求。
如果無法滿足正態(tài)要求,還可以進(jìn)行正態(tài)轉(zhuǎn)換,或者用 Bootstrap Methods、permutation test 等方法來檢驗(yàn)小樣本實(shí)驗(yàn)。也可以采取非參數(shù)檢驗(yàn)方法(適用于中位數(shù)這類秩統(tǒng)計(jì)量),各檢驗(yàn)方法適用的場(chǎng)景如下。
各非參數(shù)檢驗(yàn)方法適用場(chǎng)景
3、判斷顯著性的兩種方式(已滿足統(tǒng)計(jì)功效要求)
p值法
置信區(qū)間法,判斷區(qū)間是否包含0
4、實(shí)驗(yàn)方差估計(jì)
方差用來估計(jì)p值和置信區(qū)間,這里有一些估計(jì)方差時(shí)會(huì)遇到的陷阱:
vs %
詳細(xì)推導(dǎo)過程:https://toutiao.io/posts/q660w08/preview
Ratio Metrics
當(dāng)實(shí)驗(yàn)主體和分析主體不一致時(shí),比率類的指標(biāo),比如轉(zhuǎn)化率、點(diǎn)擊率等,其分析主體不像用戶平均收入、用戶平均點(diǎn)擊數(shù)指標(biāo)為用戶,而是pv或者click。傳統(tǒng)計(jì)算方差的方法下有假設(shè):樣本間相互獨(dú)立,當(dāng)分析主體和實(shí)驗(yàn)主體一致時(shí),那滿足假設(shè);但是對(duì)于user-level 指標(biāo),每個(gè)指標(biāo)代表對(duì)單個(gè)用戶的測(cè)度。對(duì)于page-level 指標(biāo),每個(gè)指標(biāo)代表對(duì)單個(gè)頁面的測(cè)度,實(shí)驗(yàn)主體為用戶,但分析主體為單個(gè)page,雖然對(duì)用戶隨機(jī)分組,但有可能多個(gè)樣本來自于同一個(gè)用戶,那么樣本間就非獨(dú)立,計(jì)算目標(biāo)指標(biāo)時(shí),應(yīng)該先算出user-level的平均指標(biāo),然后再像普通的user-level指標(biāo)一樣計(jì)算分析。但是一般實(shí)驗(yàn)對(duì)點(diǎn)擊率這類指標(biāo)簡(jiǎn)單的處理方式是直接分母取實(shí)驗(yàn)中曝光uv數(shù)中點(diǎn)擊uv數(shù)作為點(diǎn)擊率(已去重)。
異常值
異常值對(duì)均值和方差有很大影響,尤其是增大了方差。在估計(jì)方差時(shí)需要移除異常值,最簡(jiǎn)單的方式是通過閾值直接移除異常樣本。
5、Fisher's Meta-analysis
Meta 分析是運(yùn)用定量方法去總結(jié)多個(gè)研究結(jié)果的系統(tǒng)評(píng)價(jià),將若干個(gè)研究結(jié)果合并成一個(gè)單獨(dú)數(shù)字估計(jì)的統(tǒng)計(jì)方法。以綜合已有的實(shí)驗(yàn)發(fā)現(xiàn)為目的,對(duì)同一個(gè)問題的實(shí)驗(yàn)進(jìn)行綜合的統(tǒng)計(jì)分析方法。元分析的有用性:
對(duì)過去的實(shí)驗(yàn)可以總結(jié)出一些洞察,幫助鞏固實(shí)驗(yàn)數(shù)據(jù)驅(qū)動(dòng)文化
實(shí)驗(yàn)怎樣提升組織目標(biāo)
哪個(gè)團(tuán)隊(duì)的實(shí)驗(yàn)提升總和最大?用于評(píng)估團(tuán)隊(duì)貢獻(xiàn)
指標(biāo)優(yōu)化,探索指標(biāo)的適用性和指標(biāo)關(guān)系
為后來的實(shí)驗(yàn)提供先驗(yàn)結(jié)論
實(shí)驗(yàn)洞察,為后續(xù)優(yōu)化提供思路
實(shí)證研究,得出一般性結(jié)論(實(shí)驗(yàn)的隨機(jī)化因子可以作為工具變量,因?yàn)楦宰兞扛叨认嚓P(guān),與結(jié)果變量無關(guān))
6、多重檢驗(yàn)
針對(duì)多組比較檢驗(yàn)時(shí),因?yàn)?類錯(cuò)誤提升,因此需要p值調(diào)整。比如有 A/B/C/D/E 五組,其中 A 為控制組,直接進(jìn)行 4 組比較:A與B,A與C,A與D,A與E。在置信水平為 95% 時(shí),Pr( 至少存在一個(gè)誤報(bào) )=1 - 95%^4=18.5%。使用此校正時(shí),只需將顯著性水平除以比較次數(shù)即可得出達(dá)到 95% 置信水平所需的顯著性水平。在將邦弗朗尼校正應(yīng)用于上述示例時(shí)將使用 5%/4=1.25% 的顯著性水平,這等同于單次測(cè)試 98.75% (100% - 1.25%=98.75%) 的置信水平。在上述示例運(yùn)行四個(gè)測(cè)試的情況下,這項(xiàng)調(diào)整會(huì)將有效置信水平維持在 95%。在多重假設(shè)檢驗(yàn)中,我們一般不再關(guān)注每一次假設(shè)檢驗(yàn)的準(zhǔn)確性,而是控制在作出的多個(gè)統(tǒng)計(jì)推斷中犯錯(cuò)誤的概率,即 False Discovery Rate(FDR)。
什么時(shí)候會(huì)遇到多重檢驗(yàn)問題:
當(dāng) A/B 測(cè)試有多個(gè)實(shí)驗(yàn)組
當(dāng) A/B 測(cè)試有多個(gè)評(píng)價(jià)指標(biāo)
分不同維度去細(xì)分分析測(cè)試結(jié)果
在測(cè)試過程中不斷查看實(shí)驗(yàn)結(jié)果
總結(jié)來說,就是需要多次檢驗(yàn)而關(guān)注總體的犯錯(cuò)概率時(shí),都是多重檢驗(yàn)問題。
多組比較方法有:(解決前三種場(chǎng)景)
原理:調(diào)整 ,或者說調(diào)整 值
Bonferroni (FWER)校正
原理:假設(shè)一共有 組比較,每兩兩比較檢驗(yàn)的 值都與 比較
特點(diǎn):該方法雖然簡(jiǎn)單,但是檢驗(yàn)過于嚴(yán)格,比如檢驗(yàn) 1000 次,將閾值設(shè)定為 5%/1000=0.005%;最終使得預(yù)期犯錯(cuò)誤的次數(shù)保持在 0.005%×1000=5%,不到 1 次,抹殺了一切假陽性的概率,導(dǎo)致最后找不到真正顯著假陰性。
*請(qǐng)認(rèn)真填寫需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。