Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
1節 DNA的復制
教學目標https://www.shimengyuan.com/nianji/2450.html
1.概述DNA分子的復制過程。
2.探討DNA復制的生物學意義。
3.通過學生對DNA復制的推測,再次領悟假說—演繹方法在研究中的應用。
4. 通過探究DNA分子復制的驗證實驗,再次領悟同位素標記法,拓寬學生解決問題的思路。
教學重難點
【教學重點】
DNA復制的條件、過程和特點。
【教學難點】
DNA分子的復制過程。
教學過程
一、導入新課
(建議下載使用視頻:【情境素材】DNA的復制。)
教師展示一對母女(如明星戚薇和女兒,父女等均可)的照片。教師引導學生思考:為什么母女這樣像?教師引導學生得出答案:親代的遺傳物質通過復制傳遞給了子代。
那么,何謂DNA的復制?
所謂DNA的復制就是指以親代DNA為模板合成子代DNA的過程,1DNA→2DNA。
那么,新產生的DNA分子是一個全新的DNA分子嗎?
二、講授新課
(一)對DNA復制的推測
1.全保留復制:新復制出的分子直接形成,完全沒有舊的部分。
2.半保留復制:形成的分子一半是新的,一半是舊的。
3.分散復制(彌散復制):新復制的分子中新舊都有,但分配是隨機組合的。
如何來判斷DNA的復制究竟是哪種方式呢?這就需要用假說-演繹法來預測。
(二)對DNA復制方式的探究
【作出假設】DNA復制是一種半保留式的復制
每個子代DNA均由1條母鏈和1條子鏈組成。
問題1:如果DNA是半保留復制,復制后得到的子一代DNA和子二代DNA的組成是什么樣的呢?
問題2:如果要在實驗中直觀地區別、“標識”母鏈或子鏈,可以采取什么辦法?(放射性同位素標記法)
問題3:如果用同位素(放射性)進行標記,用什么元素?(N、P)
問題4:如果親代DNA是15N的,放在14N的環境中進行培養,則親代、子一代、子二代DNA分別含有哪種N元素?
(親代:15N/15N-DNA (全部)
子一代:15N/14N-DNA (全部)
子二代:15N/14N-DNA(1/2) 14N/14N-DNA(1/2) )
問題5:要驗證上述預測,就要分別觀察親代和子代的情況,但實驗中,復制后的DNA分子混合在一起的,不易分離。怎么解決這個問題?
(通過密度梯度離心使其發生分層)https://www.renjiaoshe.com/jiaocai/2046.html
【驗證假設】
學生閱讀教材并觀察討論圖示:證明DNA進行半保留復制的實驗。
DNA是肉眼看不見的,如何才能分辨DNA呢?此時,教師可以讓學生分析經典實驗中用同位素15N 標記的方法,分析用CsCl密度梯度離心后重帶、中帶、輕帶表示的DNA分子的雙鏈構成是怎樣的,在整個實驗中親代、子一代、子二代細胞中提取出的DNA離心的結果說明了什么。通過層層分析,學生不僅能夠自己得出結論:DNA的確具有半保留復制的特點,同時還能感受科學探究的魅力。
實驗結果與預期結果一致,故證明了DNA的復制是以半保留的方式進行的。
小結:總結本實驗假說演繹的流程。(作出假設、演繹推理、驗證假設、得出結論)
(三)DNA復制過程
播放多媒體課件,演示DNA復制的過程,首先讓學生明確DNA并不是由原來DNA分子產生一個全新的DNA分子,而是DNA分子的兩條鏈分開,每一條鏈(母鏈)作為一個模板再配上一條子鏈,這樣形成的2個DNA分子每個都有一條母鏈和一條子鏈。DNA復制過程大體分為三個階段:(1)DNA雙螺旋結構在DNA解旋酶作用下解旋成2個單鏈片段;(2)以解開的每一條單鏈片段(母鏈)為模板,遵循堿基互補配對原則,與提供原料中的4種脫氧核苷酸各自互補配對,并在DNA聚合酶作用下連接成一段子鏈;(3)子鏈不斷延伸并與對應母鏈盤繞成雙螺旋結構,形成各含一條母鏈和一條子鏈的2個DNA分子。
然后,設置問題讓學生分析DNA復制過程的特點、條件等,領會DNA的結構和堿基互補配對與復制的關系。
思考:(1)DNA復制過程的特點有哪些?(其特點是邊解旋邊復制,半保留復制。)(2)DNA復制需要哪些條件?(復制需要模板、原料、酶和能量等基本條件。特別需要向學生說明的是,DNA復制所需要的酶有多種,教材中介紹的“DNA解旋酶”、“DNA聚合酶”只是其中主要的兩種。)(3)DNA復制的場所在哪里?在什么時間進行的?(DNA復制的場所是細胞核,復制時間是在細胞有絲分裂的間期和減數第一次分裂的間期。)
教師還可結合教材經典實驗中大腸桿菌的半保留復制圖例,計算在第一代、第二代和第三代中含15N DNA分子的個數及所占比例,進一步強調DNA半保留復制的特點。(建議使用知識卡片:【知識解析】“圖解法”分析DNA復制過程中的相關計算)
最后,教師可以讓學生分析子代DNA與親代DNA的堿基序列的特征,探討DNA自我復制的生物學意義。正是由于DNA分子的這一復制過程,才使得親代的遺傳信息傳遞給子代,從而使前后代保持了一定的連續性。
師生共同完成下表:
DNA分子復制產生出與親代相同的子代DNA分子。復制n次,得到2n個DNA分子,其中原親代DNA分子的鏈有兩條,新合成的鏈為2n+1-2個,在復制過程中,所需要某種堿基數為(2n -1)a,a為DNA分子中某種堿基的數目。
三、課堂反饋
1.DNA的復制是在細胞的______分裂和______第一次分裂前的_____期進行的。復制是指以_____________為模板來合成____________的過程。復制特點是______________。復制過程必需以____________________為模板、_______________為原料、_______ 提供能量、_____的催化等條件,___________________為DNA的復制提供精確的模板、并有_____________能力保證復制能夠準確無誤地完成。一個親代DNA分子通過復制形成了兩個____________,新形成的DNA分子都是既含一條_____鏈、又含一條_______鏈,因此,稱DNA的復制為“_________________”。
答案:有絲 減數 間 親代DNA分子 子代DNA分子 邊解旋邊復制
親代DNA分子一條鏈 脫氧核苷酸 ATP 酶 DNA分子雙螺旋結構
堿基互補配對 結構完全相同的子代DNA分子 母 子 半保留復制
2.一個DNA分子經過3次復制后,保留有原來母鏈的子代DNA分子占全部子代DNA分子的比例為_______; 原來的母鏈占全部脫氧核苷酸鏈的比例為______。
A.1/2 B.1/4 C.1/8 D.1/16
答案:B C
3.一雙鏈DNA分子在解旋時,一條鏈上的G變成C,則DNA分子經n次復制后,發生差錯的DNA分子占( A )
A.1/2 B.1/(2n-1) C.1/2n D.1/(2n+1)
四、課堂小結
教師與學生一起小結本節知識,學生邊講教師邊板書,或通過課件展示。
建球棍模型認識有機化合物分子結構的特點
【教學目標】
知識與技能:
1.加深對有機化合物分子結構的認識。
2.初步了解使用模型研究物質結構的方法。
過程與方法:
1.通過搭建球棍模型真正提高學生的思維能力,歸納碳原子的成鍵特征和各類烴分子中的化學鍵類型。
2.對同分異構體及同分異構現象有一個整體的認識,能準確判斷同分異構體及其種類的多少。
情感態度與價值觀:
1.體會物質之間的普遍性與特殊性。
2.認識到事物不能只看到表面,要透過現象看本質。
【教學重難點】
重點:了解使用模型研究物質結構的方法。
難點:歸納碳原子的成鍵特征和各類烴分子中的化學鍵類型,準確判斷同分異構體及其種類的多少。
【教學過程】
一、實驗原理
有機化合物分子的立體模型常用的有凱庫勒模型和斯陶特模型。應用最廣泛的是凱庫勒模型。它用不同大小和不同顏色的圓球代表不同的原子或官能團,用木棍代表化學鍵,因此又稱為球棍模型。
碳原子最外層有4個電子,不易失去或獲得電子而形成陽離子或陰離子。碳原子通過共價鍵與氫、氧、氮、硫、磷等多種非金屬形成共價化合物。科學實驗證明,甲烷分子里,1個碳原子與4個氫原子形成4個共價鍵,構成以碳原子為中心,4個氫原子位于四個頂點的正四面體立體結構。鍵角均為109o28’。
鍵長:原子核間的距離稱為鍵長,越小鍵能越大,鍵越穩定。
鍵角:分子中1個原子與另外2個原子形成的兩個共價鍵在空間的夾角,決定了分子的空間構型。
鍵能:以共價鍵結合的雙原子分子,裂解成原子時所吸收的能量稱為鍵能,鍵能越大,化學鍵越穩定。
二、實驗步驟
觀察甲烷、乙烯、乙炔的球棍模型,思考碳原子的成鍵方式與分子的空間構型、鍵角有什么關系?
觀察乙烷分子的模型
當碳原子與4個原子以單鍵相連時,碳原子與周圍的4個原子都以四面體取向成鍵。
三、問題和討論https://www.shimengyuan.com/nianji/2432.html
1.碳原子成鍵規律:
①當一個碳原子與其他4個原子連接時,這個碳原子將采取四面體取向與之成鍵。
②當碳原子之間或碳原子與其他原子之間形成雙鍵時,形成雙鍵的原子以及與之直接相連的原子處于同一平面上。
③當碳原子之間或碳原子與其他原子之間形成叁鍵時,形成叁鍵的原子以及與之直接相連的原子處于同一直線上。
④烴分子中,僅以單鍵方式成鍵的碳原子稱為飽和碳原子;以雙鍵或叁鍵方式成鍵的碳原子稱為不飽和碳原子。
⑤只有單鍵可以在空間任意旋轉。
2.二氯甲烷有同分異構體嗎?
提示:因為甲烷空間結構為正四面體而不是平面型,所以二氯甲烷無同分異構體。
3.4個碳原子相互結合可能有多少種方式?https://www.renjiaoshe.com/jiaocai/2055.html
提示:碳原子間能相互結合成共價鍵(單鍵、雙鍵、叁鍵……)可以形成碳鏈,也可以形成碳環。
驗原理
假設檢驗的目標是拒絕原假設,它的核心是證偽。先假設原假設成立,然后計算原假設反面出現的概率,如果概率較大,則證明原假設不成立。
對于 A/B Test 來說, p值是在實驗組和對照組沒有差別這個前提成立的條件下,實驗仍然檢測到差異(即極端事件出現)的概率。如果 p值非常小,就拒絕原假設,認為實驗組和對照組沒有差別這個前提是錯誤的。那么怎么定義非常小?這時需要 顯著性水平(significance level) 來做標尺。
需要注意的是,統計顯著性不是實際顯著性(Practical significance)。p值只能告訴你兩個版本有沒有差異,并不能說明實驗組到底比對照組好了多少。舉個例子,在某個A/B Test中,實驗組相比對照組只有0.1%的提升, p=0.001,這說明這次實驗是達到統計顯著的,但是實驗效果卻只提升了0.1%。是否你會為了這0.1%的提升全量上線實驗組方案,還需從成本等角度全面衡量一個實驗的商業效果。因此不能僅憑統計顯著性做決策。
實驗誤區
一類錯誤、二類錯誤和功效的定義如下:
H0:實驗組之間無顯著性差異
顯著性水平 :誤報,False Negative,I 類錯誤,即 H0 為真但拒絕了的概率,1 - 置信水平(confidence level)=顯著性水平( , significance level);一般設定=5%
:漏報,False Positive, II 類錯誤,即 H0 為假但接受了的概率。樣本量較小時,有增加漏報的可能(H0為假,但數據量少沒有觀測到),但是高功效需要更多的樣本量,延長測試所需要的時間
統計功效 Power:H0為假且拒絕,即接受H1的概率
最小提升 lift : 差異越小,需要的樣本量越多
基線轉化率: Baseline越小,相同的提升度下,所需要的樣本量越多
總結:當 p<alpha 時,得出拒絕 H0,接受 H1 的結論容易犯第二類錯誤,因此還需要結合 power 來看,即觀察到 H0 為假這一判斷成立的概率。
1、誤解 p 值
p值并不是原假設事件發生的概率也不是拒絕原假設的概率,比如原假設為 Y1-Y2=0,p值并不是兩者差異為0的概率(貝葉斯檢驗的概率是)。p值表示在原假設為真的條件下,比所得到的樣本觀察結果(檢驗統計量)更極端的結果出現的概率,如果概率小于alpha值,說明小概率事件發生,而我們認為小概率事件是不會發生的(或者說如果在原假設真實存在的條件下,不太應該出現這個事件,但是出現了該事件,那么更有可能是在備擇假設存在的條件下產生的),那么就說明原假設錯誤。所以說 p 值說明不了任何事。它僅僅是以預期比較為基礎的一種方法,幫助我們做出一個相對合理的決策。比如原假設一枚硬幣是均勻的,但發現連續拋5次硬幣都為正面,而這個事件(統計量)的概率為 小于0.05(alpha值,為極端值出現或小概率事件發生的最大概率),認為這是小概率事件,不可能發生,因此這是一枚不均勻的硬幣。
2、缺乏統計功效
統計功效 power=p(拒絕H0|H0為假),解釋為真實情況為H0為假時,觀測結果能正確檢測出來的概率,即為統計檢驗結果正確的‘拒絕零假設”(H0)的概率。因此當 p<alpha時,還需要看power是否達到一定的條件(樣本量是否充足),才能判斷是否有顯著差異。因為結合上面對p值含義的解釋可以發現,再微小的差異,達到足夠大的樣本量和測量精度,都能得到有統計學意義的P值;再大的差異,在樣本量過小和測量精度不那么高的時候,也可能只能得到P>0.05。所以在實驗研究中不應該唯P值是論,單看P值大小并不代表實際的差異大小,實際差異要看 effect size。實驗預期是拒絕原假設,那么在實驗開始前需要設定power的大小,反推出實驗所需的樣本量,當達到該樣本量時,實驗結論才會更準確。
假設檢驗的功效受以下幾個因素影響:
樣本量 (n):其他條件保持不變,樣本量越大,功效就越大。
顯著性水平 (α):其他條件保持不變,顯著性水平越低,功效就越小。
兩總體之間的差異:其他條件保持不變,總體參數的真實值和估計值之間的差異越大,功效就越大。也可以說,效應量(effect size)越大,功效就越大。
標準差:標準差越小,代表兩組差異的趨勢越穩定,越容易觀測到顯著的統計結果,功效越大。
統計功效的計算
原假設與備擇假設如下:
令 ,按照二類錯誤的概念,假設 ,有
代表 A 組的樣本數量, 代表 B 組的樣本數量。K 為 與 的比值,這個值一般情況下,我們都默認為1,即 A、B 兩組的用戶數量相等,方便做嚴謹的AB實驗對比。可以看到所需樣本量大小與以下四個變量有關系,在其他三個變量都確定的情況下,統計功效與樣本量成正比,因此通常在實驗開始前計算達到功效需要多少樣本量:
顯著性水平 :顯著性水平越低,對實驗結果的要求也就越高,越需要更大的樣本量來確保精度
統計功效 :統計功效意味著避免犯二類錯誤的概率,這個值越大,需要的樣本量也越大
均值差異 :如果兩個版本的均值差別巨大,也不太需要多少樣本,就能達到統計顯著
標準差 :標準差越小,代表兩組差異的趨勢越穩定。越容易觀測到顯著的統計結果
根據實驗的預期結果確定實驗所需最小流量,可以通過現有網站工具計算所需樣本量:
https://www.evanmiller.org/ab-testing/sample-size.html
如果預期提升的指標是人均時長、人均收入等,需要運用 t 檢驗反算需要的樣本量:
https://www.evanmiller.org/ab-testing/t-test.html
3、實驗中窺視實驗并下結論的后果
即實驗中途查看實驗結果并因此判斷實驗結論,造成實驗結論犯第一類錯誤率提高。窺視實驗結果對實驗的有效統計意義會產生不利影響。它實際上大大增加了誤報的可能性,并使置信區間不可信。
背景: 假設模擬兩個方案的 10,000 個轉化事件,其中兩個方案的轉化率均為 10%。由于轉化率相同,因此進行實驗時,應該檢測到轉化率提升度沒有差異。
問題: 如果使用 95% 的置信水平,當收集所有 10,000 個觀測值之后,測試結果為預期的 5% 誤報率(I 類錯誤)。因此,如果我們運行 100 個這樣的測試,則平均會得到 5 個誤報(實際上在此示例中,所有的顯著性結論都是錯誤的,因為兩個方案之間的轉化率沒有差異,我們荏苒檢測到具有統計意義的提升)。但是,如果我們在實驗過程中進行 10 次評估(每 1,000 個觀測值評估一次),結果會顯示誤報率高達 40%。對測試進行監控使出現誤報的可能性增加了三倍以上!這是怎么回事?
原因: 如果使用 95% 的置信水平計算10次實驗,總體誤報率Pr(至少一個誤報)=1- Pr(沒有誤報)=1 - 0.95^10=40% 則大約40%的概率會檢測到一個或多個誤報。
當檢測到具有統計意義的結果時停止實驗。但是,如果該結果不具有統計意義,則會繼續測試。這種操作情況極易偏向于尋求顯著差異的結果,這樣就扭曲了測試的有效顯著性水平。
如何解決? 要避免此問題,應該在開始測試之前,先確定足夠的測試運行時間。雖然在測試過程中查看測試結果以確保測試正確運行是可以的,但在達到所需訪客數量之前,請勿得出結論或停止測試。換言之,不要作弊。對于需要分段測試的實驗,即分職業、年齡等屬性分段查看實驗結果,需要Bonferroni 校正。或設計序貫實驗。
4、多組比較
主要有以下的場景:
查看對比多組實驗的指標
在不同時間peeking
查看不同分組群的指標
重復實驗結果對比
5、置信區間
誤區:單獨查看控制組和實驗組的置信區間,如果重疊,那么無顯著差異。但實際案例中delta有顯著差異,依然能重疊 29%;
另一個關于置信區間的誤區是,認為95%置信水平的置信區間有95%的概率包含真正的實驗效應。置信度95%說的是我們有95%的自信能說出“實驗組轉化率相比對照組轉化率高0.8-1.2%”這句話。從概率論的角度解釋,就是在其他參數不變的情況下,如果我們重復做同樣的實驗100次,那么有95次得出的實驗組和對照組的轉化率差異都在0.8%-1.2%這個區間內。
6、內部有效性問題
違反SUTVA假設:即實驗個體之間相互不影響,而社交網絡、通訊網絡、協同工具、雙邊市場、共享經濟平臺的個體都違反了SUTVA假設,因此一般采用聚類作為隨機單元。
幸存者偏差:針對一段時間才活躍的用戶實驗,存在嚴重的幸存者偏差問題。
ITT(Intent to Treat):剔除不服從實驗干預的用戶,其實驗結論將產生偏差。所以實驗計算應該是從分配(assignment)開始,而不是真正執行了 treatment 的用戶
SRM(Sample Ratio Mismatch): 實驗組與對照組的用戶數量在統計上與配置的比例不同。比如對照組和實驗組各分配 50%的流量,結果對照組 821, 588 個用戶,實驗組 815, 482 個用戶,比率為0.993,但是按照實驗配置的比例應該為1.0,以上樣本比率大于 0.993 的概率在 1.8E-6(p值),結論為按照實驗1:1的流量配比而得到結果的概率為1.8E-6,因此有理由懷疑實驗出現了bug,實驗結論不可信。
SRM 成因:
隨機化有問題
Data Pipeline 問題,比如數據收集問題
殘留效應,指每個試驗階段對后一階段的延滯作用。比如實驗出現了bug,分析日期從修復好bug當天開始,一開始出現的bug會對用戶有殘留效應,就會出現 SRM 問題
不合適的觸發 (trigger) 條件,實驗觸發的用戶需要包含應被treat的用戶,比如網站重定向問題
基于影響實驗的屬性作為觸發條件,比如依據機器學習算法結果來觸發,因為隨著實驗進行,模型會更新,且模型會持續受實驗組的效應影響。
如何判斷 SRM
需要使用統計檢驗,如卡方統計量檢驗SRM問題,以確定在實驗變量中觀察到的用戶分布是否在統計上與配置的用戶分布不同。使用的閾值是保守的,以減少假陽性的可能性: p值 <
如何debug SRM
驗證隨機化點或觸發點上游沒有差異
驗證實驗分配是否正確
檢查data pipelines
檢查實驗各組是否沒有一同開始,比如時段效應,不同時間段的活躍用戶率不同,如果設置不同組的開始時間不同,那么會導致SRM
分組查看樣本比例
按每天分組
按設備等維度分組
按新老用戶等特征分組
https://mp.weixin.qq.com/s/fOdSUesYTOJT5MiTo3vLrA
7、外部有效性問題
外部有效性是指結論是否能延展到一般的場景。比如外推到其他國家,其他群體,或者說隨著時間的推移,該結論是否會消失。一般后者的外部有效性困難較大,時間外部有效性問題一般為新奇效應和首因效應。
驗證以上問題,可以畫出關于指標的時間序列圖,看指標在一開始時間是否有增加或下降。處理以上的問題,可以制定更合適的指標,比如次周留存率。或者增加實驗的時間。
8、異質效應
不同群體的對比分析可以洞察更多,一般基于以下幾種類型進行分層分析:
市場或者國家
設備或者平臺
周內分天或者天內分小時效應
用戶類型
用戶賬號特征
9、辛普森悖論
總體和分群體的指標趨勢不一致,主要有以下幾個情況:
用戶采樣不均勻,不同的場景各用戶占比不一致
用戶在某特征上的分布不均,比如在各個國家上的某些指標不相等
實驗指標構建
實驗平臺的四個階段:
爬(~10個/year):能實現實驗分析
走(~50個/year):實驗驗證——A/A實驗和SRM問題驗證;定義標準指標
跑(~250個/year):規模化運行實驗
飛(~成千/year):能完成自助分析,元分析
指標類型
目標指標:簡單且口徑較固定
評價指標:可操作性高、比目標指標更敏捷且直接影響目標指標,多為一些因果模型中的中間指標,比如在線時長、點擊率等
護欄指標:驗證型指標,驗證實驗運行的正確性;二是保護商業的一些預警指標;數據質量指標
評價指標必須能正面影響目標指標。一般我們只能通過潛在的 causal model 利用現有數據完成假設檢驗來找到評價指標,這里有一些方法來驗證因果關系:利用一手數據,比如調研、焦點訪談和用戶體驗研究(UER)等用戶研究方法,確定影響方向和顯著性。
指標開發
用戶研究相關方法探索 causal model 中的重要指標
考慮指標的質量,什么樣的行為和口徑更能衡量該指標
可解釋性強
可以用多指標衡量同一事件,互相驗證
指標的評估
常見且具有挑戰的指標評估是建立從驅動指標到目標指標之間的因果關系,也就是說,驅動指標是否真的可以驅動目標指標,解決因果檢驗目前可以采用以下幾種方式:
使用調研、用戶訪談等收集一手數據來檢驗它們是否都指向同一方向
分析觀測數據
使用行業內以有經驗
以評估指標為主要目的運行線上實驗
用歷史實驗集合做哦為“黃金”樣例來評估新的指標
組合多個指標為一個OEC 指標
為什么需要?
如果只單單觀測一個指標,會局限在短期收益;比如對于“給用戶是否發送推薦郵件能否提高收益”,只觀測收益會忽視郵件對用戶帶來的負面體驗,因此需要同時觀測收益和傷害體驗的收益損失之和,來評判實驗是否成功。
如何實行?
將指標標準化后加權組合為一個目標指標。或者限制指標數量到5個以內,至少看到一個指標顯著的概率為1-(1-0.5)^k
如何決策?
如果所有關鍵指標不顯著或者顯著,且至少有一個指標顯著,那么改版
如果所有關鍵指標不顯著或者負向顯著,且至少有一個指標負向顯著,那么不改版
如果所有關鍵指標不顯著,那么不改版。考慮增加實驗統計功效
不同指標間的平衡,如果一個指標上升,一個指標下降,如何判斷?上升的指標所上升價值是否能彌補下降指標的下降價值,可等價換算到同一指標上,看是否目標指標還能有提升。
觀測性研究
為更好的提出假設、驗證假設、保證外部有效性,可以使用user experience research、焦點小組、調查和觀測性研究來輔助實驗結論。
各方法的所需用戶量和信息深度
1.日志研究——回顧性分析
確定指標的分布、各關鍵維度的指標不同分布區別、指標隨時間的趨勢特征;特征化潛在特征,探索指標間關系。缺陷:日志分析通常能大規模分析用戶的行為但無法解釋為什么會如此表現(user experience research可以)
觀測性因果研究
當隨機實驗無法執行時,可以用觀測性因果研究代替。觀測性因果研究的挑戰主要有:
如何構造控制組和實驗組做對比
如何建立因果效應模型
觀測性因果研究的相關模型如下:
Interrupted Time Series——貝葉斯結構時間序列分析模型,為田野實驗設計,通過設計實驗和對照組為相同的群體,測量兩組群體隨時間的變化的效應差異。
Interleaved experiments,評估排序模型的差異,Netflix設計了一個兩階段的線上測試過程(如圖)。第一階段利用被稱為Interleaving的測試方法進行候選算法的快速篩選,從大量初始想法中篩選出少量“優秀的”Ranking算法。第二階段是對縮小的算法集合進行傳統的AB Test,以測量它們對用戶行為的長期影響。
Regression Discontinuity Design
Instrumented Variables and Natural Experiments,工具變量大致等同隨機實驗的隨機分配assignment,兩階段最小二乘法回歸模型被用來評估效應。
Propensity Score Matching
Difference In Difference
構建實驗平臺
實驗隨機單元
“試驗單元 (experiment unit)” 是接受 “處理” 的對象或實體。
頁面層面:每個網頁被視為一個隨機單元
訪問層面:一次session被視為一個隨機單元
用戶層面:單個用戶被視為一個隨機單元,用戶可以是真實用戶,也可以是一個loginID
對比理解這三個層面:
訪問層面和頁面層面的單位適合變化不易被用戶察覺的實驗,因為這樣受用戶干擾較少;而業務變化容易被用戶察覺,盡量選用用戶單元。
從用戶層面到訪問層面再到頁面層面,實驗單位顆粒度越來越細,相應地可獲得的樣本量越來越多
判斷如何選擇實驗單元,要避免選取的實驗單元會造成同一個用戶被分到不同組
一般的,當期望實驗的策略場景遭遇以下兩種制約時,AB實驗往往不能有效開展:
用戶體驗制約:一些較為敏感的全局策略,如價格調整、新產品上線等,往往需要考慮用戶間體驗公平性和用戶長期體驗的一致性。比如出行業務,AB實驗導致兩組司機定價不一致,這就造成用戶體驗的不公平性;又或者用戶在早上9點看到產品的形態和下午2點不一樣,這就和用戶長期體驗不一致。因此,當不同策略下用戶的感知體驗差異非常明顯時不能開展AB實驗。
樣本數量制約:部分實驗場景由于天然不可抗因素限制樣本量非常小,樣本量過小無法通過分流的方法開展AB實驗。
核心原則:要求用戶體驗一致的實驗場景以用戶為樣本單位;用戶難以感知和分辨的實驗場景以事件為樣本單位。
因此,當決定隨機單元時,需要考慮以下幾個原則:
保證用戶體驗一致性,同一個用戶不會進入兩個組
實驗單元和評價指標單元一致,否則兩單元不一致,違反相互獨立前提假設
保證前兩個原則后,樣本數量盡可能多
比如隨機單元和分析單元應該一致,實驗以頁面層面為隨機單元,那么實驗指標就無法評估干預對用戶會話量的影響。用戶暴露在不同的分組里會違反獨立單元干預假設(SUTVA),那么無法評估該干預的實驗效應,因為不同的分組會干涉用戶的界面和行為。比如廣告競拍的實驗,可以隨機化經常競拍同一類廣告的廣告主或者廣告主的聚類。社交網絡平臺的實驗,為了最小化互相干擾的影響,可以隨機化用戶的聚類。
隨機單元和分析單元
一般更推薦隨機單元和分析單元(指標細化維度)一致,比如隨機化page,意味著每個pv的點擊都是獨立的,所以計算點擊率(點擊/pv)這類均值的方差是標準的。如果隨機化用戶,那么分析指標也是每個用戶的平均session量、每個用戶的平均點擊量等指標。
如果隨機單元比分析單元更粗粒度,比如隨機化用戶,但分析點擊率CTR(page-level)也可以,點擊率指標計算有兩種方式,一是直接總點擊除以總pv,二是單個用戶的總點擊/總pv,然后算總平均CTR,第二種方式更能很好的避免極端值。但計算方差時容易忽略方差變量間的非獨立性,因此需要 bootstrap 或者 delta 方法分析。但是隨機單元比分析單元更細粒度,因為無法計算這樣分析指標無意義。
user-level 隨機化實驗
user-level隨機化實驗能更好避免用戶體驗不一致的問題,適合用戶留存等長期實驗,使用user-level隨機化實驗需要注意:
可以跨設備、跨平臺的用戶登錄id,因為不會隨時間、隨平臺不同而變化
cookies id,比如ios的IDFA、Android的Android ID,這類id在不同平臺會不一致,準確度不如用戶id
設備ID只標記特定的設備,這類id在不同平臺會不一致,準確度不如用戶id
實驗分析
1、保證實驗分析前提的合理性
檢驗實驗/對照組樣本量比例,查看是否存在 SRM 問題(后面有具體的檢驗方法)
檢驗實驗/對照組中特征分布,即可能影響評價指標的維度,其在兩組中的分布比例。分布有差異可能會導致辛普森悖論問題
2、正態性假設,選擇合適的統計檢驗方法
應用 T 檢驗的前提假設是統計量服從正態分布,有一個誤區是認為指標 Y 服從正態分布,但其實是指標 Y 的均值(統計量的一種)在大數定理下(抽樣分布在大數據下服從正態分布)服從正態分布,因此對于偏度較嚴重的抽樣分布,需要適當增加樣本量來滿足大數定理中的“大數條件”。同時可以用 Kolmogorov–Smirnov and Anderson-Darling 統計檢驗分布是否滿足正態要求。
如果無法滿足正態要求,還可以進行正態轉換,或者用 Bootstrap Methods、permutation test 等方法來檢驗小樣本實驗。也可以采取非參數檢驗方法(適用于中位數這類秩統計量),各檢驗方法適用的場景如下。
各非參數檢驗方法適用場景
3、判斷顯著性的兩種方式(已滿足統計功效要求)
p值法
置信區間法,判斷區間是否包含0
4、實驗方差估計
方差用來估計p值和置信區間,這里有一些估計方差時會遇到的陷阱:
vs %
詳細推導過程:https://toutiao.io/posts/q660w08/preview
Ratio Metrics
當實驗主體和分析主體不一致時,比率類的指標,比如轉化率、點擊率等,其分析主體不像用戶平均收入、用戶平均點擊數指標為用戶,而是pv或者click。傳統計算方差的方法下有假設:樣本間相互獨立,當分析主體和實驗主體一致時,那滿足假設;但是對于user-level 指標,每個指標代表對單個用戶的測度。對于page-level 指標,每個指標代表對單個頁面的測度,實驗主體為用戶,但分析主體為單個page,雖然對用戶隨機分組,但有可能多個樣本來自于同一個用戶,那么樣本間就非獨立,計算目標指標時,應該先算出user-level的平均指標,然后再像普通的user-level指標一樣計算分析。但是一般實驗對點擊率這類指標簡單的處理方式是直接分母取實驗中曝光uv數中點擊uv數作為點擊率(已去重)。
異常值
異常值對均值和方差有很大影響,尤其是增大了方差。在估計方差時需要移除異常值,最簡單的方式是通過閾值直接移除異常樣本。
5、Fisher's Meta-analysis
Meta 分析是運用定量方法去總結多個研究結果的系統評價,將若干個研究結果合并成一個單獨數字估計的統計方法。以綜合已有的實驗發現為目的,對同一個問題的實驗進行綜合的統計分析方法。元分析的有用性:
對過去的實驗可以總結出一些洞察,幫助鞏固實驗數據驅動文化
實驗怎樣提升組織目標
哪個團隊的實驗提升總和最大?用于評估團隊貢獻
指標優化,探索指標的適用性和指標關系
為后來的實驗提供先驗結論
實驗洞察,為后續優化提供思路
實證研究,得出一般性結論(實驗的隨機化因子可以作為工具變量,因為跟自變量高度相關,與結果變量無關)
6、多重檢驗
針對多組比較檢驗時,因為1類錯誤提升,因此需要p值調整。比如有 A/B/C/D/E 五組,其中 A 為控制組,直接進行 4 組比較:A與B,A與C,A與D,A與E。在置信水平為 95% 時,Pr( 至少存在一個誤報 )=1 - 95%^4=18.5%。使用此校正時,只需將顯著性水平除以比較次數即可得出達到 95% 置信水平所需的顯著性水平。在將邦弗朗尼校正應用于上述示例時將使用 5%/4=1.25% 的顯著性水平,這等同于單次測試 98.75% (100% - 1.25%=98.75%) 的置信水平。在上述示例運行四個測試的情況下,這項調整會將有效置信水平維持在 95%。在多重假設檢驗中,我們一般不再關注每一次假設檢驗的準確性,而是控制在作出的多個統計推斷中犯錯誤的概率,即 False Discovery Rate(FDR)。
什么時候會遇到多重檢驗問題:
當 A/B 測試有多個實驗組
當 A/B 測試有多個評價指標
分不同維度去細分分析測試結果
在測試過程中不斷查看實驗結果
總結來說,就是需要多次檢驗而關注總體的犯錯概率時,都是多重檢驗問題。
多組比較方法有:(解決前三種場景)
原理:調整 ,或者說調整 值
Bonferroni (FWER)校正
原理:假設一共有 組比較,每兩兩比較檢驗的 值都與 比較
特點:該方法雖然簡單,但是檢驗過于嚴格,比如檢驗 1000 次,將閾值設定為 5%/1000=0.005%;最終使得預期犯錯誤的次數保持在 0.005%×1000=5%,不到 1 次,抹殺了一切假陽性的概率,導致最后找不到真正顯著假陰性。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。