作者ndd2 (ndd2)

看板Statistics

標題

[問題] 民進黨初選民調5家民調結果是否太接近(或分散)之探討？

時間Mon Jun 17 02:35:05 2019

5家民調結果(蔡英文支持度)是否太接近或分散？我想了好久，如果寫錯請指正。一、檢定問題：民進黨初選民調蔡英文之支持度數據36.5721%、36.1190%、35.6532%、 34.5323%、35.5072%是否太過接近或分散？二、我的分析結論：本次5份民調結果並未顯示太接近或分散之現象。三、論證：我不是用到誤差範圍(margin of error)及信心水準95%之「區間估計」理論講法，那種說法我覺得行不通。我也不是用到典型的卡方 Goodness-of-Fit Test或變異數分析F-test，而是用到「常態分布抽樣樣本變異數呈卡方分布」直接在論述，用的心虛，但又覺得不無道理。說明文件pdf在：https://bit.ly/2KUOhlm ，數據計算google spreadsheet在 https://bit.ly/2wWHu2E 。 Remark以下番外(不負責)分析：民調結果不代表真實的支持度，從「機構效應」推測，綠營民調在綠營支持者認真作答，而藍營支持者「亂數」作答之情境下，會使兩位綠營候選人的支持度均得到提升，尤其以藍營支持者認為較弱(較好打)對手之支持度提升更多。 2019.6.17 remark: 我想了想，我的檢定推論的描述是正確的，test statistic用詞也正確。 2019.6.18 pm10 remark: 謝謝bm大的質問，讓我再多加思考，的確我寫的很不完備， (這種case非教課書上講解"假設檢定"的典型，如chi-square test , f test 或母體平均或變異數的Hypothesis Testing，這個例子也的確可以不用Hypothesis Testing來說，只要籠統的說，此民調結果之集中度而言，發生機率不是異常的低就好) 以下我再補充我的胡言亂語，Ho的確就有點「麻煩」，容我改做一點比較保守的論述(後面看到自由度變成5)， (以下為推論統計命題開始) 對支持率為p=35.6768%的母體，進行5家民調(各自n=3000) 抽樣， Ho:本次結果的分布情形不會太過集中(樣本變異數不會太小)。 Ha:分布情形太集中(樣本變異數太小)。 (1)[先認定五家是iid~Normal] 依中央極限定理知，5家民調可認定為Normal(p=35.6768%,sigma^2) ，其中sigma^2=p*(1-p)/3000， (2) [定義檢定統計量T] (以下混用一些excel 語法) 假設5筆資料存於A1:A5，令Test Statistics T =( 5/sigma^2)*VARP(A1:A5)，其中VARP是excel中的母體變異數函式(是除n的版本，不是除(n-1)的版本)，由統計定理知，T為自由度df=5之卡方分配。由T(x)的本質為變異數知：T(x)越小，x則密集度高，T(x)越大則x分散。 (3) [計算本次民調T值] 本次民調結果 T= 3.054199085 以自由度5之卡方分布計算 p-Value= 0.308370 未達alpha=0.05顯著性。 (4) 結論：此結果沒有足夠的證據來否定Ho，所以不能說此次結果太密集。以下是「雙尾」版： Ho:本次結果以密集性而言，結果無問題(樣本變異數不會太小或太大)。 Ha:本次結果密集性不正常(樣本變異數太小或太大) 本次民調結果 T= 3.054199085 計算p-Value= 0.308370 p-Value非小於0.025亦未大於0.975 未達alpha=0.05顯著性結論：此結果沒有足夠的證據來否定Ho，所以民調結果以密集度而言無問題。至於為什麼我不用自由度4，因為我不知道怎麼講清楚那種p 沒定死在35.6768% 下的Ho怎麼說才好。 :) --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.194.197.75 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1560710109.A.454.html

1^F：→ yuyuyuai: 分析這個要做什麼？ 06/17 02:51

※ 編輯: ndd2 (123.194.197.75 臺灣), 06/17/2019 02:58:08

2^F：→ ndd2: 統計分析啊，看立論有沒有道理。 06/17 03:05

※ 編輯: ndd2 (123.194.197.75 臺灣), 06/17/2019 03:06:30

3^F：→ ndd2: 計算結果是, 有45%的機率會達到此密集程度 06/17 08:07

4^F：→ ndd2: 所以也沒有多密集，中等而已 06/17 08:19

5^F：→ ndd2: 即使自由度為5，仍有30.8%機率會達到此密集度以上 06/17 11:27

※ 編輯: ndd2 (123.194.197.75 臺灣), 06/17/2019 15:15:12

6^F：→ yuyuyuai: 呃，我是想問立這個論做什麼？你是在回上一篇的文嗎？ 06/17 15:53

7^F：→ ndd2: 就是用統計理論來分析這次民調結果在密集度上合不合理 06/17 16:29

8^F：→ ndd2: 自己未必有把握，就讓眾人也協助檢視我的推論有沒有錯。 06/17 16:31

9^F：→ ndd2: 你的問題我才看不懂，你是要問我，做推論有什麼政治目的嗎？ 06/17 16:32

10^F：→ ndd2: 沒有，目的就是以統計學為基礎說科學真理。 06/17 16:36

11^F：→ ndd2: 另外，有一種情況就是，如果此結果發生的機率非常低，那就 06/17 16:38

12^F：→ ndd2: 有點值得再看看。(當然一種情況是false positive) 06/17 16:41

13^F：→ ndd2: 也就是Type I error 06/17 16:45

14^F：→ yuyuyuai: 抱歉我不是太熟抽樣調查領域，分析5家民調是不是太接近 06/17 18:28

15^F：→ yuyuyuai: 是不是可能涉嫌造假是一個常問的問題？ 06/17 18:28

16^F：→ ndd2: 是啊，這次就是依直覺會覺得做出來的5個數字很接近。但就是 06/17 19:02

17^F：→ ndd2: 需要有「多少」是太接近的學理 06/17 19:07

18^F：→ ndd2: 但，一般民調不會做5份，所以也從來沒有這種情境給人質疑。 06/17 19:09

19^F：推 evilove: 同樣的執行方法再加上3000個樣本結果當然會很接近 06/17 20:12

20^F：→ ndd2: 這篇要分析的是是否太過接近，假如做出來是35.5 35.51 35.49 06/17 20:19

21^F：→ ndd2: 35.51 35.49，太過接近的確不合理的，本篇就是做量化分析 06/17 20:21

22^F：→ bmka: 這個有什麼好討論的,CTL把standard error算一下就結案了 06/18 05:49

23^F：→ bmka: 你要做檢定也把null hypothesis跟alternative hypothesis講 06/18 05:49

24^F：→ bmka: 清楚, 否則跟沒學過統計亂扯一通的有什麼差別 06/18 05:50

25^F：→ bmka: 柯講F-test是胡扯的,起手式就錯了,沒有討論價值 06/18 05:51

※ 編輯: ndd2 (123.194.197.75 臺灣), 06/18/2019 22:19:57

26^F：→ ndd2: 補述在本文最下方。 06/18 22:28

27^F：→ bmka: 先理解一下什麼是null hypothesis跟alternative hypothesis 06/19 06:01

28^F：→ bmka: 你在test什麼paramter,為什麼這個parameter可以反映民調是 06/19 06:02

29^F：→ bmka: 不是有問題..跟柯一樣,起手式就錯了 06/19 06:02

30^F：→ ndd2: 嗯，我知道我寫的東西和書上寫的典型都不同 06/19 19:30

31^F：→ ndd2: 單純就民調一出來，有人馬上發表意見說: 06/19 19:32

32^F：→ ndd2: 這次結果太接近。 06/19 19:33

33^F：→ ndd2: 想看看有沒有"檢定"可以用? 06/19 19:34

34^F：→ ndd2: 我相信我寫變異數成卡方分布應該不會錯 06/19 19:35

35^F：→ ndd2: "呈" 06/19 19:35

36^F：→ ndd2: 直覺用變異數分布來想出現的合理性應該也沒錯 06/19 19:41

37^F：→ ndd2: 不知道能否寫成符合數學"假設檢定"的型式? 06/19 19:50

38^F：→ ndd2: 或是根本就不宜? 而只要說，比此次還密集的機率是30.8%就好 06/19 19:52

39^F：→ bmka: 5個data points做檢定只是在唬弄 06/19 23:13

40^F：→ bmka: By CTL,SE最大值不會超過1%,數字不接近才有鬼.. 06/19 23:20

41^F：→ bmka: 批的人連邏輯都不對 06/19 23:20

42^F：→ ndd2: 也不是說5個點就沒有檢定吧，例如t test df=5也在檢定 06/19 23:48

43^F：→ bmka: 你算過power嗎 06/20 01:59

44^F：→ bmka: 還有,你的null跟alternative hypothesis還是講不清楚 06/20 02:52

45^F：→ bmka: 講不清就不要亂套hypotheiss testing framework 06/20 02:53

46^F：→ bmka: 因為這樣做出來的結果(不管顯不顯著)沒意義 06/20 03:24

47^F：→ ndd2: 嗯，謝謝 06/20 21:59

48^F：→ ndd2: 我再想想他們的意義( 不過暫時有難度, 我不是專門念統計的) 06/20 22:05

49^F：→ yhliu: 如果5個民調的抽樣群體是一樣的, 並假設樣本是完全隨機的, 06/28 17:45

50^F：→ yhliu: 每次調查樣本都是 n=3000, 那麼5個結果的分散程度並沒有可 06/28 17:48

51^F：→ yhliu: 質疑的證據. 這麼說的理由是它們之間最大差距略超過2倍標準 06/28 17:50

52^F：→ yhliu: 誤, 雖然好像小了些, 但只有5個數據, 不無可恣. 06/28 17:52

53^F：→ yhliu: 數據相對於其理論分散度(0例如以標準差/誤衡景量)是否過分 06/28 17:55

54^F：→ yhliu: 密集而不合理, 以假說檢定來做的困難是虛無和對立假說不好 06/28 17:58

55^F：→ yhliu: 定. 就算用 H0: |群體差異|>Δ 的形式也不合理, 因為理論上 06/28 18:02

56^F：→ yhliu: 它們來自同一群體, 所以理論差異是 0. 06/28 18:03

57^F：→ yhliu: H0: |群體差異|≧Δ 06/28 18:04

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Statistics 板

[問題] 民進黨初選民調5家民調結果是否太接近(或分散)之探討？

熱門看板

贊助商連結