作者ndd2 (ndd2)

看板Statistics

标题

[问题] 民进党初选民调5家民调结果是否太接近(或分散)之探讨？

时间Mon Jun 17 02:35:05 2019

5家民调结果(蔡英文支持度)是否太接近或分散？我想了好久，如果写错请指正。一、检定问题：民进党初选民调蔡英文之支持度数据36.5721%、36.1190%、35.6532%、 34.5323%、35.5072%是否太过接近或分散？二、我的分析结论：本次5份民调结果并未显示太接近或分散之现象。三、论证：我不是用到误差范围(margin of error)及信心水准95%之「区间估计」理论讲法，那种说法我觉得行不通。我也不是用到典型的卡方 Goodness-of-Fit Test或变异数分析F-test，而是用到「常态分布抽样样本变异数呈卡方分布」直接在论述，用的心虚，但又觉得不无道理。说明文件pdf在：https://bit.ly/2KUOhlm ，数据计算google spreadsheet在 https://bit.ly/2wWHu2E 。 Remark以下番外(不负责)分析：民调结果不代表真实的支持度，从「机构效应」推测，绿营民调在绿营支持者认真作答，而蓝营支持者「乱数」作答之情境下，会使两位绿营候选人的支持度均得到提升，尤其以蓝营支持者认为较弱(较好打)对手之支持度提升更多。 2019.6.17 remark: 我想了想，我的检定推论的描述是正确的，test statistic用词也正确。 2019.6.18 pm10 remark: 谢谢bm大的质问，让我再多加思考，的确我写的很不完备， (这种case非教课书上讲解"假设检定"的典型，如chi-square test , f test 或母体平均或变异数的Hypothesis Testing，这个例子也的确可以不用Hypothesis Testing来说，只要笼统的说，此民调结果之集中度而言，发生机率不是异常的低就好) 以下我再补充我的胡言乱语，Ho的确就有点「麻烦」，容我改做一点比较保守的论述(後面看到自由度变成5)， (以下为推论统计命题开始) 对支持率为p=35.6768%的母体，进行5家民调(各自n=3000) 抽样， Ho:本次结果的分布情形不会太过集中(样本变异数不会太小)。 Ha:分布情形太集中(样本变异数太小)。 (1)[先认定五家是iid~Normal] 依中央极限定理知，5家民调可认定为Normal(p=35.6768%,sigma^2) ，其中sigma^2=p*(1-p)/3000， (2) [定义检定统计量T] (以下混用一些excel 语法) 假设5笔资料存於A1:A5，令Test Statistics T =( 5/sigma^2)*VARP(A1:A5)，其中VARP是excel中的母体变异数函式(是除n的版本，不是除(n-1)的版本)，由统计定理知，T为自由度df=5之卡方分配。由T(x)的本质为变异数知：T(x)越小，x则密集度高，T(x)越大则x分散。 (3) [计算本次民调T值] 本次民调结果 T= 3.054199085 以自由度5之卡方分布计算 p-Value= 0.308370 未达alpha=0.05显着性。 (4) 结论：此结果没有足够的证据来否定Ho，所以不能说此次结果太密集。以下是「双尾」版： Ho:本次结果以密集性而言，结果无问题(样本变异数不会太小或太大)。 Ha:本次结果密集性不正常(样本变异数太小或太大) 本次民调结果 T= 3.054199085 计算p-Value= 0.308370 p-Value非小於0.025亦未大於0.975 未达alpha=0.05显着性结论：此结果没有足够的证据来否定Ho，所以民调结果以密集度而言无问题。至於为什麽我不用自由度4，因为我不知道怎麽讲清楚那种p 没定死在35.6768% 下的Ho怎麽说才好。 :) --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.194.197.75 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1560710109.A.454.html

1^F：→ yuyuyuai: 分析这个要做什麽？ 06/17 02:51

※ 编辑: ndd2 (123.194.197.75 台湾), 06/17/2019 02:58:08

2^F：→ ndd2: 统计分析啊，看立论有没有道理。 06/17 03:05

※ 编辑: ndd2 (123.194.197.75 台湾), 06/17/2019 03:06:30

3^F：→ ndd2: 计算结果是, 有45%的机率会达到此密集程度 06/17 08:07

4^F：→ ndd2: 所以也没有多密集，中等而已 06/17 08:19

5^F：→ ndd2: 即使自由度为5，仍有30.8%机率会达到此密集度以上 06/17 11:27

※ 编辑: ndd2 (123.194.197.75 台湾), 06/17/2019 15:15:12

6^F：→ yuyuyuai: 呃，我是想问立这个论做什麽？你是在回上一篇的文吗？ 06/17 15:53

7^F：→ ndd2: 就是用统计理论来分析这次民调结果在密集度上合不合理 06/17 16:29

8^F：→ ndd2: 自己未必有把握，就让众人也协助检视我的推论有没有错。 06/17 16:31

9^F：→ ndd2: 你的问题我才看不懂，你是要问我，做推论有什麽政治目的吗？ 06/17 16:32

10^F：→ ndd2: 没有，目的就是以统计学为基础说科学真理。 06/17 16:36

11^F：→ ndd2: 另外，有一种情况就是，如果此结果发生的机率非常低，那就 06/17 16:38

12^F：→ ndd2: 有点值得再看看。(当然一种情况是false positive) 06/17 16:41

13^F：→ ndd2: 也就是Type I error 06/17 16:45

14^F：→ yuyuyuai: 抱歉我不是太熟抽样调查领域，分析5家民调是不是太接近 06/17 18:28

15^F：→ yuyuyuai: 是不是可能涉嫌造假是一个常问的问题？ 06/17 18:28

16^F：→ ndd2: 是啊，这次就是依直觉会觉得做出来的5个数字很接近。但就是 06/17 19:02

17^F：→ ndd2: 需要有「多少」是太接近的学理 06/17 19:07

18^F：→ ndd2: 但，一般民调不会做5份，所以也从来没有这种情境给人质疑。 06/17 19:09

19^F：推 evilove: 同样的执行方法再加上3000个样本结果当然会很接近 06/17 20:12

20^F：→ ndd2: 这篇要分析的是是否太过接近，假如做出来是35.5 35.51 35.49 06/17 20:19

21^F：→ ndd2: 35.51 35.49，太过接近的确不合理的，本篇就是做量化分析 06/17 20:21

22^F：→ bmka: 这个有什麽好讨论的,CTL把standard error算一下就结案了 06/18 05:49

23^F：→ bmka: 你要做检定也把null hypothesis跟alternative hypothesis讲 06/18 05:49

24^F：→ bmka: 清楚, 否则跟没学过统计乱扯一通的有什麽差别 06/18 05:50

25^F：→ bmka: 柯讲F-test是胡扯的,起手式就错了,没有讨论价值 06/18 05:51

※ 编辑: ndd2 (123.194.197.75 台湾), 06/18/2019 22:19:57

26^F：→ ndd2: 补述在本文最下方。 06/18 22:28

27^F：→ bmka: 先理解一下什麽是null hypothesis跟alternative hypothesis 06/19 06:01

28^F：→ bmka: 你在test什麽paramter,为什麽这个parameter可以反映民调是 06/19 06:02

29^F：→ bmka: 不是有问题..跟柯一样,起手式就错了 06/19 06:02

30^F：→ ndd2: 嗯，我知道我写的东西和书上写的典型都不同 06/19 19:30

31^F：→ ndd2: 单纯就民调一出来，有人马上发表意见说: 06/19 19:32

32^F：→ ndd2: 这次结果太接近。 06/19 19:33

33^F：→ ndd2: 想看看有没有"检定"可以用? 06/19 19:34

34^F：→ ndd2: 我相信我写变异数成卡方分布应该不会错 06/19 19:35

35^F：→ ndd2: "呈" 06/19 19:35

36^F：→ ndd2: 直觉用变异数分布来想出现的合理性应该也没错 06/19 19:41

37^F：→ ndd2: 不知道能否写成符合数学"假设检定"的型式? 06/19 19:50

38^F：→ ndd2: 或是根本就不宜? 而只要说，比此次还密集的机率是30.8%就好 06/19 19:52

39^F：→ bmka: 5个data points做检定只是在唬弄 06/19 23:13

40^F：→ bmka: By CTL,SE最大值不会超过1%,数字不接近才有鬼.. 06/19 23:20

41^F：→ bmka: 批的人连逻辑都不对 06/19 23:20

42^F：→ ndd2: 也不是说5个点就没有检定吧，例如t test df=5也在检定 06/19 23:48

43^F：→ bmka: 你算过power吗 06/20 01:59

44^F：→ bmka: 还有,你的null跟alternative hypothesis还是讲不清楚 06/20 02:52

45^F：→ bmka: 讲不清就不要乱套hypotheiss testing framework 06/20 02:53

46^F：→ bmka: 因为这样做出来的结果(不管显不显着)没意义 06/20 03:24

47^F：→ ndd2: 嗯，谢谢 06/20 21:59

48^F：→ ndd2: 我再想想他们的意义( 不过暂时有难度, 我不是专门念统计的) 06/20 22:05

49^F：→ yhliu: 如果5个民调的抽样群体是一样的, 并假设样本是完全随机的, 06/28 17:45

50^F：→ yhliu: 每次调查样本都是 n=3000, 那麽5个结果的分散程度并没有可 06/28 17:48

51^F：→ yhliu: 质疑的证据. 这麽说的理由是它们之间最大差距略超过2倍标准 06/28 17:50

52^F：→ yhliu: 误, 虽然好像小了些, 但只有5个数据, 不无可恣. 06/28 17:52

53^F：→ yhliu: 数据相对於其理论分散度(0例如以标准差/误衡景量)是否过分 06/28 17:55

54^F：→ yhliu: 密集而不合理, 以假说检定来做的困难是虚无和对立假说不好 06/28 17:58

55^F：→ yhliu: 定. 就算用 H0: |群体差异|>Δ 的形式也不合理, 因为理论上 06/28 18:02

56^F：→ yhliu: 它们来自同一群体, 所以理论差异是 0. 06/28 18:03

57^F：→ yhliu: H0: |群体差异|≧Δ 06/28 18:04

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Statistics 板

[问题] 民进党初选民调5家民调结果是否太接近(或分散)之探讨？

热门看板

赞助商连结