Statistics 板


LINE

我昨晚再仔细想一想 发现症结点於我的验证逻辑和人不太一样: 1. "检验因果关系"的逻辑: 所谓的统计分析就是检验:自变数 是否真的影响到 依变数 自变数 是否真的是造成 依变数 的 原因 而自变数是因,所以时间一定要在前 依变数是果,所以时间一定要在後 两者的时间跨度要一样 2. "验证某个现象"的逻辑: 学者提出某个论述(现象): 成绩好的同学,参与班会的次数比较高(踊跃) 这里要检验的是前述现象是否真的存在? 至於因果关系(成绩是否影响班会)则不是文章要讨论的重点 虽然这里有自变项与依变项 但那只是因为在学者的论述中 "成绩"放在前头(成绩好中坏三组),所以挂上自变 "班会"放在後面(参与班会的次数),所以称之依变 然而,研究要探讨的仅是:成绩好中坏这三组间到底有无显着差异? 至於"班会的参与资料"则是用来统计比较这三组的差异而已 研究主题并没有去处理"成绩有无影响到班会"这样的因果议题 我的疑惑是 这两种逻辑在统计研究上有没有差别? 是否可以这样做区分? 还是说,只要是统计研究,就必须只能是1,而不能用2的逻辑? 另外 如果是1的逻辑,那当然必须是 今年的成绩 影响到 今年的班会 才能说班会是成绩影响下的结果 但如果是2的逻辑 我只是想利用ANOVA的组别比较来验证以下"现象"是不是真的存在: 成绩好是不是真的就比较常参与班会?成绩不好就显着比较少? 我的结论并没有做出因果关系推论(即 成绩 确实是 班会 的原因) 只是想知道这个现象有无出现?(成绩好有没有显着较常参加班会?) 若是2的话 有没有必要一定得服膺严格的因果关系规定, 自变数和依变数的时间跨度一定得要相同呢? ANOVA只能用来验证因果关系吗?ANOVA做出来的结果即表示变数有因果关系吗? 希望各位版友能再给我意见 万分感谢! --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 112.105.52.36
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1425596246.A.B45.html
1F:→ coldwind0912: 你对"因果"的认知 在方法论上来说实在有点薄弱.... 03/06 09:25
2F:→ coldwind0912: 因果 是很严谨的机制,须达成特定条件 03/06 09:25
3F:→ coldwind0912: 因果关系 须满足 时间律、共变律、排它律 三个条件 03/06 09:28
4F:→ coldwind0912: 统计分析 如果分析A→B有影响 A就真的是B的因吗? 03/06 09:29
5F:→ coldwind0912: 反之 如果分析B→A也有效果 那要说明谁为因?谁为果? 03/06 09:30
6F:→ coldwind0912: 以你的例子来说 今年成绩 会影响 今年活动积极度 03/06 09:31
7F:→ coldwind0912: 倘若反过来 今年的活动积极度 也影响 今年的成绩呢? 03/06 09:32
感谢C大的回应 您刚好点出我最为难且疑惑的地方 所谓的因果关系如你说的,要共变、因在果之前、非虚假关系 这是很严格的条件 即使有影响也未必就有因果关系 变数可能相互影响,或根本没有因果 可是,我遇到某些人就是主张: 统计只能有1的逻辑,其他都不能 统计就只能判定自变数能否影响依变数?是不是成因? 其他都不算统计 我也觉得这种说法有点怪 但又想不出如何说明它的瑕疵
8F:→ coldwind0912: 至於 统计技术的问题 ANOVA检验的是差异性 03/06 09:33
9F:→ coldwind0912: 回归方法 检验的是解释力(或预测性) 03/06 09:34
恩,我的理解是这样: 即使ANOVA做出来组别间有显着差异 那也只能代表这个差异性的现像是存在的 不表示自变数和依变数必然有因果关系,所以不能妄下因果关系的结论 这样的理解正确吗??
10F:→ coldwind0912: 套一句我的方法学启蒙老师所言: 03/06 09:35
11F:→ coldwind0912: 「单靠统计工具是无法检验因果的,须搭配理论基础」 03/06 09:36
12F:→ coldwind0912: 回到本文 您所述的逻辑一or逻辑二 都有暇疵 03/06 09:38
13F:→ coldwind0912: 而且 量化研究中也不存在这麽特殊的说法 03/06 09:39
14F:→ coldwind0912: 或者是说 量化研究的逻辑也不是这样子来陈述的 03/06 09:40
15F:→ coldwind0912: 所以再回到「时间跨度」的问题 03/06 09:42
16F:→ coldwind0912: 如果 理论、逻辑、实证 都说明两个不同跨度的变项间 03/06 09:43
17F:→ coldwind0912: 具有因果关系 那又何尝不可分析? 03/06 09:43
叹 可惜我没能力可以反驳逻辑1的看法
18F:→ coldwind0912: 但反之,如果都解释不通时,分析又有何意义? 03/06 09:44
19F:→ coldwind0912: 只是多一篇数字游戏的文章而已,不是吗? 03/06 09:45
我另外想到一个问题点: 1. 常走实验、问卷路线的学者 习惯的做法就是:分好组别後,然後进行实验或填写问卷 之後再进行统计,分析自变项有无影响依变项 这样一来,自变数(分组)的时间在前,依变数(实验、问卷)时间在後 就成为共同的认知:时间在前的一定是自变项, 时间在後的一定是依变项 依变项的时间不能早於自变项 这样自变项才算有影响依变项 2. 但我这领域的主要单位是 国家 很难用实验、问卷来研究 很多人用的方式是:为国家分好组别之後 再回过头去找每个国家的历史数据 统计分析组别间有无差异,验证现象有无存在 分析的重点不在 自变与依变的因果关系 而是"不同组的国家"在"参与次数上到底有无显着差异"?? 另外,就好比之前文中的举例: 虽然把"成绩好坏"列为自变项,"参与班会的数量"列为依变项 但那只是因为学者的论述提及: 成绩好的学生对於参与班会的次数会比较高 这段论述把"成绩"放前面,"班会"放後面 基於使用习惯 所以在统计分析时才把前者称为自变项,後者称为依变项 但这两者到底有无因果关系?成绩是否真的会影响班会? 这不是我要分析的重点 我只是想知道学者论述的这个"现象"到底存不存在? "成绩由好至坏的组别"在参与班会的次数上有无显着差异? 重点是"成绩好中坏三组间的差异" 至於"班会"只是用来帮助统计比较这三组的一个变项罢了 如果ANOVA的结果显示组别有显着差异+成绩好的高於其他组 那表示这个现象是存在的 但ANOVA的结果不表示"成绩"和"班会"有直接的因果关系 因此 虽然把"成绩"名为自变项,"参与班会"名为依变项 但这两者并不是传统的"自变项影响依变项"的关系 纯粹只是因为"成绩"在前,"班会"在後 才把前面的挂为自变,後面挂为依变 但实际上研究要讨论的只是:"成绩"的组别之间有无显着差异 并无牵涉到"成绩是否影响班会"...这个主题 这是我想表达的 但我不知道在统计上要用啥词汇去指称 所以只能用我自己的话去形容 希望大家听懂我在说啥.....= = ※ 编辑: winchin (112.105.52.36), 03/06/2015 14:19:42
20F:→ wope: 反例: Y=3*x1+1*x2 (线性回归), Var(x1)=0.01, Var(x2)=1 03/06 15:04
21F:→ wope: x1变动时会让Y大量变动(显着) 03/06 15:05
22F:→ wope: 但Y变动量 大部分是x2造成的(因为x2的Var大) 03/06 15:06
23F:→ wope: 如果讨论的是"不同组的国家" 之间比较 硬要用回归 03/06 15:22
24F:→ wope: 是可以考虑地理统计对空间的Cov做回归 03/06 15:23
25F:→ wope: 不过这样做出来不是你的目标 03/06 15:23
26F:→ wope: 以这几篇看下来 ANOVA可能是比较好的方式 03/06 15:26
27F:→ wope: 不过我很想问为什麽不直接算相关系数? 03/06 15:29
28F:→ wope: 等等 这里有三个变量 国家 成绩 班会 03/06 15:37
29F:→ wope: "成绩"的组别之间(什麽变量?)有无显着差异 03/06 15:40
30F:→ wope: "不同组的国家"在"参与次数上到底有无显着差异"与分数无关? 03/06 15:43
31F:→ wope: 这三个变量你想怎麽表达之间的关系 之後再决定统计方法 03/06 16:01
抱歉 W大 上头我把两个例子混在一起讲了,造成你的误解 国家那个是一个例子 成绩则是另一个例子 我再重新改写整理一下 ※ 编辑: winchin (112.105.52.36), 03/06/2015 18:43:13 ※ 编辑: winchin (112.105.52.36), 03/06/2015 18:56:04 ※ 编辑: winchin (112.105.52.36), 03/06/2015 18:57:55
32F:→ coldwind0912: 其实 阅读你的说法 我会产生一点疑问.... 03/06 23:07
33F:→ coldwind0912: 倘若只是单纯想验证 成绩→活动参与 关系是否确立 03/06 23:08
34F:→ coldwind0912: 而并不在乎其是否为真实因果或虚假关系 03/06 23:08
35F:→ coldwind0912: 那你就直接进行回归预测就好阿 看解释量有多高阿 03/06 23:09
感谢C大的回应 不过难题在於,成绩这个变项并不是连续变数 而是分成三组的类别变项(成绩好、中、差) 是可以把成绩转成虚拟变项 但这样只能看到解释量有多少 无法知道 成绩好的组别之参与量是否显着大於其他组
36F:→ coldwind0912: 如果达到统计显着性 又有实务显着性 那就验证完毕了 03/06 23:10
37F:→ coldwind0912: 反之 如果"成绩→活动参与"在过去研究被认为是因果 03/06 23:10
38F:→ coldwind0912: 而想推翻 最直观就是验证 活动参与→成绩 是否成立 03/06 23:12
39F:→ coldwind0912: 如果 反向路径也存在 那表示原本的关系并非因果阿 03/06 23:12
40F:→ coldwind0912: 另外 上面原po和w大的讨论 我不晓得有没有认知错误? 03/06 23:13
41F:→ coldwind0912: 如果要把三个变量:国家.成绩.班会 同时分析.... 03/06 23:14
42F:→ coldwind0912: 除了时间跨度的问题 你更应该考量hierarchy的问题吧 03/06 23:15
43F:→ coldwind0912: 这些变项摆一起 hierarchy的问题比时间跨度重要多了 03/06 23:16
44F:→ wope: C大 其实我看得有点乱 成绩与活动 我看不出放弃回归预测的 03/07 03:58
45F:→ wope: 理由 03/07 03:58
46F:→ wope: 再来 回归预测 可放入前人理论做非线性 回归预测 03/07 03:59
47F:→ wope: 第三 如果收到的资料非高斯场 还可以放弃高斯假设 03/07 04:00
48F:→ wope: 如果要做 非高斯+非线性+前人研究 的ANOVA 会出人命的(计算 03/07 04:10
49F:→ wope: 效率太差) 03/07 04:10
50F:→ wope: 如果3变量一起考虑 可以推估收不到资料国家的回归线 03/07 04:15
51F:→ wope: 这时的统计与一般统计最大差异 从一个值 变成一个函数 03/07 04:18
52F:→ wope: 回到原Po的问题 时间跨度 一定可放入考虑 只是怎麽考虑而以 03/07 04:23
抱歉 我把话题拖得太长,让大家看不清楚问题点 其实我说了这麽多,只是想了解一件事: 如果我是用逻辑2的角度来做研究 只想了解这三个成绩组别间是否有显着的差异 那变项的时间跨度是否一定要相同? 若前面的变项(成绩好、中、差,名为自变项)是2013-2014 後面的变项(参与班会的次数,名为依变项)是2010-2014 在逻辑2里头,是否可行??
53F:→ wope: 在非线性高斯场依变数的cov 有个手法叫first order second m 03/07 04:25
54F:→ wope: oment 03/07 04:25
55F:→ wope: 总是可以估计Cov的值 03/07 04:26
56F:→ wope: 而且对之前班会与之後班会的相关性都可抓出来 03/07 04:29
57F:→ wope: 最後 如果带线性高斯场 Cov的比值就是回归系数的斜率 03/07 04:31
58F:→ wope: 除非前人有说就是线性相关 不然回归预测强太多了 03/07 04:32
59F:→ wope: (跟课本上的Anova比) 03/07 04:35
60F:→ wope: 不知道原po有没有考虑把前班会与後班会当成两个事件(非独立) 03/07 04:46
61F:→ wope: 这样时间影响都可以抓出来 03/07 04:46
62F:→ wope: 不过原Po好像很喜欢Anova 03/07 04:50
63F:→ wope: 因为我对Anova不熟 所以不确定可以做到怎样 03/07 04:51
64F:→ wope: 原po是想讨论三变量中 两两的边际机率密度函数吗? 不然第三 03/07 05:03
65F:→ wope: 变量如何不看? 03/07 05:03
66F:→ coldwind0912: 我没有说放弃回归阿!? 验证因果关系 回归还是比较好 03/07 15:28
67F:→ coldwind0912: 我只是举例用反向求回归结果 来否证因果阿 03/07 15:28
68F:→ coldwind0912: 当然 非线性也是检验方式 只是我们并不了解原po例子 03/07 15:30
69F:→ coldwind0912: 前人的研究是认为线性or非线性 所以 我提出用反向 03/07 15:30
其实,前人的研究只是提出一个"描述性的论述" 没有用到量化分析 因此也没提及线性或非线性之类的面向
70F:→ coldwind0912: 至於hierarchy 我以为原po还想把国家的变项放进来 03/07 15:31
71F:→ coldwind0912: 国家.活动.成绩 这些变项的位阶并不一样吧~ 03/07 15:31
痾....其实只有两个变项 国家和成绩是不同的例子....= = 一个是:不同组别的国家 和 参与量 另一个是:学生成绩 和 学生的活动参与量 这是两个例子 ※ 编辑: winchin (112.105.52.36), 03/08/2015 01:18:11 ※ 编辑: winchin (112.105.52.36), 03/08/2015 01:34:26
72F:→ wope: 把後面变项拆成 2010-1012 及 2013-2014 03/09 14:13
73F:→ wope: 然後与前面的变项分别做ANOVA -->去说明时间变量有关或无关 03/09 14:15
74F:→ wope: 若无关 再用後面变项2010-2014与前变量再做一次 03/09 14:16
75F:→ wope: 若有关-->就要加入其他的机制来考滤 03/09 14:17
76F:→ wope: 可是我的疑问是为什麽不直接算相关系数 03/09 14:19
77F:→ wope: 每年的相关性就都可以抓出来 03/09 14:20
78F:→ wope: 拿相关性最高的那年来做研究 不是更有说服力 03/09 14:23
79F:→ wope: 顺便也可以得到随时间的衰退 03/09 14:25
80F:→ wope: 随时间的衰退如果做得出来 那跨度就着这个衰退比例给进去 03/09 14:27
81F:→ wope: 这样论文应该会多出很多东西(如果成功做出来的话) 03/09 14:30







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP