看板PhD
标 题Re: 博士班经验甘苦谈~
发信站批踢踢参 (Wed Dec 6 23:09:57 2006)
转信站ptt!Group.NCTU!grouppost!Group.NCTU!ptt3
很少po文, 不过这串讨论蛮有趣的, 所以想和大家分享一下自己的想法.
我上统计课的时候, 倒是有听老师说过有人会去掉头尾一些比较extreme的observations,
他也没说这样到底是好还是不好, 也没说一定是几% (感觉上是没有很赞同).
一般上这麽做, 主要是要看这些extreme observations的impact,
而不是让数据更好看. 所以说到底还是用所有的data比较理想.
(但是专业领域不同, 也许因为人为误差 (或其它原因),
去掉一些比较极端的数值也许是standard practice.)
Extreme observations可以是outliers, 但不一定是influential points,
我忘了正确的名词,
不过主要的差别是, 如果你想要划一条regression line (e.g., Y=a + bX),
这些比较extreme的observations还是可以在这条line上下不远的地方.
我应该说, 如果你去掉这些extreme values,
你划出来的线和你没去掉划出来的线是差不多的,
这些extreme observations可以被称做outliers (因为和大家不一样),
但不是influential points.
Influential points指的是, 上述两条线会差很多.
(当然, 如果是算平均的话, 这些extreme values就很让人头痛了).
前面一位版友的学长说只拿最好的20个数据,
但如果是去掉最好最坏的5%,
不是应该也拿到掉好的 (而不只是最坏的)?
※ 引述《[email protected] (北纬43度的夏天)》之铭言:
: 资工领域我不懂
: 在做biology实验的时候
: 不是本来就可以拿掉一些偏差得很离谱的outliner吗?
: 只要在paper 上把你的方法注明清楚
: 这根本不算造假
: 比较需要关心的问题是,当你拿掉的outliner太多时
: 会不会让你的sample size小到没有统计意义?
: 回到炒冷饭的ELISA
: 这是一个非常灵敏的实验,特别是如果你用的是kit..
: 我会建议原作反覆多run 几次
: 如果你的control 仍然还跑出一些偏差太多的值
: 基本上那表示,是你操作上的问题
: (一般来检验methodology的方式就是看control..)
: 另外,就统计学来说
: 没有什麽拿掉最好跟最坏5%的说法
: ※ 引述《jumpings (风中游子...)》之铭言:
: : 终於有资格可以po文了..... 所以来炒一下冷饭.... ^^||
: : 我是念资工的...所以不知道你的ELISA是什麽东西...
: : 但是我硕班的时候後来接受一个去德国拿PhD回来的学长指导...
: : 说我之前把程式跑30次... 然後取最好的20次去算平均...
: : 简直就是恶搞!!!!!!
: : 他说就统计学上... 只允许你拿掉最好跟最坏的5%.... (百分比不知道有没有记错)
: : 然後当然还要在paper里面附加说明....
: : 所以之後跑程式数据时..... 便全部都拿来算平均和p-value了.....
: : 而论文呈现的也是最原始完完全全都没有动过手脚的资料.....
: : 基本上我是劝大家... 只有念硕班也就算了......
: : 念博班的各位.... 学术声誉对大家有一辈子的影响.....
: : 实验数据一定一点点手脚都不能动........
: : 要是万一真的有那麽一天......
: : 成为一位"大师"的话... 要是被人家翻出你当年的数据有一点点的造假....
: : 那........... 後果各位应该相当相当的了解.........
: : 与各位共勉之............ ^^
--
※ 发信站: 批踢踢参(ptt3.cc)
◆ From: 24.60.246.75
1F:推 jumpings:你误会了...是我只拿最好的20个数据... 12/07 11:28
2F:→ jumpings:但是学长是说...要这样拿掉的话..最好和最坏都要拿掉.. 12/07 11:29
3F:→ billyeh:本来就应该这样, 某则岂不是被你刻意导入 bias? 12/07 11:55