作者oNeChanPhile (足柄嫁のクズ欧提)
看板Statistics
标题[徵人] 统计检定指导讨论
时间Sun Jan 6 01:14:48 2019
工作内容:统计检定专案指导,问题与瓶颈描述於後
应徵资格:有类似实务经验者佳
工作时间:1/10前,台湾时间07-14时以外皆可(德国时间半夜以外)
工作薪资:NT1500/hr+ 可议,至少给付1hr
工作地点:Skype线上语音&萤幕分享,
我已经有code,可以当场指导、当场run
联络方式:请先站内信联系取得skype ID
备注事项:人在国外、发案者很熟悉SAS,R与python,但不是统计背景出身,
不太熟悉非常态分布与小样本的处理方式,还有一般作统计检定的流程。
资料:
https://pastebin.com/GS7p64gU
问题:
某工厂在一次维修中发现机械故障
怀疑某污染物质经此渗入其样品,
故进行抽样检定,以确定样品是否遭受此机械故障造成之额外污染。
现有资料为:
对照组(在污染前取得之样本)batch0,16笔资料;
以及怀疑遭受额外污染的批次 batch1~batch7,每个batch各15或16笔资料。
每笔纪录格式
conc=该污染物质之浓度(arbitrary unit)。
batch=B0~B7=不同的生产批次
run=1或2=每批次随机抽样後,分成两组,分别於不同的时间点测量(注1)
仪器是同一套
空白代表missing value
瓶颈:
(1) 这组数据很奇怪,对照组的分布不太normal
Kolmogorov-Smirnov test against normality做下去,
结果 p-value = 0.057,刚好在 5% 边缘,
但是实验组 batch2~batch7 做 K-S test 都没有拒绝 normality。
这种 marginal case 我如果不做常态分布的假设,後面有办法继续进行吗?
(後续我还有很明显是non-normal的case要做 所以这部份至少观念上必须厘清)
(2) outlier如何处理?一般逻辑为何?
在不确定整个分布是否为常态时,
到底对照组的 outlier,应当如何侦测/处理?建议不予删除?那实验组呢?
(3) 能不能用 Box-Cox transformation 先把对照组样本转成normal?
这项技巧什麽时候可以用?
(4) 整体而言有没有一个比较严谨或公认的分析逻辑?
我目前预想的逻辑是
1.确定对照组的分布特性(常态或非常态?有没有outliers?)
2.检定各实验组与对照组的 mean or median 是否有差异
3.检定 variance
4.检定整个分布的 goodness of fit
但是现在还卡在1.
而且说真的我不太知道怎麽定义问题,
例如到底怎样才叫作"检出"?
如果有个goodness of fit (Anderson-Darling)的结果
发现实验组跟对照组的分布是有差异的,
但是mean跟variance都没有明显差异,
如此我仍然应该宣称样品遭到污染吗?
诸如此类的问题,希望能一并请益,以便後续作业。
注1:每个batch资料有两个run(各7或8笔资料,但已跑过 Anderson-Darling test
证明两个run没有差异。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 62.163.65.2
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1546708500.A.E99.html
1F:→ andrew43: 可能把batch和run的意义说明一下。 01/06 19:17
2F:→ andrew43: 例如,同一batch不同run是指同样本不同仪器测试吗? 01/06 19:18
感谢指出,已更新於上。
3F:→ andrew43: 我初步看来似乎log_10(conc)当应变数就能解决很多麻烦了 01/06 20:41
4F:→ oNeChanPhile: 但是凭什麽可以先取log呢?我总要有个理由 01/06 21:30
我的意思是,
我做box-cox transform取lambda=-1也可以弄成normal啊
Anderson-Darling D statistics = 0.1165 还算可以
问题是为什麽我可以做这件事情
为什麽取log或者box-cox transform而不是其他手段
做这件事情不会被抨击吗?
※ 编辑: oNeChanPhile (62.163.65.2), 01/06/2019 21:44:11
5F:→ andrew43: 资料转型很主观。最常见的理由是使之後的方法较合适。 01/06 22:06
6F:→ andrew43: 我不是说box-cox不好。单纯从mixed model配适後来看log 01/06 22:07
7F:→ andrew43: 转型的效果已经很不错,不表示它一定是最好的方式。 01/06 22:08
8F:→ andrew43: 另,小样本做是不是特定分配的适合度检验的power常很差 01/06 22:13
9F:→ andrew43: 所以你的资料可以说得上很不像常态了,转型可先被考虑。 01/06 22:18
10F:→ Pieteacher: 考虑无母数作法,如果不是常态 或许可行 01/07 17:19
11F:推 pitaya13: 你的资料笔数太少 所以常态检定没什麽意义 直接用无母 01/09 08:01
12F:→ pitaya13: 数统计去做就行了 01/09 08:01
13F:推 pitaya13: 以你要的结果 可能要用Mann Whitney U 检定去比较各Batc 01/09 08:04
14F:→ pitaya13: h 和对照组batch0有没有差异 01/09 08:04
15F:→ andrew43: 若视batch为区集应避免采用MW U 01/09 18:14