作者evilove (願意感動就是一種享受)
看板Statistics
標題Re: [問題] 研究樣本比研究母體結果更精確?
時間Mon Oct 15 02:21:32 2018
延續這個問題
y大提到非抽樣誤差在普查中不容易控制的問題
如果放在問卷調查中的確比較好理解
請問如果是一家公司針對它本身會員資料庫進行分析
假設會員資料庫是母體
這樣還會有非抽樣誤差的問題嗎?
※ 引述《kiyounin (OWOOO)》之銘言:
: 覺得可能是很小白的問題,不過跟同學討論之後得不出結果,
: 所以想說來板上問問看。
: 講義上面在提到「研究時取樣的好處」時有一個敘述如下:
: 根據樣本取得的結果大多數時後會比根據母體取得的結果更準確(accurate)。
: 其他的比如研究樣本比研究母體更便宜更有可行性更快速等等之類的都可以理解,
: 但得到的結果會比研究母體更精確這個敘述有點看不太懂。
: (這個地方老師很快就帶過去了,並沒有針對這句敘述多做說明。)
: 不知道是我對於accurate這個英文字的解釋不對或是如何。
: 為什麼研究樣本會比研究母體更精確呢?
: 一般來講,不是都是說研究樣本會有誤差嗎?
: 在這裡先謝謝願意一起討論或解答的版友~~
: 單純聽老師上課時此處並未多做著墨,聽過去覺得好像都懂,沒想到回頭過來看講義時卻
: 出現奇妙的問題QWQQ
: https://i.imgur.com/YP0jx28.jpg
: 補一下講義翻拍照片,是第四項。
: 開始擔心難道我除了數學不行以外英文也不行了嗎QWQQQ
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 69.140.102.182
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1539541294.A.521.html
1F:→ myty383: 取決於取得資訊的過程中是否會產生誤差 10/15 03:22
2F:→ myty383: 例如,早期電腦沒有那麼強大的年代,收集資訊就已經是很 10/15 03:23
3F:→ myty383: 難的事情,在加上人工整理資料,普查一定很容易產生誤差 10/15 03:23
4F:→ myty383: 但現在電腦普及後,如果有必要我相信可以設計的十分精準 10/15 03:25
5F:→ myty383: 的收集,加上確認資訊正確性的成本也許可以很低,所以可 10/15 03:25
6F:→ myty383: 能可以大大降低非抽樣誤差 10/15 03:25
7F:→ myty383: 非抽樣誤差是非常case by case 的問題,情境和細節改變基 10/15 03:26
8F:→ myty383: 本上差異就很大 10/15 03:26
9F:→ yhliu: 沒有. 這時如果需要抽樣, 大概只有當此資料庫非常鉅大時. 10/16 06:56
10F:→ yhliu: 當然, 前提是 "假設會員資料庫是母體" . 10/16 06:58
11F:→ evilove: 謝謝兩位大大的釋疑 10/17 01:32
12F:→ yhliu: 資料庫的資料是否符合事實和電腦科技不必然有直接關係. 舉 10/17 15:08
13F:→ yhliu: 個簡單的例子, 健保資料庫的疾病資料與真實的患病情形乖離 10/17 15:10
14F:→ yhliu: 多少和電腦技術的發展毫無關係, 它是和健保醫療執行的力度 10/17 15:13
15F:→ yhliu: 有關, 例如沒病去診所開藥, 有病者沒去就醫等等. 所以我強 10/17 15:15
16F:→ yhliu: 調: "假設會員資料庫是母體" 那除非因嫌資料庫太大不便分 10/17 15:17
17F:→ yhliu: 析, 否則不必抽樣. 當然鉅量資料的計算也是一項需要技巧的 10/17 15:18
18F:→ yhliu: 事. 就算計算個簡單算術平均, 面對數以億計的資料, 普通計 10/17 15:20
19F:→ yhliu: 算方式都可能出問題. 10/17 15:21
20F:→ myty383: y大我只是舉某個例子,當然很多東西要真實面對問題才會知 10/17 17:49
21F:→ myty383: 道 10/17 17:49
22F:→ yhliu: 資料數位化的現代, 資料庫中的資料與事實的差距有兩方面, 10/18 08:41
23F:→ yhliu: 一是傳統的調查誤差錯抽樣,非抽樣), 二是數位化過程的誤差. 10/18 08:43
24F:→ yhliu: 前者, 與電腦科技幾乎是無關的; 後者, 反倒是在許多情形電 10/18 08:45
25F:→ yhliu: 腦科技昌盛的現在反而可能錯誤機率大些. 何妁以故? 早期資 10/18 08:48
26F:→ yhliu: 料電腦化是人工看著書面資料輸入到卡片, 而後轉成磁帶或磁 10/18 08:50
27F:→ yhliu: 碟檔, 用的是專業打卡人員, 而且採一打卡一驗卡方式避免錯 10/18 08:51
28F:→ yhliu: 誤. 而現在, 專業集中輸入採用直接 key in 成磁碟檔/磁帶檔 10/18 08:54
29F:→ yhliu: 若採用 double key in 或一打一驗方式則如同以前, 但占若只 10/18 08:56
30F:→ yhliu: 是一次鍵入動作, 甚或非專職者從事此工作, 則難免犯錯. 另 10/18 08:58
31F:→ yhliu: 現在更多資料庫來自分散式現場輸入, 雖因各種原因患錯機率 10/18 09:01
32F:→ yhliu: 不高, 也難說絕無錯誤可能. 10/18 09:02
33F:→ yhliu: 不過, 資料電腦化或稱數位化過程在任何時代錯誤機率都是極 10/18 09:04
34F:→ yhliu: 低的. 所以使用資料庫資料, 所需考慮的其實主要還是資料與 10/18 09:06
35F:→ yhliu: 涉及的事實之間因不實或遺漏而產生的差距. 如果把資料庫看 10/18 09:08
36F:→ yhliu: 成是普查結果, 這事實上就是非抽樣誤差. 不過, 如果抽樣資 10/18 09:10
37F:→ yhliu: 料是從資料庫產生, 抽樣只是多了抽樣誤差, 卻未改變非抽樣 10/18 09:12
38F:→ yhliu: 誤差. 10/18 09:12