作者saltlake (SaltLake)
看板Statistics
标题[问题] 平均的最小方差近似
时间Wed Aug 7 07:44:04 2024
一般我们做最小方差近似,就是把(样本)数据代入模型,
然後根据最小方差的原理,求出模型的参数组,然後就用
这参数组代入模型,去估计数据点以外的反应(或函数)值
。
可是这些参数其实也是随机变数,所以也该有个机率分
布函数、平均值、和标准差。那如果我们把样本数据随机
分成十组,用这十组数据分别求出十组参数组,然後求出
参数值中每一参数的平均值,再用这组参数去估计数据点
以外的反应。这个平均的最小方差函数得到的估计值,会
否「比较好」?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.207.231 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1722987846.A.717.html
1F:→ yhliu: 参数也是随机变数?你确定? 08/07 08:19
有本书用最小方差直线解释
Y = a_0 + a_1*x
a_0 和 a_1 是从随机样本资料 x 计算来的,所以也带有随机性而为随机变数
该书还给了该直线参数 a_0 和 a_1 期望值、标准偏差、和信心区间的公式
2F:→ yhliu: 统计推论有两大学派,一个是频率论学派,一个是贝氏学派。 08/07 08:21
3F:→ yhliu: 当然,除此之外还有其他学派,如费氏学派,但主要还是两派 08/07 08:22
4F:→ yhliu: 频率论的观点认为:群体是固定定,也就是说参数是非随机的 08/07 08:24
5F:→ yhliu: 只是我们不知道其值,所以藉随机样本来猜测,所以评估标准 08/07 08:26
6F:→ yhliu: 是依抽样机制衡量平均误差。而贝氏学派认为资料是已知的, 08/07 08:27
7F:→ yhliu: 考虑其随机性没必要;参数是未知的,所以用随机模型来描述. 08/07 08:28
8F:→ yhliu: 当然在频率论也可以把参数当成随机的,例如 ANOVA 的随机效 08/07 08:30
9F:→ yhliu: 果模型,回归分析的随机系数模型,但最终都有未知其值的固 08/07 08:32
10F:→ yhliu: 定参数;而在贝氏分析,多层次贝氏模型的最高阶参数也是随 08/07 08:33
11F:→ yhliu: 机的。在任一模型下,总有个最适推论,这通常都是应用全部 08/07 08:35
12F:→ yhliu: 样本资料;资料先分组而後综合分组分析的方法,通常是为了 08/07 08:38
13F:→ yhliu: 特殊目的。例如 Jackknife, bootstrap 是为了估计参数估计 08/07 08:39
14F:→ yhliu: 的误差;把资料分两部分一部分用於估计参数值另一部分当测 08/07 08:40
15F:→ yhliu: 试,是为了模型适当性的交叉验证;把资料按某种标准分组分 08/07 08:42
16F:→ yhliu: 别估计是为了更适当描述资料模型等等。 08/07 08:43
※ 编辑: saltlake (114.36.207.231 台湾), 08/07/2024 08:56:43
17F:→ recorriendo: 你都看到分布了代进去就知道了吧 08/07 20:59
18F:→ recorriendo: y_hat=β_hat‧x, β_hat ~ N(β,(X^TX)^-1σ^2) 08/07 20:59
19F:→ recorriendo: 所以 var(y_hat)=x^T(X^TX)^-1xσ^2 现在你的X只有 08/07 21:01
20F:→ recorriendo: 原本十分之一 如果X是独立抽样且每个column不相关 08/07 21:04
21F:→ recorriendo: 则(X^TX)^-1只有对角线 且十分之一的data就让每个 08/07 21:07
22F:→ recorriendo: entry大十倍 然後你取平均就只是让var变回跟原来一样 08/07 21:08
意思是所有资料都用来反算参数比较好?
如果分群反算参数,以估计参数信心区间,那麽之後把得到的参数平均後再代入
线性模型会比较可靠?
倘若是一般的(非线性)模型呢?
※ 编辑: saltlake (114.36.207.231 台湾), 08/07/2024 22:39:05
23F:→ yhliu: 模型不确定,例如回归函数不确定是线形的,以前做法是增加 08/08 08:10
24F:→ yhliu: 由线项去检测,或经由散布图或残差图诊断以了解较适当的回 08/08 08:12
25F:→ yhliu: 归函数;现今由於计算能力大幅提高,采用样条回归,局部线 08/08 08:14
26F:→ yhliu: 性,核回归等方法建立样本回归函数,但这些方法有个主要缺 08/08 08:16
27F:→ yhliu: 点是外延困难,甚至非公式化。至於模型参数估计误差之估计 08/08 08:19
28F:→ yhliu: 或参数信赖区间之计算,除公式推导外,较一般性的方法是利 08/08 08:20
29F:→ yhliu: 用 bootstrap 重抽法。 08/08 08:21
关於参数估计误差或信赖区间的公式推导,目前仅查到最简单的线性模型者,
请问有哪些书提供其他模型的推导? 或者要找不同的模型堆导,有甚麽关键字
有助从学术论文里面找到?
※ 编辑: saltlake (114.36.207.231 台湾), 08/08/2024 08:28:15
30F:→ chang1248w: elements of statistical learning 08/28 17:45
31F:→ conartist: 想用什麽cost function 都行,只是要有办法求出参数值 10/31 00:48
32F:→ conartist: 。只是刚好最小平方法能用推论得出封闭解 10/31 00:48
33F:推 conartist: 外加线性回归用最小平方法求出的参数估计量,刚好也符 10/31 00:52
34F:→ conartist: 合统计上的不偏特性 10/31 00:52