作者eieio (好多目标)
看板Inference
标题Re: [问题] 我妈问我的两个问题
时间Tue Apr 3 00:50:07 2007
※ 引述《ddavid (星舞弦独角兽神话忆)》之铭言:
: 以下通用式可以轻松弄出任意解:
: (x - 1)(x - 2)...(x - n)
: f(x) = ──────────── + g(x)
: a
: 其中分子n是代入所有提供的项数,m是一个随意可变的值,g(x)是出题者预想的
: 答案。比如1, 2, 4, ?, 16这个数列,我们会直觉想式子是2^(x - 1),猜?是8,但
: :
: (x - 1)(x - 2)(x - 3)(x - 5)
: f(x) = ────────────── + 2^(x - 1)
: a
: 在x = 1, 2, 3, 5时前面为0,所以答案刚好分别是1, 2, 4, 16。但代入4得到
: 的是-(6/a) + 8。只要随意调整a的值,就会形成一个1, 2, 3, 5项都符合题目但第
: 4项(及其他项)有任意可能的新数列。
这个已经 overfit 了吧
在统计上,你有一堆 x 与 f(x) 的实验数据,还带有误差,要去找出这个 f()
。正常的做法,是尽量用「越少文字越好」的方法去描述 f()。当你有新的数据
时,通常仍然会符合你求出来的 f()。当然你可以用你的方法去做 f(),你的公
式用了相当多的文字,可以完美地通过数据中每一个点,但是当有新的数据进来
後,几乎是一定不可能符合你的 f() 的,你还必须修正,等於你的 f() 没有意
义,这个称为 overfitting。
这种题目,就是要用尽量少的文字去表示它的规律。
--
Just because you deserve this
doesn't mean they're gonna give it to you.
Sometimes you gotta take what's yours.
── Kenny Ray Carter
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 138.23.2.34