作者yellowfishie (喵喵喵喵~~~)
看板NTUGIEE_EDA
标题[转录] 别把随机当必然
时间Tue Feb 27 15:39:19 2007
http://mmdays.wordpress.com/2007/02/25/randomness/
Posted by Mr. Saturday
瀑布中的一滴水滴,你知道它最终会流过河川、汇入大海,但是此时此刻,你却难以精确
地预测这个水滴下一秒钟会是在河流或是瀑布中的什麽位置。这个观察告诉了我们,我们
可以看得见长期的趋势,但是微观的下一秒钟,我们却怎麽样也难以窥见其变化,因为需
要考虑的因素太多:水的流量、地形的细微变化、气候、温度等等都让我们对於一个水滴
走向的预测无法精准。当因素太多太多,以至於我们无法掌握时,水滴在某一个瞬间的走
向对我们来说就是随机的。我们只知道:不管这个水滴现在怎麽走,最终它会进入大海。
这就是Mr. Saturday这边想要浅谈的随机现象。随机现象在我们生活中处处可见,而且深
深影响我们的生活,很多不同科学领域的尖端研究,现在都是在对付随机现象。研究物理
的人研究到量子的层次,会发现这个稳固的世界居然是由一些随机乱跑的粒子所堆砌而成
。研究电脑科学的人,会发现随机方法竟然可以用来设计出简洁易懂的演算法,研究数学
的人,会发现机率模型竟然可以相当程度上帮助我们做出生活中的决策。那麽随机现象对
於我们现实生活中的启示又什麽呢?以下Mr. Saturday先举出一个电脑科学界的例子来阐
述。
机器学习(Machine Learning)这一个有关人工智慧的学门是电脑科学界最近相当热门的一
个研究领域,主要研究的方向和重点是结合演算法和统计资料,撷取出这些资料之内所隐
含的一些资讯,然後用这些撷取出来的资讯让电脑去对一些事情做预测,以此模拟出类似
学习的行为。Machine Learning在近年来取得了巨大的成功,让曾经一度委靡不振的人工
智慧研究又开创了许多新的契机。市面上的各种搜寻引擎就有应用相当多机器学习的技巧
在里面,让这些搜寻引擎好像真的有智慧,去猜测你要搜寻甚麽东西,然後回传精准的搜
寻结果给你。在这个研究领域中,有一个很重要的现象是每个刚刚学习机器学习的人都会
接触到的:这个现象叫做
Overfitting。要讲解这个现象之前,我们先举一个最简单的例
子来介绍机器学习。
如果你要教电脑去找出一个公式,用来计算出身高与体重的关系,那麽你的第一件事情就
是收集很多人身高与体重的资料(data),然後跑一个线性回归分析 (Linear Regression)
,在身高与体重的平面上找出一条直线去match这些data,这条直线电脑就拿来当作是计
算身高体重的公式:你给了电脑身高,电脑就算出体重给你,反之亦然。这是机器学习最
简单的一个例子。电脑所做的事情不过就是从资料看出身高与体重之间的大略关系。之所
以说是大略关系,是因为我们让电脑假设身高与体重的关系完全是线性的,所以我们找了
一条直线去当作身高和体重的model:身高越高,体重就越高。但是大家都知道身高和体
重不可能刚好是线性的关系,有些人很高但是体重却很轻,有些人很矮但是体重却很重。
所以当我们用一条直线来解释这些资料的时候,实际上我们会有一些误差存在。但是我们
知道,以统计上来讲,这个趋势是对的,身高越高的人通常体重会比较重,所以当我们知
道了某个人的身高,然後用这条直线去预测那个人的体重时,大部分的时候我们预测出来
的结果不会差太远。
现在有人觉得直线不是一种预测身高体重很好的model,所以想要用比较复杂的曲线来fit
这些data,结果他找出了一条完美的曲线来解释这些 data,这条曲线毫无误差,可以在
平面上完全穿过所有资料点。但是这个曲线会出现一个大问题:这条曲线完全没有办法拿
来预测一个人的体重:你有一个人的身高,然後拿这条曲线去预测这个人的体重,你会发
现大部分的时候算出的体重都是相当离谱。而且这条曲线看起来会弯弯曲曲,完全没有办
法看出身高与体重大致上是呈现线性的关系。这种现象就称为Overfitting,从字面上的
意思来看就是:我们对於资料做了过多的解释。Overfitting这个现象,在统计学习理论
上已经可以用数学来量化,在这边我们就略过不谈。
Overfitting给我们最大的启示就是
,不要对你的资料和你看到的现象做过多的解释。
研究哲学的人都知道Occam’s Razor这个原则:当你对一个现象有许多种解释时,记得选
择最简单的那一个。这个指导原则在机器学习领域是相当重要的一个概念,很多统计学家
和经济学家会建构相当复杂的模型来诠释他们的资料,试着去预测以後很多事物的走向。
举例来说 LTCM想要做的就是这种事情,两个诺贝尔奖得主搞出了一套模型,可以保证长
期下来,他们的投资绝对稳赚不赔,这群经济学家以为自己掌握了世界每一秒的趋势,世
界的金钱已经操弄在他们的经济模型之中,结果最後他们突然倒掉了。为什麽?原因很简
单:因为他们没有料到苏联会忽然解体。就这麽一个他们没有料到的因素(其实当时谁又
料得到呢?),就让他们的模型整个崩溃了。同样地,搞出越复杂的模型,你就会发现常
常这个模型对於解释新的现象时是不管用的。
反应在我们的生活之中,炒股票的人和那些老师,整天都在跟你讲明天股票是会涨还是会
跌,他们在做的事情,就是在跟你讲瀑布中的水滴下一秒钟会流到什麽地方。你觉得他们
猜得准吗?你还会相信他们吗?一群自称是趋势专家的人在电视上讲得口沫横飞,说出千
万个理由分析给你听,要你去买什麽什麽股票。在我看来,他们只是用极有限的知识在跟
随机现象对抗。像预测趋势这种连那些科学家和统计学家都还做不好的事情,你觉得这些
老师做得好吗?一家公司的股价图对於人类现在有限的认知而言,完全就是随机的,你不
可能准确预测下一秒钟准确的走向。股市甚至於连长期的趋势都难以预测,还记得我们的
水滴例子吗?如果你连长期的趋势都看不清楚,想要微观地分析更是难上加难。即使这个
世界上没有真正随机的事情,一切都是命中注定的,以人类现在有限的知识和电脑的运算
能力来说,也还是无法完全掌握的。
同样的,在股票市场上你会常常看到一些靠股市成为百万或是千万富翁的人出书大谈自己
的投资经,说明自己如何致富,讲得真是天花乱坠。我现在举一个简单的运算给大家看:
假设以你现在的资本,在股市连续赌一支股票十次涨跌,十次都成功,你就可以成为百万
富翁,这样的机率是多少?既然你每次都是闭上眼睛瞎猜,所以每次的成功率都是一半,
连续十次成功就大约是千分之一。看起来连续十次成功真的很难,不过换个角度想,如果
台湾有两百万人同时做这样的事情呢?你会发现平均来说,会有两千人在这十次赌博之中
成为百万富翁,如果这两千人之中有一些人跑来出书或是上节目大谈自己的投资经验呢?
没错,他们就变成老师了。随机现象让这些人成为百万富翁,然後这些人以及周遭的人开
始用过度解释和吹捧的方式来大谈他们赚钱的成功,最後的结果就是:大家都被随机现象
给唬了。连这些老师自己都相信自己真有一套本领能在股市呼风唤雨。就像是现在发达的
无名小站一样,被过度解释成台湾资讯界传奇,甚至连交大的校刊都特地写了一篇矫情的
专文来吹捧无名小站。而我对於无名小站今天的发展只有一个的解释:运气。
曾经有一些学者找来一群猩猩做实验,这些学者把华尔街日报的股票版钉在墙上,让这些
猩猩对那些股票名称射飞镖,当作是猩猩建议他们买的股票。结果蒙着眼睛的猩猩,朝报
纸股票版掷飞镖所射中的股票,并不比投资专家们的选股逊色。看到这个实验结果,你作
何感想呢?
讲了以上这麽多例子,并不是要告诉大家这个世界是随机的,所以我们做出再多努力也是
枉然。
人类真正可贵的地方,就在於对这些不确定性所做出的努力,能够让人类的智识更
推进一步,让我们更加了解这个世界。谈随机现象只是要提醒大家,很多我们想尽办法解
释的现象,其实往往都是随机的结果,这是这个世界运作的机率,确确实实存在,支撑着
量子力学,也支撑着我们的现实生活。
我们应该做的,是去看整体的趋势,而不是对於一
个短期的现象,钻牛角尖地想尽办法去解剖它。解剖的结果就会让你像量子物理学家一样
,困惑地发现井然有序的世界,竟然是由一些到处乱跑的粒子组成。长期的趋势是可以透
过努力研究在一定程度上达到预测的效果,短期趋势是谁也说不准。
随机现象本身是一个相当深奥的议题,谈到最後往往都会沦为「上帝究竟丢不丢骰子?」
的哲学议题,人类也许永远都无法了解这个世界是不是一切都命中注定,抑或是人总是可
以随时透过外在力量改变一些事物的随机世界。无论是怎麽样,努力之後得来的果实永远
都是甜美的。只是要记住,别被一些人解释随机现象的嘴炮所唬了,好像这些随机现象真
的像他们讲的那样完全可以预测。
别把随机当必然。
http://mmdays.wordpress.com/2007/02/25/randomness/
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.5.65