Re: 罗马共和的终结/苏拉内战/苏拉宪改

时间Wed Dec 31 02:56:37 2025

※ 引述《plamc (普兰可)》之铭言 : 苏拉亲自撰写的墓志铭： : 没有一位帮助我的朋友没有受我报答，也没有一位冤枉我的敌人没有遭我报复 : 苏拉的座右铭则是： : 没有比我更好的朋友，也没有比我更坏的敌人 : ------------- : 我自己还蛮肯定苏拉的座右铭的 : 我也希望大家都会觉得，没有比我更好的朋友，也没有比我更坏的敌人XD : ------------- == 强化学习! https://i.meee.com.tw/nOBr6l0.jpg

https://en.wikipedia.org/wiki/Reinforcement_learning 帮助我->一定报答= positive reward 冤枉我->一定打你 negative reward 没有例外= 可预测 reward function 长期记住每个人 stateful agent 名声扩散到整个罗马 policy shaping 就现代眼光看==? 苏拉其实不是在“当人“ 而是在把整个罗马训练成一个对他最有利的环境: 人是被是被回馈函数给塑造的. 他不用到处杀人, 但整个罗马都知道“怎麽对待苏拉“. The Meta Policy Player https://i.meee.com.tw/YSRtnmo.png

大家可以注意到, 在强化学习中, 其实大部分的agent跟苏拉并不一样- 在当下的环境中寻找最佳policy. 但苏拉不一样. 他发现罗马共和晚期的环境已经乱掉了- noise太高+ reward模糊. 於是他把自己变成近似environment本身的超级玩家透过: 没有例外+ 一定回馈的极端确定性-> 所有人的策略迅速收敛到“服从他“这单一点. : 辩论，元老院决策变得混乱不可预测，苏拉本 : 来想要由少数菁英执政体系元老主导，其他外围元老作为监督者的设计失败，元老院因为 : 功能故障反而边缘化为什麽meta policy player这套没人用? 我们可以先看他呈现的元素: 1. 对罗马治理贡献 2. 可见度: 整个罗马都知道 3. 可重复性: 他活着的时候可重复使用 4. 他人受损程度: 大, 好多人被杀其实这边就很明显了: 1×2×3 看起来都很不错对不对? 但别忘了, 4是这个公式的分母. : 其结果，苏拉正确的结构改革都被推翻，只有错误的被留下来，使得罗马共和宪政更加故 : 障，快速走向专制独裁苏拉的规则只对“苏拉存在“的场景有效, 罗马的人没有学会如何在没有苏拉的制度下运作 . 结果就是你看到的: 当强大的reward function(苏拉)被抽离, 系统立刻崩溃. 想建立长期的系统, 看起来不能像苏拉一样. 不能只做一个好的agent. 至少得补上一个好的reward fuction- The Generalization https://i.meee.com.tw/R4eQoQu.jpg

举一个最简单的例子(我後来设计很多==)大家有没有遇过一种状况: 你在自助结帐柜台, 不小心同一个东西刷了2次, 旁边都有一个== 帮你操作机器取消多余次数的店员. 你或你身边的人肯定有这种经验: 你结帐没有任何问题, 但是出去的时候都会跟那个店员擦身而过, 有人就会微笑/点头/避开店员视线. 但店员真的需要你做这些吗? 如果一天有一百万人个经过他, 都跟他== 眉来眼去, 然後还有人检举他没有礼貌不回应, 你觉得会怎麽样? 在每一个流程型的场景里~ “有礼貌“根本是错的 (这是我一年多前有一天突然发现的== 我本来也是很不会应对人我看到熟人常常扑过去但不熟的我真的很害羞... 我十几岁时的职业几乎可以认为是童星中间为了某件事所以我有3个合法名字以前...真的很不会跟一般人相处就是差不多~ 这两年才开始真正接触一般人就是超级笨) 最好的做法自然是- 不给他任何讯号(0) Information (0,1)= reduction of uncertainty 1. 你不用想任何让你肌肉紧张的事情(跟陌生人微笑其实会触发极短的肌肉僵硬-> 脖子有可能会累积酸痛). 这是利己 2. 店员不用观察你到底是有什麽问题, 这是他根本的职责所在, 如果你不让他误会, 他工作会减少很多麻烦 (如果你刻意低头== 人家大概会想: 我是来工作的你哪出啊!) 不管店员可能短期觉得你有点冷漠, 但长期下来他绝对会意识到你是个乾脆的人-> 没有增加他的本质负担, 这就是利他. “4是这个公式的分母, 伤害了很多很多人.“ 利己利他->我们来检讨一次- 不伤害人, 这分母会造成重复的策略~ 具有相当大的可行性. https://i.meee.com.tw/scU0bLJ.jpg

如果我们在各个场合设计并发布设计逻辑: 餐厅(或其他的随便)不可接受任何人的powerpla y(eg 有Karen喜欢说:你知道我有多有钱吗), 因为这样会干扰工作人员, 造成他们精神不好 ->最後害到的是你使用这个场合的利益这种可见性+不让人猜测(移除不清晰的状态空间)会形成一个attractor(收敛点) 想强行powerplay, 也会意识到自己很蠢==-> 违规的成本(显得愚蠢)就会内建在互动逻辑里 . (形成上图的地形) variance Wikipedia: 又称方差[1]、变方[2]，在机率论及统计学中，描述的是一个随机变数的离散程度，即一组数字与其平均值之间的距离的度量，是随机变数与其母体均值或样本均值的离差的平方的期望值。变异数在统计中有非常核心的地位，其应用领域包括叙述统计学、推论统计学、假说检定、度量适合度，以及蒙地卡罗采样。苏拉的系统-> 1. 高variance, 他在/不在差异巨大 (上面的公开逻辑-> 低variance, 稳定可预测) 2. 有“服从/不服从“ 2种状态公开利己利他的设计原理只是其中一环(我不方便说其他的), 虽然可以普及到很多场合, 但效用有限. 如何设计系统? 我们可以在上面的原理上再度抽取一次原理: 苏拉的系统-> 高variance(他在/不在差异巨大) 有“服从/不服从“ 2种状态, 奖励太稀疏(其实这会引起有人冒险讨好苏拉) 反过来可以= 温和但一致的讯号 + 让agent学会generalisation, 而不是只记忆特定情境 + 细致 (多种合规行为都有奖励)-> 即使移除任一agent, 系统仍然可以运作(投机状况少) → ZMittermeyer : 宪法就和物理定律一样要配合现实的动力学才行的这是一个很有趣的说法让我想到水獭的the extended phenotype: https://youtube.com/shorts/v1xeGiBzmYs?si=pOuzvu15PAOicxfW 水獭会盖水坝, 但这是他们知道怎麽盖吗? 不是的, 这其实有个非常特别的现象: 你拿手机播放水声给他听, 说他的手手就会在那边== 空盖东西 (不是苏拉獭或是其他强水獭教的== 也不是牛顿獭发明的是自然本身的结果) https://i.meee.com.tw/IP0CvnX.jpg

所以他能盖小水坝~ 让自己舒服这是什麽?看起来 1. 任何行为都是根植於truth feedback建立起来的 (2. 照水獭的演化来看, 上帝如果存在, 他一定是一个程序员. 更可能的是-> 这让我们的自然看起来完全不需要上帝. 这里我不打算走太远== 又到了哲学去了, 我不打算陈述== 因为我文章从来没有任何哲学内容, 全部都是计算型的) 苏拉feedback基本上不是truth feedback(做某事很自然的得到结果, eg 抛你的食物+>掉到地板上~ 不能吃了/ 你拍球球->地板上传来声音/ 你骂别人->那个人不喜欢你), 而是power feedback(== 不管你做什麽苏拉决定你的下场). 从水獭来看, 形成空盖==的行为到底要几代水獭? 我... 没有调查过不过我觉得有意思的是- 水獭会这样变成, 全是因为後代更有利传下去.他们这些前水獭, 还没有变成有完整空盖行为的小水獭. 他们不知道自己的物种正在变成什麽. 但每一个演化的节点, 却全是一个生命的一生. 我们人类也是一样: 不知道自己的物种正在变成什麽. 听起来我们处在当下演化的节点, 这却是我们生命的一生. 但到了人类,出现了一个关键差异: 我们有前额叶, 不再只有那种空盖行为(我们其实还有惊吓反射). 我们可以脑内模拟, 走出很远的地方, 甚至盖火箭. 还有马丁路德金看到种族歧视而牺牲自己的一生去理性对抗. 我们服从临时的情绪(过去的资料->本质只是避免生物再犯), 是不是自由? 还是模拟出一条几近不可能的路, 我们预测一切方法, 通过困难, 才是真的自由? 这让自由彷佛有了可计算的边界 https://i.meee.com.tw/scU0bLJ.jpg

eg 同样类型的错误, 在不同人身上反覆出现如果只是某个人, 那错可能只是那个人. 但我们要知道: 如果是每个人都错, 那错的来源... 一定不是人应该要基於宇宙的本质(truth feedback) 去面向未来在限制中把自己推向有利的方向同时用设计把每一个人的心都好好的守护起来上来看, 最後一篇心情文就留给这板当== 情书我挺喜欢ZM(我看你的新的那篇感觉有打我脸== 我不知道幕末你说的那些常常想一些有的美的很聪明)还有plamc(人好+创造力+有目标很聪明)(我觉ZM像是诸葛孔明 plamc像是曹操我自己是十分像吕布可惜没时间三国志结义) 这篇文章跟你们两个特别的人闲聊一下这是我最後一篇ptt文章祝你们好的2026 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.182.65.155 (澳大利亚) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DummyHistory/M.1767121002.A.A1E.html

1^F：→ selfvalue: 你们下次来美国之前可以考虑看看先来lesswrong发个文12/31 06:19

2^F：→ selfvalue: 章来参加聚会12/31 06:19

3^F：→ selfvalue: 上面很多创造型的全球公众人物或是比较有趣的人像na12/31 06:19

4^F：→ selfvalue: sa工作人员可以来玩12/31 06:20

5^F：→ selfvalue: 不急什麽时候都有只是觉得你们应该比较少碰到同类 l12/31 06:21

6^F：→ selfvalue: w上都是这种==怪怪的(我不一样我是很时髦的)12/31 06:21

7^F：→ selfvalue: 你们发文我有看到的话会在文章下面评论== 用力反驳你12/31 06:22

8^F：→ selfvalue: 们12/31 06:22

9^F：→ selfvalue: happy new year12/31 06:22

https://i.meee.com.tw/JtvUEzf.png

※ 编辑: selfvalue (49.182.65.155 澳大利亚), 12/31/2025 09:01:09

10^F：推 ZMittermeyer: 历史的工程学语言翻译... 12/31 12:11

11^F：→ ZMittermeyer: 应该问卷调查一下看得懂的人举手 12/31 12:11

12^F：→ selfvalue: == 我知道你看得懂就好 01/01 18:33

13^F：→ selfvalue: 写给更多人看我会组织一下不会乱跳== 01/01 18:33

※ 编辑: selfvalue (49.182.65.155 澳大利亚), 01/01/2026 19:10:14 ※ 编辑: selfvalue (49.182.65.155 澳大利亚), 01/01/2026 19:15:23

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DummyHistory 板

Re: 罗马共和的终结/苏拉内战/苏拉宪改

热门看板

赞助商连结