作者wheado (principal component QQ)
看板DataScience
标题[问题] 监督式学习的资料使用强化学习方法实作
时间Thu Oct 7 10:49:30 2021
由於工作上遇到一般监督式学习解决不了的问题,
也可能是功力不到家,
总之会需要用强化学习试试看,
我目前的问题是一个监督式学习,有X有Y但就是学习不起来。
从课程上知道如果一个监督式学习训练不起来,
可以使用强化学习的方法来试试看。
再参考网路上的文献跟教程之後,
初步理解了像是 agent, environment, action, retrun, reward
等等专有名词的定义,
也初步理解了 action function
以及 state transition function 这些函数的用途以及随机性的原理。
问题来了,一般监督式学习(手写辨识),
通常是有一些资料(X)及标记(Y),
接着就是写一个forwrad流程来,
更新我的模型 weight 即可。
如果我要将这个问题(手写辨识)用 RL 实作一次,
要怎样做?我尝试上网搜寻但是没有找到类似的范本,
我从官方教学看到的范例是马力欧跟木棒平衡(?)
我看完官方教学有感觉到
强化学习是要有一个互动环境才能 work 。
一般监督又要怎麽转过去...
有没有前辈可以指点,谢谢。
或是有看到相关的关键字都可以跟我说,感谢。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 218.164.5.43 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1633574972.A.644.html
1F:→ email81227: 我觉得你是不是搞混了强化学习跟迁移学习? 10/07 18:26
2F:→ chang1248w: 不要绕远路吧,讲一下你的资料和模型怎麽选 10/07 18:38
3F:→ wheado: 老板希望的...我也觉得是绕远路,但我无法说服别人... 10/07 22:17
4F:推 kriswu8021: 怎麽会觉得supervised的做不了RL就做得出来xd 10/08 05:03
5F:推 yiche: 觉得只是换一个解题思维,当我的最佳化对象不可微分时,设 10/08 10:24
6F:→ yiche: 计为RL的reward 希望reward愈大愈好,用RL架构env-agent互 10/08 10:24
7F:→ yiche: 动来解 10/08 10:24
8F:→ yiche: 只是原po的情况,不晓得该怎麽设计为RL。 10/08 10:25
9F:→ yuwenche: 这须要自己写Env.,真实世界的RL问题通常要这麽作.不过, 10/08 11:45
10F:→ yuwenche: 这应该比监督式学习难多了. 10/08 11:47
11F:→ DarkIllusion: 不知道你想解什麽问题 但RL通常是用来解MDP问题的 10/08 15:20
12F:→ DarkIllusion: 看到了 手写辨识 这跟MDP问题看起来没什麽关系 10/08 15:39
13F:→ DarkIllusion: 也许你可以聊聊遇到了什麽困难? 10/08 15:42
14F:→ kriswu8021: 不可微明明就还有很多更直接的optimization 啊… 10/09 01:08
15F:推 ILYY: 感觉走错路了 10/12 10:04
16F:推 Bujo: 典型的老板跟工程师都不知道自己的问题是什麽 10/22 17:54
17F:→ RumiManiac: 要搞 RL 先把 Sutton 教科书读过吧 10/28 11:52
18F:→ RumiManiac: 你遇到监督式学习解决不了的,有分析清楚为何不行吗 10/28 11:54
19F:→ RumiManiac: 如果没有,那改用 RL 做了也解决不了怎麽办 10/28 11:54
20F:→ yoche2000: 重点是 problem formulation 吧 11/04 15:20