Redology 板


LINE

张爱玲名言:「红楼梦看到八十回後,一个个人物都语言无味,面目可憎起来」 对岸有人用电脑运算80回前後用词习惯的改变 虽然特徵选取方式尚有可议之处 但也呈现出值得参考的观点 知乎:用机器学习判定红楼梦後40回是否曹雪芹所写 https://zhuanlan.zhihu.com/p/21421723 作者:黎晨 作为一个从没看过红楼梦的人,我的大致思路是这样的: 1.受到全职猎人里蚁王破解会长无敌招数的启发,每个人的写作都有些小习惯,虽然文章 前後说的内容会有差别,但是这些用词的小习惯不容易改变; 2.用开源的分词工具把全书分词(python的jieba分词),然後统计词频。把出现频次超 过100次的词语找出来,人工去掉一些可能因为文章内容造成前後出现不一致的人名、 地名 3.然後每一章按照2中的词频表,看这一章中出现这些词语的频次; 4.前80回、後40回各选15回作为机器学习的数据,让机器学习这些章节的用词特点,然後 推算其他章节的用词特点是属於前80回呢、还是後40回; 5.如果机器根据这些用词特徵推算的是否属於後40回的结果跟实际的结果吻合,那麽就说 明後40回的写作风格跟前80回有很大不同,很可能是两个人写的; 好了,下面我尽量少涉及数学跟编程的知识,来一步步解读机器学习是怎麽完成这个问题 的。 生成全书的词频表 https://pic4.zhimg.com/86db71e47e3cbd6091906d50c61ab967_b.png
我截取了其中一段的词频表。像宝二爷、黛玉笑这种涉及人物的词语,可能前面戏份多、 後面戏份少,所以就不选它们作为用词习惯的特徵,而像忽然、故、只要、可不是这种承 接性质的碎词,就不太容易会受情节的影响,所以适合选出来作为用词习惯的特徵。 最终,我按照出现从多到少排序,选择了278个词作为机器学习的用词习惯。 将120回的词频进行统计 接下来我把每一回出现这278个词的频次统计出来,得到我们给机器学习的样本。这个样 本的样子大概是这样的: https://pic1.zhimg.com/999d0b7e34e5df4f9f00a6bdffec245c_b.png
比如以B行2列举例,说明在第一回里面「道」这个动词,出现了36次。 通常我们在进行复杂的事情前,喜欢先简化问题,或者给自己一些直观的图表,以便了解 问题。机器学习也是一样的。 我尝试着在图上把前80回和後40回习惯用词出现的频次画出来。以第一回为例,x1坐标代 表「道」出现多少次,x2坐标代表「说」出现多少次,x3坐标代表「也」出现多少次 ......x280坐标代表「则」出现多少次。 什麽?超过三维了,那人类的大脑可是没办法理解的啊。 没关系,当我们用灯光照射一个立体的图时,平面会有它的影子。这个影子虽然没有立体 图的信息这麽丰富,不过我们看影子还是可以猜出来大致的样子。对於高纬度的问题,我 们也可以用投影的方式来降低纬度。 虽然信息损失了不少,不过能给我们一个直观的感受。 https://pic3.zhimg.com/d89993509cfb2ea46e2fead27df7616e_b.png
这个是120个章节的用词习惯从278纬降到3维以後的图,红色+的点是前80回,蓝色o的点 是後40回。 从这个图可以直观地看到,确实在用词习惯上有明显的区别。就算我们没有机器学习工具 的帮忙,也可以大胆猜测後40回是出自於另外一个人了。 下面我们用机器学习来看精确一点的判断。 机器学习 通过课程我大致了解了SVM的原理和简化版问题的算法实现,不过对於复杂问题我还是没 这个编码能力的。於是用python的scikit库来帮助我来完成这个预测。 算法的步骤很简单,前80回、後40回各选15个来喂给机器学习它们的特点,然後把剩下的 章节输入给机器,问它们属於前80还是後40。 https://pic4.zhimg.com/8269c925992144fa4ab1cc18be09d7af_b.png
看out[44]的结果,代表了机器预测这120回的用词习惯到底属不属於後40回(0为不属於 ,1为属於)。 如果你看不懂上面的代码,没关系。我告诉你结果好了。 机器在学习以後告诉我,如果我把随便一章的用词习惯告诉它、但不告诉它到底是前80回 还是後40回,那麽机器有95%的把握能猜出它是不是後40回。 至此,我们可以很有信心地判断它们的写作风格不同。 那麽,问题来了,会不会因为是情节的需要所以导致写作风格不同了呢? 情节不同会造成用词习惯多大的差别? 好吧,那我再来做一个旁证。我把另外一部四大名着「三国演义」拿来分析,看看上部跟 下部的用词习惯会不会有比较明显的差别。 https://pic2.zhimg.com/83a849aba46a550bf5fb9094aa76b121_b.png
这个是三国演义的用词习惯缩到三维以後的图,红色+代表前60部的用词习惯,蓝色o代表 後60部的用词习惯。 你可能会说,虽然中间交叉的地方比较多,但是还是可以看出来是有区分的。 可如果你比对一下跟红楼梦的图,你就会发现红楼梦的差别会明显得多。 https://pic2.zhimg.com/c3117edef7f9f8a05672c37fac4a6f59_b.jpg
(红色+为红楼梦前80回/三国前60回,蓝色o红楼梦後40回/三国後60回) 最後,用机器学习的方式来说,如果我把三国演义随便一章的用词习惯告诉它、但不告诉 它到底是前60回还是後60回,那麽机器有7成的把握猜对,这个准确度已经远远低於红楼 梦的95%的预测水平。 所以,我们用「三国演义」这个旁证来分析,即便是因为情节需要导致的用词习惯差别也 不应该这麽大。 所以,我们就更有信心说曹老先生没有写後40回了。 更多的机器学习有趣的玩法,我会在学习的过程中慢慢尝试的。以上。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.141.160.87
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Redology/M.1467790081.A.319.html
1F:推 Ruthcat: 太强了! 07/06 16:10
2F:推 Saddy: 有趣~~ 07/06 17:44
3F:推 shaple: 太酷了 会想到这样分析还真是厉害 好有趣的想法 07/07 09:49
4F:推 taichungbear: 我FB转这篇,不到八小时就33人转贴 07/07 10:26
5F:推 pandatom: 推 07/07 11:46
6F:推 jimmyzhan614: 方法不够严谨 至少也要cv反覆训练才行 不过题材很 07/07 12:17
7F:→ jimmyzhan614: 有趣 07/07 12:17
8F:推 JKHOHS: 赶快推一下 不然人家以为我看不懂 07/07 13:00
9F:推 disney82231: 政大统研所有一篇论文也是用数据分析後40是否是同一 07/07 13:31
10F:→ disney82231: 个作者,结论好像也是非同一个作者~ 07/07 13:31
11F:推 alan23273850: 推推 07/07 13:54
12F:→ bauss: 杜协昌博士在四年前的数位典藏与数位人文研讨会 07/07 14:02
13F:→ bauss: 发过〈利用文本采矿探讨《红楼梦》的後四十回作者争议〉 07/07 14:02
14F:→ bauss: 利用断词跟词频分析的方法也几乎一样? 07/07 14:03
15F:推 braveoscar: 请问你在训练阶段成效如何? 07/07 14:07
16F:→ braveoscar: 训练的好不好? 07/07 14:08
nikolas:转录至看板 Python 07/07 14:18
17F:推 bravobee: 不过我觉得,以三国演义来做对照的结果,似乎显示情节有 07/07 14:28
18F:→ bravobee: 很重要的影响? 07/07 14:29
19F:推 poeplew: 厉害!!! 07/07 17:54
20F:推 HealthyAging: 分析一下鹿鼎记跟金庸其他作品 07/07 20:00
21F:推 Dissipate: 後四十回稍微翻一下就觉得文字很罗哩八缩 07/10 21:20
22F:推 Dissipate: 撇开情节 在叙事上就觉得不够精练 口气突变 07/10 21:21
23F:推 Titac: 强! 09/09 23:30
24F:推 hml3363power: 超科学!!有信服力 09/13 14:28







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:iOS站内搜寻

TOP