作者sxy67230 (charlesgg)
看板Soft_Job
标题Re: [请益] 关於 NLP 如何自学(书/公开课程)?
时间Thu Jun 2 22:28:00 2022
※ 引述《cylee (Artisan)》之铭言
: Hi 各位先进,
: 本人背景是毕业很久的资工硕,目前从事 infra 开发的 back-end
: engineer,目前待的公司准时上下班,想学些能累积技术的主题
: 熟悉的语言有: C++/Python/Rust
: 因为在学时完全没接触过,想请问有碰过的先进们,自学的话有没
: 有推的书、公开课能分享。另外 NLP 现在业界真的拿它来赚钱的公
: 司/组织是不是偏少(台商),还是只是我没碰到而已?
: 谢谢各位
基本上,可以先从传统的NLP领域开始切入,传统计算语言学的问题主要有Tokenizer、POS
、Entity Extraction、Dependency Tree、Relation Mapping、Intent Classification、S
ummarize、Coreference Resolution、Questions Answer、Language Translation等这些问
题开始下手。
如果没修过相关课程可以直接去听Stanford 的线上公开课程,有直接从传统统计语言角度
跟问题直接切入的,然後再慢慢进一步走到用DL的方法,本质上传统跟Neural的角度也不用
担心差很多,了解传统统计模型方法像HMM CRF这种会帮助你理解更多,怎麽透过传统角度
切换到DL角度。
然後当前比较重要的NLP领域基底就是Language Model(或是你会听到词嵌入Word Embedding
都是一样的),这个会在你做上述问题的时候会套用的预训练模型,你可以初部把他直接理
解为一个特徵转换器,可以把复杂高维特徵降维方便模型理解的方法。然後还有去理解一下
Self-supervised learning 方法,AR跟AE的自监督训练方法差异,想解决的问题。
剩下你想搞一些上层的应用大概就是这些问题组合拳一套,做ChatBot在加上一点IR的东西
加上树搜索就完成了。
然後想从书学的话,我推荐这本 Speech and Language Processing,这本大概就是圣经,
也是Stanford 的教授写的,剩下就是多读文献。
搞NLP比较弱势的可能就是业界应用会比较要媒体、广告相关去找会比较有应用空间,早期
有搭上车银行做监控跟客服这块也是有应用,不过这几年找得人就比较少了,或是这几年智
能合约也会应用到NLP,我自己今年就被两家币商找过想去做这块研究。
以上
----
Sent from
BePTT on my Sony XQ-AU52
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.216.46.151 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1654180082.A.F9F.html
1F:→ DrTech: Chatbot只做到IR确实很难找工作啦,光是语意理解就可以做06/02 23:01
2F:→ DrTech: 好多年了。我去年初找chatbot 的工作,台湾有两家给我20006/02 23:01
3F:→ DrTech: 万以上年薪。06/02 23:01
4F:→ DrTech: NLP不好找工作,很多是因为大家都只用API06/02 23:06
5F:→ DrTech: nlp真的只靠组合拳打天下,就是很难用的产品。06/02 23:08
这边说的组合拳是指我上面提到的问题解决的组合拳啦!就是NLU的部分,像RASA 也是可以
把问题拆成这些子问题再去pipline的解决,不过确实每个问题都可以深入到很深,只会IR
确实不够。不过靠这些切分帮助新手入门应该还是可以的,像更深入的架构Meta出品的Blen
derBot也是可以把他想做的事切分成以上子问题,还有一个问题除了IR外没提到的就是Long
term memory的问题也是Chatbot 一个子问题,只是跟NLP有点偏离就没提了
※ 编辑: sxy67230 (49.216.46.151 台湾), 06/02/2022 23:39:52
6F:→ recorriendo: 那是NLP圈子说的discourse analysis、information06/03 13:04
7F:→ recorriendo: structure 一直以来都有人在做 intro的书或课程少06/03 13:04
8F:→ recorriendo: 提而已06/03 13:04
9F:→ recorriendo: 还有word embedding是词的模型 language model是句06/03 13:06
10F:→ recorriendo: 子的模型 指的不一样06/03 13:06
感谢,想说想用初学者的角度切入就举word embedding,这边你才是对的
※ 编辑: sxy67230 (49.216.30.37 台湾), 06/03/2022 20:19:13
11F:→ sachialanlus: 根据自身经验 了解language model的发展很有帮助 06/06 22:06