作者willieyeh1 (yeh)
看板CSSE
标题[问题]想请教关於计算文章相似度的问题
时间Wed Dec 27 11:41:32 2017
各位好,想请教关於文章相似度计算的问题.
目前知道计算文章相似度有一些演算法,例如下列这四种:
1.LSI
2.LDA
3.Doc2vec
4.TF-IDF
因为想运用这四种演算法做文章相似度的计算,但由於之前无相关背景,
也请教过一些资讯系的教授,但目前问到的教授,皆未从事相关领域的研究.
能否请教各位有经验的大大是否能提供一些关於这些演算法的说明介绍
或是哪些网站可以找寻到相关的资讯,以便了解如何实作出这几个系统,谢谢.
或是有哪些特定的软体,可以模拟这几种算法,并能够求解,谢谢.
所要解决的题目网站:
http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.160.173.125
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/CSSE/M.1514346096.A.4BC.html
1F:推 castman: google "gensim tutorial", 有LSI计算相似度的范例, lda, 12/27 13:07
2F:→ castman: word2vec 基本上也是换个 method call 12/27 13:07
3F:→ castman: gensim 是 python 的 library 12/27 13:08
4F:→ willieyeh1: 谢谢分享! 12/29 00:55
5F:→ willieyeh1: 我找了一下,是否是Python有提供这几种算法的program呢 12/29 23:30