作者ides13 (juso)
看板Patent
标题[闲聊] 一技术描述与 多专利请求项1的相似度
时间Sun Jul 5 15:14:16 2020
分享一个“找出「一技术描述」与 「多个专利请求项1 」间的相似度”的程式。
https://reurl.cc/9EmGQn
1、要使用这支程式,建议安装,anaconda python。并且,需要gensim 套件。
2、功能:找出「一个技术描述(sentance1)」,与 「patentlist 中各专利请求项1 」间
的相似度。
3、此程式的使用方式如下:
#sentance1 指的是一个技术的描述,最简单的方法就是一个发明的请求项的记载方式。
#patentlist 提供想要比对的美国专利书号码,例如['US7654301B2', 'US7654300B2',
'US7654329B2']。
4、改变上述要点3中的变数sentance1及patentlist并执行後,会得到
claim_similarity.txt的文件,打开该文件後,可以得到相似度的计算值,如最後所述。
5、结果:如果把一件专利的不同组的请求项,当作sentance1时,相似度会达0.9以上。
因此,此方法有实用上的「可能性」,但实际上效果可能没有很好,需要再优化。目前,
我把它当作阅读顺序的排序,觉得满好用的。
如果显示0的值,表示没有爬到该专利的内容。
目前只能从google专利资料库中爬到美国专利的内容。
与US5419973A间的相似度 = 0 -->没有爬到该专利的内容
与US6111377A间的相似度 = 0
与US6139976A间的相似度 = 0
与US6410174B1间的相似度 = 0
与US7935439B2间的相似度 = 0.7107066750526427
与US7074155B2间的相似度 = 0.7974137131141663
与US7263240B2间的相似度 = 0.7750532627105713
与US7757929B2间的相似度 = 0.7196704377664795
与US7777529B2间的相似度 = 0.7253437776701355
注:参考了以下几个程式。
google_patent_spider
https://pypi.org/project/google-patent-scraper/
pypatent
https://github.com/daneads/pypatent
patent_client
https://github.com/parkerhancock/patent_client
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.32.228.170 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Patent/M.1593933263.A.6F3.html
※ 编辑: ides13 (114.32.228.170 台湾), 07/05/2020 15:16:37
1F:推 kaikai1112: 感谢分享 07/06 10:21
2F:推 airrooco: 不明觉厉 XD 07/08 08:31
【更新】
claimsim_20200708.py
1、需要pypatent的档案,我要修正它,所以直接下载并修正档名为「DanEadsPypatent」
来使用,请同时下载该档案。
2、本案是爬美国专利资料库,已可以爬公开说明书和专利说明书。
3、本次修正,已可以计算整个说明书的段落的近似值,只是段落的编号与说明书编号不
一样。请用p = thispatent('US6924620B2').description[3]来查询段落内容。输出结果
为:claim_similarity.txt。
4、与前次版本不同,本次不会下载任何档案,是以後修正的目标。
※ 编辑: ides13 (114.32.228.170 台湾), 07/09/2020 08:55:14