作者ides13 (juso)
看板Patent
标题Re: [新闻] 家登光罩盒诉讼演出逆转胜:从赔偿9亿多
时间Sun Jun 28 00:26:51 2020
推 MrCAKE: 如果是这样,关键字拓展之後还是卡关,就要想其他招了 06/26 08:35
推 MrCAKE: 以後AI检索更强的话应该能帮忙(吧) 06/26 08:41
推 patentable: 以目前机器学习的AI架构,还没办法做到了解文义 06/26 09:49
→ patentable: 对於检索的帮助其实非常有限,主要用在统计用字频率 06/26
09:50
https://hant-kb.kutu66.com/others/post_13649887
目前的AI可以做到「句子相似度」的计算,如上连结。
'this is a sentence'及'this is also sentence'的计算结果,高达0.915479828613的
近似度。
因此,如果要用机器帮忙找前案的话,可以先写下要找的句子(或词袋),然後用「句
子相似度」的演算法,来找出近似的专利。word2vec是由google提出来,google专利资料
库的近似专利,应该也是用这个演算法计算出来的。
考虑到专利用语的多变化,(以下是我乱想的,没有理论基础)想要提高演算的精确度时
,选择词袋中的词就很重要,可以考虑先对句子中的词进行处理。举例,可以考虑先把
下位词更换成上位词,或者把所有的近似词换成相同的词等,但这个需要自己整理词库。
因此,个人认为用机器帮忙找专利,是有机会的,但需要为不同的领域准备好自己的
词库。要用一般的词库应该很难达到实用的效果。
下面有整理出几个句子相似度的演算法。
https://reurl.cc/WdQkVx
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.32.228.170 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Patent/M.1593275214.A.74C.html
※ 编辑: ides13 (114.32.228.170 台湾), 06/28/2020 01:04:15
1F:推 patentable: 最大的问题确实是词库,还有上下位用语的关系 06/29 06:52
2F:→ VanDeLord: DL角度来看,原始资料清洗剩下的资料量和演算模型难搞 06/29 09:58
3F:→ VanDeLord: 之前想开发DL模型演算法,不过这一块太吃AI科学家能力, 06/29 09:59
4F:→ VanDeLord: 弄个五人团队加上硬体一年硬生生要掉我1200万台票,市场 06/29 10:00
5F:→ VanDeLord: 规模有限,暂时放弃先看後面AI硬体有没有办法降价XD 06/29 10:01
6F:→ VanDeLord: 演算法的部分等 AutoML的发展,看起来有机会 06/29 10:05
7F:→ VanDeLord: AutoML的好处是,将足够清洗好後的资料喂进去,会自己找 06/29 10:07
8F:→ VanDeLord: 最适合的演算模型, 而不是靠人设计模型,对於没有顶尖AI 06/29 10:08
9F:→ VanDeLord: 科学家的企业来说,这一块商机感觉很大 06/29 10:08
10F:→ ides13: 曾经想过这上面的的想法创业,但觉得应该不可能,只留在想 06/29 11:33
11F:→ ides13: 想的阶段,对於敢付出实际的人,都感到佩服。 06/29 11:34
12F:→ ides13: V大你真有勇气。 06/29 11:34
15F:→ ides13: 上面有代码,提供给有兴趣玩的网友参考。 06/29 13:10
16F:→ ides13: 只要更换sentance1及2的文字,就能算出相似度。 06/29 13:14
18F:→ ides13: 「GoogleNews」词向量的下载地址,如上。 06/29 13:18
20F:→ VanDeLord: 当初还找了金庸古龙小说训练出来的演算模型,跑一个月以 06/29 13:53
21F:→ VanDeLord: 终於一个claim里面有一小段话看起来比较像样 06/29 13:53
22F:→ VanDeLord: google : AI论文机器人 06/29 13:58
23F:→ VanDeLord: 不过我也发现有些美国网站开始有推销AI写专利这一块 06/29 13:58
24F:→ VanDeLord: 发明人只要输入发明内容,就会生成专利说明书给你..orz 06/29 13:59
25F:→ VanDeLord: 不过我看内容还是需要人工校阅就是了 06/29 13:59
26F:→ VanDeLord: 在语意模型里面, 英文比中文简单太多了...叹 06/29 14:00
28F:→ ides13: AI HUB,有在进行类似的专案。 06/30 15:07
29F:推 ealvis: 其实你用svm类似的方向去想ai分析专利,会落入pre-train 07/13 04:30
30F:→ ealvis: 那些拘束。但其实用cluster的方式去想专利相似应该会比较 07/13 04:30
31F:→ ealvis: 适合。以医疗分析也是这样,其实你不用管原本的分析标的在 07/13 04:30
32F:→ ealvis: 你的眼光是什麽特性,因为分析後的ai会告诉你为什麽他要这 07/13 04:30
33F:→ ealvis: 样分析。但真正的问题是拿ai来弄专利太浪费钱,拿这些钱 07/13 04:30
34F:→ ealvis: 来弄人命才比较好赚钱 07/13 04:30
35F:→ ides13: 谢谢提供进一步资料,原来还有cluster的方式。 07/14 13:37
37F:→ ides13: 目前是想找一种能够帮助检索的方式,但理论基础太弱了。 07/14 13:40
38F:→ VanDeLord: cluster是传统语意分析方式 08/01 14:30
39F:→ VanDeLord: cluster分析是有其优点 08/01 14:31