作者icqmsn ()
看板Python
标题[问题] Sequential Pattern Mining 问题
时间Tue Jan 9 12:45:44 2024
如下面简易数字
客户1於 2021_2 重复购买 产品A 3次
并於 2022_2 购买 产品B 1次
请问这样在 Python 里面做资料整理时
是要做成哪一种?
1. <{A},{A},{A},{B}>
2. <{A},{B}>
MemberID 产品 Year_Month
1 A 2021_2
1 A 2021_2
1 A 2021_2
2 C 2022_10
3 B 2022_1
4 C 2023_1
1 B 2022_2
2 C 2023_1
谢谢各位
--
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.125.101.58 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1704775546.A.41D.html
1F:→ Hsins: 你的资料服务的对象是你後续的处理机制,要整理成什麽形式 01/09 13:15
2F:→ Hsins: 是看你後续要做什麽,不是看使用的是哪一种语言。 01/09 13:16
3F:→ Hsins: 比如 (2) 的格式看不出客户 1 购买了 A 几次,如果用途是要 01/09 13:18
4F:→ Hsins: 看哪些商品有被购买,而不重视购买次数,那就 (2) 就足够了 01/09 13:18
5F:→ Hsins: ,而 (1) 的格式既保留了购买次数也保留了商品,甚至先後。 01/09 13:19
6F:→ Hsins: 有时候先後次序不重要,你也可以用 {'A': 3, 'B': 1} 呀 01/09 13:20
感谢你特地回覆!!
其实我主要是想看敝司的产品购买先後行为,并结合RFM
看哪些会员是忠诚顾客且未来有可能会购买新一代产品。
因为我们产品是高单价,大部分会员都只购买一次或两次居多
很少数才会每一代新产品出来都做购买 ; 或是重复购买
主要是想确认业界习惯用哪一种方式解读
如果都没差的话,应该是(2)就可以没错!
不然 (1) 做出来会像这样
https://imgur.com/frYfHb5.jpg
另外有个问题想顺便请问:
为什麽 support加起来会超过1?
照理讲 support 是资料集内所有的交易次数的占比
应该加总不会超过1才对!?
一直百思不得其解...
谢谢
※ 编辑: icqmsn (114.37.168.110 台湾), 01/09/2024 23:06:01
7F:→ lycantrope: 不是都没差,而是商业逻辑有没有要考虑顺序先後 01/10 09:21
8F:→ lycantrope: 加起来不是一,有没有重复算,分母有一样吗 01/10 09:22
9F:→ icqmsn: 回L大:有的,顺序很重要!这样才能预估下一代产品有多少人 01/10 12:39
10F:→ icqmsn: 会再购买! 01/10 12:39
11F:→ icqmsn: 计算方式我是使用 CSPADE 演算法,不知道哪边可再细调 @@ 01/10 12:45