作者icqmsn ()
看板Python
標題[問題] Sequential Pattern Mining 問題
時間Tue Jan 9 12:45:44 2024
如下面簡易數字
客戶1於 2021_2 重複購買 產品A 3次
並於 2022_2 購買 產品B 1次
請問這樣在 Python 裡面做資料整理時
是要做成哪一種?
1. <{A},{A},{A},{B}>
2. <{A},{B}>
MemberID 產品 Year_Month
1 A 2021_2
1 A 2021_2
1 A 2021_2
2 C 2022_10
3 B 2022_1
4 C 2023_1
1 B 2022_2
2 C 2023_1
謝謝各位
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.125.101.58 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1704775546.A.41D.html
1F:→ Hsins: 你的資料服務的對象是你後續的處理機制,要整理成什麼形式 01/09 13:15
2F:→ Hsins: 是看你後續要做什麼,不是看使用的是哪一種語言。 01/09 13:16
3F:→ Hsins: 比如 (2) 的格式看不出客戶 1 購買了 A 幾次,如果用途是要 01/09 13:18
4F:→ Hsins: 看哪些商品有被購買,而不重視購買次數,那就 (2) 就足夠了 01/09 13:18
5F:→ Hsins: ,而 (1) 的格式既保留了購買次數也保留了商品,甚至先後。 01/09 13:19
6F:→ Hsins: 有時候先後次序不重要,你也可以用 {'A': 3, 'B': 1} 呀 01/09 13:20
感謝你特地回覆!!
其實我主要是想看敝司的產品購買先後行為,並結合RFM
看哪些會員是忠誠顧客且未來有可能會購買新一代產品。
因為我們產品是高單價,大部分會員都只購買一次或兩次居多
很少數才會每一代新產品出來都做購買 ; 或是重複購買
主要是想確認業界習慣用哪一種方式解讀
如果都沒差的話,應該是(2)就可以沒錯!
不然 (1) 做出來會像這樣
https://imgur.com/frYfHb5.jpg
另外有個問題想順便請問:
為什麼 support加起來會超過1?
照理講 support 是資料集內所有的交易次數的佔比
應該加總不會超過1才對!?
一直百思不得其解...
謝謝
※ 編輯: icqmsn (114.37.168.110 臺灣), 01/09/2024 23:06:01
7F:→ lycantrope: 不是都沒差,而是商業邏輯有沒有要考慮順序先後 01/10 09:21
8F:→ lycantrope: 加起來不是一,有沒有重複算,分母有一樣嗎 01/10 09:22
9F:→ icqmsn: 回L大:有的,順序很重要!這樣才能預估下一代產品有多少人 01/10 12:39
10F:→ icqmsn: 會再購買! 01/10 12:39
11F:→ icqmsn: 計算方式我是使用 CSPADE 演算法,不知道哪邊可再細調 @@ 01/10 12:45