作者yimean (溫柔殺手)
看板Python
標題[問題] dataframe卡關
時間Tue Jan 28 23:09:18 2020
各位版上的大大晚上好,我正在寫一個資料分析,目前卡關了。
請高手指導一下,感恩。
我的原始資料如下
品名 出貨數量 出貨日期
165 667 7000 2019-01-04
169 667 5000 2019-03-20
167 667 6000 2019-06-05
168 667 6000 2019-06-05
164 667 9000 2019-10-02
170 667 3500 2019-10-02
166 667 7000 2019-12-03
其中165,169,167.....,166是原本的資料序號
也就是說,這個資料是我已經經過處理的資料。
我想要做的事情是把每個月分的資料作統計預,計資料應該是長成下方兩種其中一種
Type1:
出貨數量 出貨月份
7000 01
5000 03
12000 06
12500 10
7000 12
Type2:
M=[01,03,06,10,12]
V=[7000,5000,12000,12500,700]
我有試過for loop加上if判斷,但是最後都卡在index的問題解決不了。
這個用SQL幾行就解決了。
不過最近在學習Pandas的Dataframe操作所以就想拿來做做看。
結果~~卡關~~~真的是有點丟臉,但是問題還是要解決,不然我時間就白花了。
懇請高手指點一下,感恩。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 106.1.36.147 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1580224160.A.13E.html
※ 編輯: yimean (106.1.36.147 臺灣), 01/28/2020 23:10:09
1F:推 poototo: df=df.set_index(["出貨日期"]) 01/28 23:55
2F:→ poototo: 以時間序列做index,然後設取樣頻率 01/28 23:56
3F:推 poototo: resample,asfreq...相關用法及參數下得好,比SQL更簡單 01/29 00:05
4F:推 poototo: 或者新增一個月份欄位來groupby 01/29 00:13
5F:推 poototo: df['月']=df['出貨日期'].map(lambda x:x[5:7]) 01/29 00:34
6F:推 TitanEric: 把出貨日期轉datetime再groupby月份感覺比較好 01/29 00:47
7F:→ OrzOGC: 有時上一下stackoverflow就會晃然大悟:N小時前的我是在 01/29 02:02
8F:→ OrzOGC: 蠢什麼的...這麼簡單的東西搞老半天 01/29 02:02
9F:→ yimean: 感謝p大, T大跟O大 我已經成功取得月分了,但是我畫不了圖 01/29 10:42
ER['月']=ER['出貨日期'].dt.month
V=pd.DataFrame()
V=ER.groupby('月').sum()
V長這樣
月
1 7000
3 5000
6 12000
10 12500
12 7000
Name: 出貨數量, dtype: int64
我有試過plt(V.['月'],V.['出貨數量'])
但是還是錯誤 >.<
ValueError: shape mismatch: objects cannot be broadcast to a single shape
※ 編輯: yimean (106.1.36.147 臺灣), 01/29/2020 10:46:06
10F:→ TitanEric: group by後好像變成series不是dataframe 所以不太能用 01/29 11:44
11F:→ TitanEric: index方式取值 01/29 11:44
12F:→ TitanEric: 可以試試plt(V.index, V.values) 01/29 11:45
13F:→ yimean: @T大感謝回應,還是不行,我把V.index跟V.values印出來 01/29 12:03
print(V.index)
print(V.values)
長這樣
Int64Index([1, 3, 6, 10, 12], dtype='int64', name='月')
[[ 7000]
[ 5000]
[12000]
[12500]
[ 7000]]
※ 編輯: yimean (106.1.36.147 臺灣), 01/29/2020 12:04:08
14F:→ yimean: 我最終找到這個解法S=V.unstack() 01/29 12:12
15F:→ yimean: plt.bar(V.index, S.values) 但是我不知道為什麼。 01/29 12:13
16F:推 karco: 因為shape不同啊 01/29 12:21
17F:→ karco: 一個是(5,)一個是(5,1) 01/29 12:21
18F:→ karco: 所以他說mismatch 01/29 12:21
19F:→ karco: 因此做unstack後 01/29 12:21
20F:→ karco: 兩個shape都是(5,) 01/29 12:21
21F:→ karco: 就能畫了 01/29 12:21
22F:→ yimean: @k大,原來如此,感謝指導。這一路走來真是漫長呢哈哈。 01/29 14:40
23F:推 poototo: 用jupyter看顯示出的樣子久了,可以看出V是Series 01/29 20:49
24F:→ poototo: series.to_frame().plot.bar() 轉成df再畫也OK 01/29 20:51
25F:→ poototo: 你就不用拆x跟y,也可以同年份多欄位的bar一次畫出來 01/29 20:54