作者yimean (温柔杀手)
看板Python
标题[问题] dataframe卡关
时间Tue Jan 28 23:09:18 2020
各位版上的大大晚上好,我正在写一个资料分析,目前卡关了。
请高手指导一下,感恩。
我的原始资料如下
品名 出货数量 出货日期
165 667 7000 2019-01-04
169 667 5000 2019-03-20
167 667 6000 2019-06-05
168 667 6000 2019-06-05
164 667 9000 2019-10-02
170 667 3500 2019-10-02
166 667 7000 2019-12-03
其中165,169,167.....,166是原本的资料序号
也就是说,这个资料是我已经经过处理的资料。
我想要做的事情是把每个月分的资料作统计预,计资料应该是长成下方两种其中一种
Type1:
出货数量 出货月份
7000 01
5000 03
12000 06
12500 10
7000 12
Type2:
M=[01,03,06,10,12]
V=[7000,5000,12000,12500,700]
我有试过for loop加上if判断,但是最後都卡在index的问题解决不了。
这个用SQL几行就解决了。
不过最近在学习Pandas的Dataframe操作所以就想拿来做做看。
结果~~卡关~~~真的是有点丢脸,但是问题还是要解决,不然我时间就白花了。
恳请高手指点一下,感恩。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 106.1.36.147 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1580224160.A.13E.html
※ 编辑: yimean (106.1.36.147 台湾), 01/28/2020 23:10:09
1F:推 poototo: df=df.set_index(["出货日期"]) 01/28 23:55
2F:→ poototo: 以时间序列做index,然後设取样频率 01/28 23:56
3F:推 poototo: resample,asfreq...相关用法及参数下得好,比SQL更简单 01/29 00:05
4F:推 poototo: 或者新增一个月份栏位来groupby 01/29 00:13
5F:推 poototo: df['月']=df['出货日期'].map(lambda x:x[5:7]) 01/29 00:34
6F:推 TitanEric: 把出货日期转datetime再groupby月份感觉比较好 01/29 00:47
7F:→ OrzOGC: 有时上一下stackoverflow就会晃然大悟:N小时前的我是在 01/29 02:02
8F:→ OrzOGC: 蠢什麽的...这麽简单的东西搞老半天 01/29 02:02
9F:→ yimean: 感谢p大, T大跟O大 我已经成功取得月分了,但是我画不了图 01/29 10:42
ER['月']=ER['出货日期'].dt.month
V=pd.DataFrame()
V=ER.groupby('月').sum()
V长这样
月
1 7000
3 5000
6 12000
10 12500
12 7000
Name: 出货数量, dtype: int64
我有试过plt(V.['月'],V.['出货数量'])
但是还是错误 >.<
ValueError: shape mismatch: objects cannot be broadcast to a single shape
※ 编辑: yimean (106.1.36.147 台湾), 01/29/2020 10:46:06
10F:→ TitanEric: group by後好像变成series不是dataframe 所以不太能用 01/29 11:44
11F:→ TitanEric: index方式取值 01/29 11:44
12F:→ TitanEric: 可以试试plt(V.index, V.values) 01/29 11:45
13F:→ yimean: @T大感谢回应,还是不行,我把V.index跟V.values印出来 01/29 12:03
print(V.index)
print(V.values)
长这样
Int64Index([1, 3, 6, 10, 12], dtype='int64', name='月')
[[ 7000]
[ 5000]
[12000]
[12500]
[ 7000]]
※ 编辑: yimean (106.1.36.147 台湾), 01/29/2020 12:04:08
14F:→ yimean: 我最终找到这个解法S=V.unstack() 01/29 12:12
15F:→ yimean: plt.bar(V.index, S.values) 但是我不知道为什麽。 01/29 12:13
16F:推 karco: 因为shape不同啊 01/29 12:21
17F:→ karco: 一个是(5,)一个是(5,1) 01/29 12:21
18F:→ karco: 所以他说mismatch 01/29 12:21
19F:→ karco: 因此做unstack後 01/29 12:21
20F:→ karco: 两个shape都是(5,) 01/29 12:21
21F:→ karco: 就能画了 01/29 12:21
22F:→ yimean: @k大,原来如此,感谢指导。这一路走来真是漫长呢哈哈。 01/29 14:40
23F:推 poototo: 用jupyter看显示出的样子久了,可以看出V是Series 01/29 20:49
24F:→ poototo: series.to_frame().plot.bar() 转成df再画也OK 01/29 20:51
25F:→ poototo: 你就不用拆x跟y,也可以同年份多栏位的bar一次画出来 01/29 20:54