作者tsaiminghan (nahgnimiast)
看板Python
标题[问题] multiprocess变得很慢?
时间Mon Apr 27 02:02:07 2020
程式码在
https://ideone.com/3ZTGat
opencc是下面这个版本
https://pypi.org/project/opencc-python-reimplemented/
环境是python3.8, windows8.
#1 result = []
#2 for i in range(total):
#3 res = pool.apply_async(self.func1, args=(i,))
#4 result.append(res)
#5 pool.close()
#6 #pool.join()
#7 self.aa = OpenCC('s2twp')
1. 如果self.aa有设值,程式跑完需要16秒
2. self.aa拿掉的话0.13秒就跑完
3. 如执行pool.join(),结果是0.18秒
4. 把#7把放pool.join前面,并执行pool.join(),结果16秒
5. 把#7加到__init__,并执行pool.join(),结果16秒
6. 把self.aa = OpenCC(..)改成 aa=OpenCC(..), 0.1x秒
感觉只要apply_async的任务跑完前,把OpenCC指给self,就会卡卡的,
问题感觉是出在opencc, 请问有可能是什麽原因?
opencc只有一只py档,就下面这只
https://github.com/yichen0831/opencc-python/blob/master/opencc/opencc.py
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.136.87.190 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1587924129.A.4A3.html
1F:→ djshen: 不懂和multiprocessing有什麽关系 04/27 02:39
2F:→ MARGHT: 的确没关系 04/27 03:24
https://ideone.com/r139RS
拿掉multiprocess, 跑起来就0.1x秒,不受self.aa影响
3F:推 TuCH: 开multiprocess 成本很高 开了是要丢大量运算 平行化的效果 04/27 18:06
4F:→ TuCH: 才显现得出来 04/27 18:06
5F:推 WusoAiwen: 没有大量运算用multiprocess反而会变慢 04/27 19:48
问题是慢得很奇怪,应该跟没有大量运算用multiprocess反而会变慢无关
吧(看第6点)?
※ 编辑: tsaiminghan (220.136.107.184 台湾), 04/27/2020 19:58:55
6F:推 extraymond: 在linux下面跑,最花时间的是24行,拿掉就0.1x秒 04/27 21:45
7F:推 extraymond: 不过满不固定的,你原始的code有时候也会0.1X秒 04/27 21:53
8F:→ extraymond: 如果你把self.func1移出a,最慢的情况会变成0.3X 04/27 21:55
9F:→ extraymond: 印象位置multiprocess你传object进去,他会复制整份 04/27 21:57
10F:→ extraymond: a,包含a.test 时间差异应该从这边找应该会有些结果 04/27 21:57
我在windows上也试了,如你所说,如果把fun1移出class,会快很多。
我再试试看,谢谢。
11F:→ djshen: map的时候会pickle method, 刚好你传的是bound method 04/27 22:55
12F:→ djshen: 会把整个object一起pickle 然後传到child process 04/27 22:55
13F:→ djshen: 又刚好pickle是在get的时候才call 04/27 22:55
14F:→ djshen: 你可以试试看print(len(pickle.dumps(self.func1))) 04/27 22:56
15F:→ djshen: 一开始想成copy on write 04/27 22:58
谢谢,我去找找pickle的资料看看
总结上面两位的说法,时间是花在pickle obj,所以如果self.aa = OpenCC(..)时,连
OpenCC也会被pickle,所以如果有加join(),等multiprocess跑完,才有OpenCC,所以
OpenCC没有被pickle。
因此multiprocess传入的参数要尽量简单,才不会有这问题罗?
※ 编辑: tsaiminghan (220.136.107.184 台湾), 04/27/2020 23:42:02
16F:→ AndCycle: 你要考虑跑 process 起来的代价跟考虑他会活多久 04/29 00:08
17F:→ zerof: 楼楼上正解 04/30 23:54