作者oNeChanPhile (足柄嫁のクズ欧提)
看板CodeJob
标题[测试] Python data pipeline 改善与测试
时间Sun Dec 26 03:19:42 2021
[发案] Python data pipeline 改善与测试
发案人:曾先生
联络方式1:站内信
联络方式2:
所在地区 :海外(UTC+1时区)
有效时间:徵到为止。2022-01-02前完成,额外加给20%。
专案说明:
现有 data pipeline 包含三个独立运行的docker service:
Common Crawl data retriever, GDELT data retriever 与 data preprocessor。
程式语言为 Python 3,使用 newspaper3k, gdelt, nltk, spacy_langdetect 等包。
中间资料集与结果皆以 MongoDB 储存。
资料处理逻辑与 docker 封装已基本完成,小资料集测试OK。
但推上测试环境爬取真实资料时,发生诸多问题例如
- 各种data bugs除之不尽
- 无法测试并确认scheduler的正确性与可靠性
- 不知道要如何应付网路中断、资料重抓错抓、系统停机重启等各种状况。
主要的requirement就是解决上面的问题,让程式达到可以上线的品质。
接触洽谈流程如下:
发案人会先做一次live demo,
展示目前的code如何运作,解释功能设计与问题瓶颈。
决定接案後,发案人会与接案者共同 refine 一次具体的 requirement spec,
并开放 GitLab private repo 给接案者作业。
预算:NTD 15k
- 2022-01-02前完成,额外加给20%。
- 如须使用AWS等付费服务,事先与发案人讨论即可。费用由发案人负担。
接案者要求:
- 一般 Python 3 服务之开发、测试与维护经验
- 熟悉此类连续运行服务之可靠性设计
- 熟悉 docker 环境调试
- 能够有纪律的执行一般 Git DevOps,例如每个 commit 尽量只做一件事;
commit message 与 changelog 简明清楚等
- (加分项)熟悉平行化程式之设计与除错
- (重要加分项)具相似data pipeline与服务的架设经验
附注:保密义务
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 77.161.173.88 (荷兰)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/CodeJob/M.1640459987.A.4BE.html
1F:→ gsrr: 效能优化, 200K, OK的话可以与我联系. 12/26 09:28
2F:→ broodstare: 15k? You must be kidding me 12/26 13:31
3F:→ howfeeling: 效能优化, 250K, OK的话可以与我联系. 12/27 00:17
4F:→ dogppatrick: 这预算真得可怜 12/27 12:13
5F:推 ok963963ok: 发案方自己懂技术还开这种价格真的不行 12/27 13:45
6F:→ oNeChanPhile: 已加价徵到 12/27 17:46