Python 板


LINE

大家好,我是 FinMind 創始人 https://github.com/FinMind/FinMind 目前預計在3/21,推出線上課程 課程內容是關於 Rabbitmq、Celery 分散式架構 MySQL 資料庫 Docker Swarm Linode 雲端(一個月最低只要 5 美金,就有一台雲端機器) Grafana 監控系統 以上內容,基本上就是 FinMind 專案目前一部分的架構, 相信不少公司也有用到相關技術 在 3/7 以前購買,有機會獲得,在天瓏與 momo 都是熱門的書籍 Python 大數據專案 X 工程 X 產品 資料工程師的升級攻略 本書是我濃縮工作 3 年與開發 FinMind 的技術分享 最後本課程還會分享 20~30 隻的台股金融資料爬蟲程式 除了做開源專案,也將一路上的所學,開源出來分享給大家 以下是課程連結,折扣碼 sam200 https://mastertalks.tw/products/python-dfa?ref=sam 如果對於 Data 工作,有其他想了解的,也歡迎寄信給我 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.44.64.4 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1646540483.A.D6B.html
1F:推 ToastBen: 感謝分享 03/07 08:10
2F:推 TuCH: 已買 03/07 09:57
3F:推 tamacugi: 我也買了,看起來很不錯,期待! 03/09 14:31
4F:推 ggirls: 可以問20隻爬蟲是哪幾個網站嗎? 03/10 00:54
5F:→ f496328mm: 證交所、櫃買中心、期交所 03/12 00:42
6F:推 tamacugi: 課程中有機會可以教一下怎麼爬各券商分點嗎? 感謝! 03/12 13:32
課程中會講解,如何破解驗證碼,如何破解 google recaptcha 並以券商分點為範例
7F:推 tamacugi: 太棒了 03/12 20:06
8F:推 cory501: 已買 03/13 00:17
9F:→ alvinlin: 感覺大家只對爬蟲有興趣但其他的沒有。 03/13 01:44
10F:推 lycantrope: 爬蟲(X 股票爬蟲(O 03/19 14:29
但以上技能,rabbitmq、flower、分散式、Docker、mysql、grafana 等等 對爬蟲都有非常大的加分, 至少我開發 FinMind 的經驗,以上工具都是陸陸續續使用到 我一開始也是單機版本,最後不斷拓展到現在 ※ 編輯: f496328mm (114.44.18.140 臺灣), 03/20/2022 03:26:08
11F:推 karta0910489: 想請問會包含高流量、快速的更新資料或是目前FindMi 03/20 04:18
12F:→ karta0910489: nd針對速率做的db設計跟優化(cache, etc)嗎 03/20 04:18
1. 更新資料方面,因為是走分散式,所以效能不是問題,那麼既然效能不是問題, 就用 scheduler 持續做爬蟲,資料就會更新了 2. 高流量部分,我的書跟課程,都有沾到邊,但並沒有"專注"介紹 api 高流量場景, 畢竟書跟課程名稱,都不是以高流量 api 作為出發點 我在這先簡短回答 書有講到 docker swarm、fastapi、traefik 做 api 課程講到 grafana、promethus 做監控, 那我如何結合這些技術做高流量呢?? 下圖是目前 FinMind 用 "grafana" 對於 api 流量的監控 https://i.imgur.com/uUO4r06.png 可以看到,圖1 & 圖2,一分鐘最多 3,500 次 request 流量統計與 DNS,是依靠圖 3,"traefik" 但我認為還沒到高流量,不過足以應付目前流量 畢竟需求沒到,開太多機器做 loading balance,只是噴更多 $$$ 而已 關於這部分的架構, FinMind 是以 docker swarm 為主要架構,因為這內建 loading balance 只要多開機器,就可實現負載平衡, api 是用 fastapi 框架 資料庫是時序資料庫,dolphindb 但時序資料庫水有點深,這部分還在安排進度, 未來可能會寫文章 or 影片做介紹 ( 關於 dolphindb 效能,先講結論,我比較過 kdb+、influxdb 等各個知名的 TSDB, dolphindb 最強, 市面上有些課程是教 mongodb,我只能說,時序資料,NoSQL 比不上 TSDB ) 總體來說,loading balance 能讓你用多台機器分散 api request 那基本上,不再受限於單一機器瓶頸, 流量問題,就會轉變成以下幾點 1. DB loading (這點我用時序資料庫去解,同時資料庫也做分散) 2. 關注分散式中,各個 api 機器的效能,是否達到瓶頸 例如 CPU、Memory、IO Rate、Traffic 流量、Process 上限等等 以上可以用 netdata 去監控機器 loading,搭配 promethus、grafana 如下圖,FinMind 的監控 https://i.imgur.com/V93cXcS.png 如果想優化 code,也可以用 line_profiler,去分析瓶頸在哪 有興趣的話,以下是我們的 FB 討論區 https://www.facebook.com/groups/401634838071226 基本上我們不藏私,技術問題都歡迎討論 (我連內部監控 dashboard 都公開了XD)
13F:→ liton: 我對股票有興趣,對爬蟲沒興趣。直接花錢 03/20 08:59
14F:→ liton: 買數據 03/20 08:59
15F:→ liton: 我好像FinMind會員快到期了 囧rz 03/20 09:01
※ 編輯: f496328mm (114.44.18.140 臺灣), 03/20/2022 16:46:00
16F:推 karta0910489: 感謝回覆 獲益良多 超讚! 03/20 17:23
17F:推 phoenixcx: 喔~最近才在爬你們家網站XD 03/23 18:36







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Soft_Job站內搜尋

TOP