Database 板


LINE

各位先进们好 我手边有一个资料库, 资料的层级比较多, 切成数个表单1对多的关系 比如 Tier1: ~700 rows Tier2: Tier1 per row x 800 ~ 560k rows Tier3-1,3-2,3-3: Tier2 per row x 20 ~ 各自1.1M rows 平常探勘资料是着重在 Tier1大约取5~8个rows, 再往下join, 拉出资料进行探勘 其中 Tier3-1的表大致有1个栏位会变动, 其它8个栏位有相依 Tier3-2的表有2个栏位会变动, 其它4个栏位有相依 Tier3-3的表只有1个栏位, 但是周期性重覆, 也就是内容是有限的集合 我在考虑是不是做了正规化会让整个储存的效率变好 但是有几个问题查了资料之後还是没有解决, 还请先进们帮忙解惑 这个资料平台的资料是从binary的档案stream来的 CaseA. 如果要正规化, 是stream的时候就要先做正规化吗? 但streaming的过程中, 资料一卡车来的时候并不知道原先资料库有哪些已存在的项目 比如说Tier3-3 使用了composition key(含Tier1, Tier2的index)以方便data slicing, 从Mega rows中要找出数千行有关的资料效率还不错. 单一个资料栏位可能出现log1, log2, log3,..... log10 (都是很长的log) 写成下面的样子 rowN index1, index2, log1 rowN+1 index1, index2, log2 原表正规化为 rowN index1, index2, result1 rowN+1 index1, index2, result2 产生一个新表 result1 log1 result2 log2 data streaming的过程中可能会出现新的log11, log12...等等 不常见但随时间推进有可能发生 有几个做法: 1. data streaming的程式不要动, 按照原样倒进Tier3-3的表 然後把Tier3-3正规化做成 Tier3-3-1(原表正规化), 与Tier3-3-2(新表记log) 再把Tier3-3清空 Tier3-3就改为新进资料的暂存区 2. data streaming的程式也要动, 程式必需要参照已有的Tier3-3-2内容, 把新加入的资料拆表之後, 再各自汇入Tier3-3-1与Tier3-3-2 (这样每次汇入都会有几千行的log, 都要进行比对不是也很耗时吗?) 实务上的正规化是做在资料汇入之前, 还是汇入之後才做二次清洗呢? 这个binary的data其实有4个层级, index的工作都是stream时加上去的 如果正规化也要做在stream里, import的工作似乎就太复杂了 要做index, 还要跟现存的资料进行比对, 把新型态的资料补充进去, 再移除相关的column 原本方式是: stream data -> DB connection -> append 新的方式是: DB connection -> get Tier3-3-2 --> stream data --> compare --> normalize --> append 还是资料已经有大略的架构, 能倒进去就倒进去, 正规化是有API在帮忙处理的? 我目前是使用sqlite3在做小规模的资料分析, 资料库大概70GB左右 觉得最麻烦的就是Tier1对应到不定长度的Tier2, Tier2也有不定长度的Tier3组合. 在资料量最多的Tier3有Normalize的可能性 如果我这样的data slicing不是很好的做法. 也欢迎鞭笞指教, 感谢. --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 113.196.154.3 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Database/M.1611048596.A.1B1.html
1F:推 paranoia5201: 存成 json,不要摊平,需要时再抽取必要资料就好。 01/19 21:51
2F:→ cpusf: 资料的架构用json处理是蛮合适的,只是不晓得多段抽取的效能 01/20 09:19
3F:→ cpusf: 再做aggregation跟原先比起来如何.. 01/20 09:21
4F:→ cpusf: 做成json也就不用考虑正规化了 (data可能有60%的重覆性 01/20 09:22
5F:→ cpusf: 大多数的变异只有在纪录单一个样本的特徵值(Tier3的单col) 01/20 09:24







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Soft_Job站内搜寻

TOP