NTUE-CS100 板


LINE

* 各章的本章摘要是重点 * 英文出题 CH 3 P.13 资料探勘步骤 步骤一:定义问题 步骤二:资料的蒐集与选择 步骤三:资料的预备 步骤四a:选择一个模式或演算法 步骤四b:选择模式或演算法的参数 步骤五:训练/测试资料或应用演算法 步骤六:模式最後的评估和整合 P.39 On-Line Transaction Processing, OLTP (为什麽他说要考OLAP,可是念的是OLTP的内容呢...) 线上分析处理 On-Line Analytical Processing, OLAP (必考) 特性:1. 针对工商企业资料分析需求而设计,是一种新的业务。 2. 协助工作人员执行管理决策。 3. 同时间不会有太多使用者同时使用系统。 4. 储存的资料偏重较高层级的汇总资讯。 5. 资料的来源是OLTP。 6. 资料库的内容是历史性的资料,不会随时加以变更。 7. 资料的处理不是以交易为单位,使用者的要求会占用大量的系统资源。 8. 设计资料库不是采用正规化的设计方式。 9. 将分散各处的异质性资料整合到单一的资料集合之中。 10. 使用适合资料分析的结构来储存资料。 11. 包含由日常交易资料转换而来的资料,在资料仓储中的资料必须完整且正确, 以提供管理者决策分析。 12. 要能够及时从资料仓储中取得资讯。 13. 资料仓储的资料在内部必须包含易於使用的浏览工具。 P.41 资料立方体(Data Cube) (有考的话,请画出Cube的图) 将资料仓储的资料以多维度(Multidimensional)资料模式储存。 概念与目的:将经常被分析人员所要求的测量值加以具体化或量化,并将测量值具体化後 储存在一个多维度资料方块,以供企业建立决策支援系统、知识探勘分析工 具或是其他应用。 P.80 资料特性的减量 (四点) 1. 资料量减少,资料探勘的演算法因而可以运行得更快速。 2. 高度的资料探勘处理正确率,因此可以产生较好的样式。 3. 资料探勘後的结果较为简单,因此可以更简单的了解并使用探勘之後所得的结果。 4. 因资料特性的减少,当再次进行资料蒐集的时候,可以不用浪费太多时间在蒐集不 相关或不需要的资料,同时也可以减少下一次资料的预处理中特性减量的时间。 P.95 本章摘要 1. 资料预备通常包括了资料的预处理与资料的减量。 资料的预处理的主要目的在於清理资料中的杂质、不完整或是不一致的资料, 而资料减量的主要目的则是要减少资料或是资料维度的数量。 4. 当发生资料不完整的情形时,可以利用人工、自动化或是预测的方法来填补遗漏的 值。资料异常的状况则可以利用Binning方法、丛聚方法、人工处理与电脑处理结合 的方法、回归方法等进行处理。而当有不一致情形时,则需要对於这些资料进行资 料的整合及资料的转换工作。 CH4 P.100 关联规则(Association Rule) (案例:啤酒+尿布、报纸+牛奶) 又称为购物篮分析(Market-Basket Analysis, MBA)。 是从大量的资料集合中,探勘在资料间具有相互关系的隐藏知识。 P.127 本章摘要 1. 关联规则,通常又称之为购物篮分析,其主要目的在大量的资料集合中,探勘在资料 间具有相互关系的隐藏知识。 6. FP-Growth演算法,为以FP数资料结构为主的一种演算法,这个方法的主要目的乃是 针对Apriori演算法对於大量的资料无法有效率处理的缺点,加以改进的一种演算法 CH 5 P.132 分类法 (classification) 优劣评估法: 1. 预测准确度 2. 速度和延展性 3. 健全性 4. 延展性 5. 可解释性 (耶?重复了。课本GJ) P.136 决策树(Decision Tree)分类法 (建构) 1. 将训练样本的原始资料放入决策树的树根。 2. 将原始资料分成两组:训练资料、测试资料。 3. 用训练资料来建立决策树,在每个内部节点,依据资讯理论(Information Theory) 来评估选择哪个属性继续做分支的依据,又称节点分割(Splitting node)。 4. 用测试资料来进行决策树修剪,修剪到决策树的每个分类都只有一个节点,以提升 预测能力与速度。亦即经过节点分割之後,判断这些新内部节点是否为树叶节点; 若否,则以新内部节点为分支的树根来建立新的次分支。 5. 重复1~4,直到所有的新内部节点都是树叶节点为止。 P.160 模糊推论(Fuzzy Inference)系统 架构 (图5.12) CH 6 P.178 丛聚分析法 (Clustering) defination, steps Def. 将一群拥有相异性质的资料(个体),区隔为数个同质性较高的资料群体(丛聚)。 Step: 1. 样式描述 (包括特徵的选择或萃取) 2. 样式间的相似度计算 3. 分群 4. 资料的摘要 (视实际情况决定是否需要进行此步骤) 5. 输出的评估 (视实际情况......................) P.225 主成分分析法(Principal Component Method) 以潜在因素对行为变数之共同性产生最大贡献为原则,逐一萃取k个潜在因素的方法。 CH 7 P.228 类神经网路 (Artificial Neural Network, ANN) def. 是一种计算系统,包括软体与硬体,它使用大量高度连结的人工神经元来 模仿生物神经网路的能力。 CH 8 P.267 应用资料探勘技术在市场行销的方法与循环 1. 行销问题的定义 (Identify the Marketing Problem) ↓ 2. 利用资料探勘技术将资料转换为可用的资讯 (Transform Data into Actionable Information Using Data Mining Techniques) ↓ 3. 运用资料探勘所得的资讯 (Using the Information for Action) ↓ 4. 衡量使用探勘所得资讯後的成效 (Measure the Performance) ↓ 1. .... P.271 常用於市场行销领域的资料探勘技术 (七种) 1. OLAP分析 (Online Analytic Processing) 2. 购物篮分析 (Market Basket Analysis; Association Rule) 3. 决策树分析 (Decision Tree Analysis) 4. 群聚分析 (Clustering) 5. 视觉化技术 (Visualization) 6. 估计及预测 (Estimation and Prediction) 7. 资料的叙述 (Description) P.289 六个步骤 图8.14  ̄ ̄ 商业了解 >> 了解之前规划的行销活动 >> 资源清单 >> 情况的评估 >>  ̄ ̄ ̄ ̄ 目标的模式化 >> 初始的专案计画 资料了解 >> 初始的资料蒐集报告 >> 将资料汇入到Clementine >> 资料描述 >>  ̄ ̄ ̄ ̄ 资料品质的验证 >> 选择工作资料 >> 发展初始模式化方法 资料预处理 >> 选择属性和资料集 >> 资料清理 >> 衍生新属性 >> 整合资料来源 >>  ̄ ̄ ̄ ̄ ̄ 资料调整、模式化与评分 模式化 >> 评论模型化方法 >> 产生测试设计 >> 设定模式化流动 >> 评估第一次模  ̄ ̄ ̄ 式化结果 >> 调适模式参数 >> 最後模式评估 >> 评论流程设计 评估 >> 评估结果 >> 品质确保 >> 决定下一步骤  ̄ ̄ 部署 >> 计画评分 >> 计画监控与维护 >> 套用预测模式 >> 运行活动 >>  ̄ ̄ 评估活动产出 >> 产生最终报告 >> 评论专案 CH 9 P.302 顾客终身价值 (Customer Lifetime Value) 定义、公式。 Def. 是指在未来一段时间之内,企业或厂商可以从个别顾客获得之利润的净现值。 公式: 顾客价值(CV) = 利益(R) ÷ 成本(C) 功能性利益 + 情感性利益 = ────────────────── 货币成本+时间成本+体力成本+心力成本 P.325 资料探勘应用於电信产业流程 图9.7 CH 10 P.334 网路探勘(Web Mining) 利用资料探勘的技术於全球资讯网上,进行发掘知识以期能够更有效率的分析全球 资讯网上的资料。 P.336 网路内容探勘 (Web Content Mining) (五点) 应用:群聚分析、关联规则、语意网路(Semantic Web)、 搜寻结果的探勘、影像探勘。 CH 11 P.396 投资组合理论(Portfolio Theory) 定义 强调投资标的物是由一种以上的产品所构成,并透过多元化投资的策略将有限的资金 分散到各种投资的工具上,分散投资於单一产品所带来的非系统风险。 P.398 图11.4 (必考) 选取资料 处理资料 转换资料 探勘资料 知识合并 财金 → 投资资讯 → 投资组合 → 类神经网路 → 最适投资组 → 投资组合 资料库 │ 策略分析 │ 评估模型 │ │ 合资金配置 │ 领域知识 ↓ ↓ ↓ ↓ ↓ 选取资料 前置处理 转换资料 资料探勘 知识萃取结果分析 CH 12 P.420 知识管理 对不起,我找不到他想考哪 orz P.421 表12.3 功能 使用技术与工具  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 知识搜寻 全球资讯网、电子全文检索系统、搜索引擎、办公室群组软体、 内部区域网路与企业间区域网路(VPN)、知识入口网站 知识处理 专家系统、类神经网路、模糊检索功能、智慧型代理人、 机器学习、文字探勘、文件管理 知识传送 WWW、E-mail与 延伸标记语言 整合 └→ 它是XML唷 知识储存 资料库、知识地图、数位图书馆 知识沟通 WWW、E-mail、电子留言栏、内部区域网路、虚拟社群、VoIP、P2P群组软体 知识分析 专家系统、决策支援系统、电脑整合制造系统 P.424 图12.8 P.439 本章摘要 2. 6. 7. 2. 依资料萃取的程度与应用目的不同观点而言,资料可被分为资料、资讯、知识、智慧 四个不同层级。 资料经过特定目的与需求而进行分析整理之後,即能变成有用的资讯; 资讯再经过学理之归纳或演绎汇整之後,则变成为人类的知识; 而有效的运用知识以辅助决策,则是智慧。 6. 知识管理程序包括知识移转、知识流通、知识转换、知识创造、知识累积、知识扩散 以及知识整合。 7. 资料探勘应用的实例,有知识搜寻在知识入口网站的应用、知识处理在文件管理上的 应用、知识传送在延伸标记语言上的应用、知识储存与知识地图的整合、知识沟通在 虚拟社群上的应用以及知识分析应用在电脑整合制造系统上的介绍。 CH 13 P.455 文字探勘 (Text Mining) 利用资料探勘的技术,对於半结构化或非结构化的文字资料进行处理,以发掘有 意义的样式或是知识。 P.466 影像探勘的领域 医学、气象、影像处理、搜寻引擎、军事。 P.468 影像探勘的技术 物件识别(Objective Recognition)、影像的撷取(Image Retrieval)、 (考)影像的索引(Image Indexing)、 影像的分类与丛聚(Image Classification and Clustering)、 关联规则探勘(Association Rule Mining)、类神经网路(Neural Network) * 影像的索引技术 一个快速且有效率的影像资料撷取机制是非常重要的。 大部分是以相似度为基础的影像撷取方法, 另一种方法是先利用多维度的索引建立方式,来加快索引建立的效率。 除此之外,还有些针对特定影像的特徵建立索引。例如:颜色特徵。 -- 喔耶,洗板!(掩面) 感谢拉拉的课本 >__O 大家加油wwww~( ̄▽ ̄)~(_△_)~( ̄▽ ̄)~(_△_)~( ̄▽ ̄)~ --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 120.127.47.86
1F:推 einstein1217:厉害 06/10 09:59
※ 编辑: moonlights 来自: 120.127.47.86 (06/10 10:52)
2F:推 bearNturtle:还 瞒 屌 的 06/10 10:36
--



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 120.127.47.86
3F:推 Markseinn:这不推不行 06/10 11:35
4F:推 WAYS22275: 不行不推 06/10 12:44
5F:推 dada15427745:推推推 06/10 12:59
--



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 120.127.36.141
6F:→ jerry771210:果然有1000元的价值 06/10 15:21
7F:推 nash3629:版主帮我放道 love u~~ 06/10 15:26
8F:推 jerry771210:楼上吃大便谁叫你不休要去赚钱!! 06/10 15:31
9F:推 kp595039:好强!! 06/10 23:54
10F:推 mica0930:辛苦你了~帮你补一下 06/15 23:28
11F:→ mica0930:网路内容探勘 第360页 网页依据用途分五类:入口网页.讯息 06/15 23:30
12F:→ mica0930:网页.导引网页.解释性的网页.资料输入网页 06/15 23:30
※ 编辑: moonlights 来自: 125.228.227.218 (06/17 07:18)







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP