数据架构读书笔记
背景
因工作上有需要,用一下午的时间翻看了下数据架构这本书。发现和运维的CMDB、监控等方面其实有很多共通之处,只不过运维是具体的场景。而这本书是从诸多业务场景中抽象出来的统一方法论。这里根据运维场景简单写一些个人的读书笔记。
第一章:企业数据
企业数据
- 结构数据
- 非结构数据(大数据)
- 业务相关性
- 大数据:重复和非重复的非结构数据
- 分界线:大数据领域中,前者适用于Hadoop,后者适用于用文本分析,有明显的分界线。

从这个图可以看出来ElasticSearch应该属于非结构化中的非重复型数据。
但如果将这种数据变成了重复性、结构化的数据,那么应该放到哪里呢?
运维中经常会将日志结构化之后,将大量重复的数据存放到ES中,最后进行监控统计分析。
这种情况会不会有一个更好的位置更加适合监控统计分析的场景呢?总结了监控中的三种数据所存在的位置:
1 短期实时数据 ES,用于故障排查、定期巡检等。
2 长期重复性数据入Hadoop,用于报表分析,容量规划等。
3 辅助时序性数据库(结构化),进行大屏展示、业务归集等。
企业数据统计图
- 业务相关
- 潜在业务相关
- 业务不相关
企业数据分析
数据的最终目的是为了分析,分析分两种类型:
- 正式分析:审计、财务报表等用途 数据准确性高
- 非正式分析:准确性要求不高
步骤:
一 确认数据来源:
- 数据:结构化 非结构数据文本
- 物理介质:纸张
- 非数据:语音,二进制
数据消解比较困难,需要进行数据集成,进行相关规范化。
数据的生命周期
生命周期1:进入——>捕获——>组织——>存储。
生命周期2:集成——>使用——>归档——>丢弃。
有用性递减曲线

详细数据&汇总数据有用性递减曲线

数据积累曲线

第二章:大数据
大数据是什么
数量大
廉价存储
罗马人口统计
非结构化格式(非DBMS)
重复型数据&非重复数据
重复型:经常出现同一数值的数据
非重复:不经常出现同一数据的数据
重复型数据占90% 价值只有10%
非重复型数据占10% 价值却又90%
并行处理
并行化并不是随着节点数线性增加
并行化两种形式:1 罗马人口统计 2 大规模并行处理MPP(统一索引)
非结构化数据
98%的决策是通过结构化做出的,但非结构化非重复型数据往往也有很大的业务价值。例如:
- 电子邮件:电子邮件中的语义信息
- 呼叫中心信息:客服和客户之间的联系以及关系
- 企业合同:企业的各种财务信息
- 质保索赔:找出生产中的薄弱环节
- 保险索赔:可以评估有利润价值的新业务
- 用户研究:用户表情、手势等信息
- IM聊天记录:语义分析、行为分析。
- 工单处理:工单处理中的改善环节等。
重复性非结构化分析比较容易,非重复型的分析方法如下:
语境化对于数据决策也有重要的作用,介绍一些语境化的方法如下:
NLP:语境来自文本本身,而不是实际场景;无考虑语气场景;
MapReduce:复杂性高。
手工分析:不需要基础设施,人力成本高
文本消歧义
文本ETL:抽取(extract) 转换(transform) 装载(load)
- 直接ETL:文本=>文本ETL=>DB
- 分类法:文本==分类法=>文本ETL=>DB
- 映射:文本==映射=>文本ETL
- 多输入源:文本/pdf/xls=>文本ETL=>DB
- 分词:先分词=>文本ETL
- 预处理:文本=>预处理=>DB=>文本ETL=>DB
- 电子邮件:电子邮件=>过滤器(过滤垃圾邮件)=>DB=>文本ETL=>DB
- 电子表格:电子表格=>重新格式化(去除公式)=>DB=>文本ETL=>DB
- 报表反编译:提取所需数据
分类法
什么是分类法:一个词汇的关联列表 汽车:汽车的厂商(本田 大众) 德国产品:德国特色商品(啤酒 保时捷)
分类也可以对自己分类:同义词分类法 列表分类法 类别分类法 首选分类法,无论哪种分类法都要随着时间需要经常维护。
前两章总结:
说实话,因为种种原因,这个总结是两个星期之后才写的。翻看一下以前的笔记,才发现看不懂的依旧可能需要翻书重新复习。通篇下来只记住了两个关键点:数据的分类、数据留存的意义。也许是工作中还没有太多的接触这本书所讲的内容。暂时没有那种醍醐灌顶的感觉。所以需要过一段时间之后再来看看,是否有新的发现和收获。