数据架构读书笔记

August 19, 2019

数据架构读书笔记

背景

因工作上有需要，用一下午的时间翻看了下数据架构这本书。发现和运维的CMDB、监控等方面其实有很多共通之处，只不过运维是具体的场景。而这本书是从诸多业务场景中抽象出来的统一方法论。这里根据运维场景简单写一些个人的读书笔记。

第一章：企业数据

企业数据

结构数据
非结构数据（大数据）
- 重复数据
- 非重复数据
业务相关性
- 业务相关
- 潜在相关
- 业务不相关
大数据：重复和非重复的非结构数据
分界线：大数据领域中，前者适用于Hadoop，后者适用于用文本分析，有明显的分界线。

从这个图可以看出来ElasticSearch应该属于非结构化中的非重复型数据。

但如果将这种数据变成了重复性、结构化的数据，那么应该放到哪里呢？

运维中经常会将日志结构化之后，将大量重复的数据存放到ES中，最后进行监控统计分析。

这种情况会不会有一个更好的位置更加适合监控统计分析的场景呢？总结了监控中的三种数据所存在的位置：

1 短期实时数据 ES，用于故障排查、定期巡检等。

2 长期重复性数据入Hadoop，用于报表分析，容量规划等。

3 辅助时序性数据库（结构化），进行大屏展示、业务归集等。

企业数据统计图

业务相关
潜在业务相关
业务不相关

企业数据分析

数据的最终目的是为了分析，分析分两种类型：

正式分析：审计、财务报表等用途数据准确性高
非正式分析：准确性要求不高

步骤：

一确认数据来源：

数据：结构化非结构数据文本
物理介质：纸张
非数据：语音，二进制

数据消解比较困难，需要进行数据集成，进行相关规范化。

数据的生命周期

生命周期1：进入——>捕获——>组织——>存储。

生命周期2：集成——>使用——>归档——>丢弃。

有用性递减曲线

详细数据&汇总数据有用性递减曲线

数据积累曲线

第二章：大数据

大数据是什么

数量大

廉价存储

罗马人口统计

非结构化格式（非DBMS）

重复型数据&非重复数据

重复型：经常出现同一数值的数据

非重复：不经常出现同一数据的数据

重复型数据占90% 价值只有10%

非重复型数据占10% 价值却又90%

并行处理

并行化并不是随着节点数线性增加

并行化两种形式：1 罗马人口统计 2 大规模并行处理MPP（统一索引）

非结构化数据

98%的决策是通过结构化做出的，但非结构化非重复型数据往往也有很大的业务价值。例如：

电子邮件：电子邮件中的语义信息
呼叫中心信息：客服和客户之间的联系以及关系
企业合同：企业的各种财务信息
质保索赔：找出生产中的薄弱环节
保险索赔：可以评估有利润价值的新业务
用户研究：用户表情、手势等信息
IM聊天记录：语义分析、行为分析。
工单处理：工单处理中的改善环节等。

重复性非结构化分析比较容易，非重复型的分析方法如下：

拼写
标点符号
预发
语句结构

语境化对于数据决策也有重要的作用，介绍一些语境化的方法如下：

NLP：语境来自文本本身，而不是实际场景；无考虑语气场景；

MapReduce：复杂性高。

手工分析：不需要基础设施，人力成本高

文本消歧义

文本ETL：抽取(extract) 转换(transform) 装载(load)

直接ETL：文本=>文本ETL=>DB
分类法：文本==分类法=>文本ETL=>DB
映射：文本==映射=>文本ETL
多输入源：文本/pdf/xls=>文本ETL=>DB
分词：先分词=>文本ETL
预处理：文本=>预处理=>DB=>文本ETL=>DB
电子邮件：电子邮件=>过滤器（过滤垃圾邮件）=>DB=>文本ETL=>DB
电子表格：电子表格=>重新格式化（去除公式）=>DB=>文本ETL=>DB
报表反编译：提取所需数据

分类法

什么是分类法：一个词汇的关联列表汽车：汽车的厂商（本田大众）德国产品：德国特色商品（啤酒保时捷）

分类也可以对自己分类：同义词分类法列表分类法类别分类法首选分类法，无论哪种分类法都要随着时间需要经常维护。

前两章总结：

说实话，因为种种原因，这个总结是两个星期之后才写的。翻看一下以前的笔记，才发现看不懂的依旧可能需要翻书重新复习。通篇下来只记住了两个关键点：数据的分类、数据留存的意义。也许是工作中还没有太多的接触这本书所讲的内容。暂时没有那种醍醐灌顶的感觉。所以需要过一段时间之后再来看看，是否有新的发现和收获。