出租窝

数据架构读书笔记

数据架构读书笔记

背景

因工作上有需要,用一下午的时间翻看了下数据架构这本书。发现和运维的CMDB、监控等方面其实有很多共通之处,只不过运维是具体的场景。而这本书是从诸多业务场景中抽象出来的统一方法论。这里根据运维场景简单写一些个人的读书笔记。

第一章:企业数据

企业数据

image-20190820001550335

从这个图可以看出来ElasticSearch应该属于非结构化中的非重复型数据。

但如果将这种数据变成了重复性、结构化的数据,那么应该放到哪里呢?

运维中经常会将日志结构化之后,将大量重复的数据存放到ES中,最后进行监控统计分析。

这种情况会不会有一个更好的位置更加适合监控统计分析的场景呢?总结了监控中的三种数据所存在的位置:

1 短期实时数据 ES,用于故障排查、定期巡检等。

2 长期重复性数据入Hadoop,用于报表分析,容量规划等。

3 辅助时序性数据库(结构化),进行大屏展示、业务归集等。

企业数据统计图

  1. 业务相关
  2. 潜在业务相关
  3. 业务不相关

企业数据分析

数据的最终目的是为了分析,分析分两种类型:

步骤:

一 确认数据来源:

数据消解比较困难,需要进行数据集成,进行相关规范化。

数据的生命周期

生命周期1:进入——>捕获——>组织——>存储。

生命周期2:集成——>使用——>归档——>丢弃。

有用性递减曲线

image-20190821010026314

详细数据&汇总数据有用性递减曲线

image-20190821010101628

数据积累曲线

image-20190821011129560

第二章:大数据

大数据是什么

数量大

廉价存储

罗马人口统计

非结构化格式(非DBMS)

重复型数据&非重复数据

重复型:经常出现同一数值的数据

非重复:不经常出现同一数据的数据

重复型数据占90% 价值只有10%

非重复型数据占10% 价值却又90%

并行处理

并行化并不是随着节点数线性增加

并行化两种形式:1 罗马人口统计 2 大规模并行处理MPP(统一索引)

非结构化数据

98%的决策是通过结构化做出的,但非结构化非重复型数据往往也有很大的业务价值。例如:

重复性非结构化分析比较容易,非重复型的分析方法如下:

语境化对于数据决策也有重要的作用,介绍一些语境化的方法如下:

NLP:语境来自文本本身,而不是实际场景;无考虑语气场景;

MapReduce:复杂性高。

手工分析:不需要基础设施,人力成本高

文本消歧义

文本ETL:抽取(extract) 转换(transform) 装载(load)

  1. 直接ETL:文本=>文本ETL=>DB
  2. 分类法:文本==分类法=>文本ETL=>DB
  3. 映射:文本==映射=>文本ETL
  4. 多输入源:文本/pdf/xls=>文本ETL=>DB
  5. 分词:先分词=>文本ETL
  6. 预处理:文本=>预处理=>DB=>文本ETL=>DB
  7. 电子邮件:电子邮件=>过滤器(过滤垃圾邮件)=>DB=>文本ETL=>DB
  8. 电子表格:电子表格=>重新格式化(去除公式)=>DB=>文本ETL=>DB
  9. 报表反编译:提取所需数据

分类法

什么是分类法:一个词汇的关联列表 汽车:汽车的厂商(本田 大众) 德国产品:德国特色商品(啤酒 保时捷)

分类也可以对自己分类:同义词分类法 列表分类法 类别分类法 首选分类法,无论哪种分类法都要随着时间需要经常维护。

前两章总结:

说实话,因为种种原因,这个总结是两个星期之后才写的。翻看一下以前的笔记,才发现看不懂的依旧可能需要翻书重新复习。通篇下来只记住了两个关键点:数据的分类、数据留存的意义。也许是工作中还没有太多的接触这本书所讲的内容。暂时没有那种醍醐灌顶的感觉。所以需要过一段时间之后再来看看,是否有新的发现和收获。