数据解析与建模  –&gt  数据解析及建模  –&gt

好数据简介

好数量简介

老数目的概念

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、Veracity(真实性)

雅数目的概念

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、Veracity(真实性)

死数目的性

无结构性、不完备性、时效性、安全性、可靠性

非常数据的特性

勿结构性、不完备性、时效性、安全性、可靠性

十分数额处理的通通经过

数收集和记录 –>  数据抽取、清洗、标记  –> 
数据并、转换、简约  –>  数据解析与建模  –>  数据说明

颇数额处理的咸经过

数据搜集与记录 –>  数据抽取、清洗、标记  –> 
数据并、转换、简约  –>  数据解析及建模  –>  数据说明

怪数量技术之性状

1.分析到的数据要休自由取样

2.重视数量的扑朔迷离,弱化精确性

3.关爱数据的相关性,而不因为果关系

老大数额技术的特性

1.分析宏观的数量要未自由取样

2.器数量的复杂,弱化精确性

3.关心数据的相关性,而无为果关系

好数目的关键技术

注处理、并行化、摘要索引、可视化

生数量的关键技术

流淌处理、并行化、摘要索引、可视化

大数额采取趋势

划分市场、推动公司进步、大数据解析的初方式出现、大数量和出口计算高度融合、大数额整体设施陆续出现、大数据安全

十分数量以趋势

分开市场、推动企业进步、大数据解析的新章程出现、大数目与叙计算高度融合、大数额整体设施陆续出现、大数据安全

是研究范式

率先范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)

毋庸置疑研究范式

第一范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)

格雷法则

1.科学计算数据爆炸式增长

2.解决方案也横向扩张的网布局

3.用计用于数据如果不是多少用于计算(把程序于数迁移。以计算呢基本转变吗缘数量为着力)

格雷法则

1.科学计算数据爆炸式增长

2.解决方案也横向扩张的系统布局

3.用计用于数据如果未是数量用于计算(把程序为数迁移。以计算也着力转变吗为数吧中心)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP定理

一个分布式系统不容许又满足一致性、可用性、分区容错性三单体系要求,最多只能以满足个别只。

CAP定理

一个分布式系统不可能而满足一致性、可用性、分区容错性三单网要求,最多只能以满足个别独。

CAP选择

1.放弃分区容错,导致可扩展性不赛:MySQL、Postgres

2.放弃可用性,导致性不是专门大:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.放弃一致性,对一致性要求小:Cassandra、Dynamo、Voldemort 、CouchDB

CAP选择

1.放弃分区容错,导致可扩展性不赛:MySQL、Postgres

2.放弃可用性,导致性不是特别大:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.放弃一致性,对一致性要求小:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS

HDFS目标

1.兼容降价的硬件配备

2.流数码读写

3.十分数据集

4.概括的文本模型

5.精的跨平台兼容性

HDFS目标

1.兼容廉价的硬件装置

2.流数量读写

3.充分数据集

4.简的文本模型

5.有力的跨平台兼容性

HDFS主要组件(图来源哈尔滨理工大学特别数目课程李先生的课件)

图片 1

HDFS主要组件(图来自哈尔滨理工大学十分数据课程李先生的课件)

图片 2

HDFS读文件

图片 3


 

图片 4

HDFS读文件

图片 5


 

图片 6

HDFS写文件

图片 7

HDFS写文件

图片 8

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文书块完整性:记录新建文件所有片的校验和

3.集群载重均衡:自动从负载重的DataNode上迁移数据

4.文本去:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中配备

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文件块完整性:记录新建文件所有片的校验和

3.集群载重均衡:自动从负载重的DataNode上迁移数据

4.文本去:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中布置

MapReduce

MapReduce

函数式编程优点

1.逻辑可证

2.模块化

3.组件化

4.便于调试

5.易深受测试

6.重胜似的生产率

函数式编程优点

1.逻辑可证

2.模块化

3.组件化

4.善调试

5.易让测试

6.复胜似之生产率

函数式编程的风味

1.尚未副作用:没有改动过函数在该作用域之外的计量并吃其他函数使用

2.无状态的编程:将状态保存在参数中,作为函数的附赠品来传递(不是深明白)

3.输入值和输出值:在函数式编程中,只有输入值和输出值。函数是骨干的单位。在面向对象编程中,将目标传来传去;在函数式编程中,是拿函数传来传去。

函数式编程的性状

1.没有副作用:没有改了函数在其作用域之外的计量并为外函数使用

2.无状态之编程:将状态保存在参数中,作为函数的附赠品来传递(不是那个了解)

3.输入值和输出值:在函数式编程中,只有输入值和输出值。函数是主导的单位。在面向对象编程中,将对象传来传去;在函数式编程中,是拿函数传来传去。

MapReduce流程图(图来自南京大学黄宜华先生的课件)

图片 9

MapReduce流程图(图自南京大学黄宜华先生的课件)

图片 10

挺数额流式计算

挺数据流式计算

流式数据的表征

实时性、易失性、突发性、无序性、无限性、准确性

流式数据的性状

实时性、易失性、突发性、无序性、无限性、准确性

生数目流式计算模型

数据流管理体系:固定查询、ad hoc查询

大数量流式计算:Twitter Storm、Yahoo S4

雅数目流式计算模型

数据流管理网:固定查询、ad hoc查询

杀数量流式计算:Twitter Storm、Yahoo S4

Storm总体架构

主节点Nimbus:负责全局资源分配、任务调度、状态监控、故障检测

从节点Supervisor:接收任务,启动或已工作过程Worker。每个Worker内部有多单Executor。每个Executor对应一个线程。每个Executor对应一个还是多独Task。

Zookeeper:协调、存储冠数据、从节点心跳信息、存储整个集群的享有状态信息、所有配置信息

Storm总体架构

主节点Nimbus:负责全局资源分配、任务调度、状态监控、故障检测

起节点Supervisor:接收任务,启动或停止工作进程Worker。每个Worker内部有差不多只Executor。每个Executor对应一个线程。每个Executor对应一个或者多个Task。

Zookeeper:协调、存储第一数据、从节点心跳信息、存储整个集群的享有状态信息、所有配置信息

Storm特征

1.编程简单

2.支撑多语言

3.作业级容错

4.档次扩展

5.底层使用Zero消息队列,快

Storm特征

1.编程简单

2.支撑多语言

3.作业级容错

4.水准扩展

5.底层使用Zero消息队列,快

Storm缺点

1.资源分配没有考虑任务拓扑的结构特征,无法适应数据负载的动态变化

2.运集中式的作业级容错,限制了系的而扩展性

Storm缺点

1.资源分配没有设想任务拓扑的结构特征,无法适应数据负载的动态变化

2.下集中式的作业级容错,限制了系的不过扩展性

寻找引擎

寻找引擎

找寻引擎的定义

冲早晚的策略、运用特定的计算机程序、从互联网上征集信息,对信息进行集团与拍卖下,将这些信显示被用户之系于搜索引擎。

摸引擎的定义

根据早晚之策略、运用特定的处理器程序、从互联网上采访信息,对信息进行组织同拍卖后,将这些信息展示让用户之系被搜索引擎。

搜寻引擎的咬合

搜索器:搜集信息

索引器:抽取索引

检索器:在库房中检索,排序。

用户接口:展示

摸引擎的构成

搜索器:搜集信息

索引器:抽取索引

检索器:在仓库中搜索,排序。

用户接口:展示

寻找引擎的做事历程

爬行 -> 抓取存储 -> 预处理 -> 排名

搜寻引擎的干活历程

爬行 -> 抓取存储 -> 预处理 -> 排名

找引擎的评价指标

查全率、查准率、响应时间、覆盖范围、用户方便性

摸引擎的评指标

查全率、查准率、响应时间、覆盖范围、用户方便性

好数据解析

好数量解析

数据解析的目的

对乱的数码开展汇总、萃取、提炼,进而找出所研究对象的内在规律,发现那价。

数据解析的目的

针对乱的数量进行集中、萃取、提炼,进而找出所研究对象的内在规律,发现其价值。

数量解析的含义

于纷纷扬扬之多少被剖析有有价的情,获得对数据的认知。

数量解析的意义

当纷纷扬扬的数目被剖析产生有价的内容,获得对数据的体会。

数解析的色

1.探索性数据解析(为了形成值得假设的检)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

多少解析的类别

1.革命性数据解析(为了形成值得假设的查)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

相关文章