概念整理

大数量简介

大数目标定义

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、维拉city(真实性)

大数量的属性

非结构性、不完备性、时效性、安全性、可靠性

大数量处理的全经过

数据收集与记录 –>  数据抽取、清洗、标记  –> 
数据集成、转换、简约  –>  数据解析与建模  –>  数据表明

大数额技术的特点

1.剖析宏观的数额而非随机取样

2.讲究数量的复杂,弱化精确性

3.爱抚数据的相关性,而非因果关系

大数额的关键技术

流处理、并行化、摘要索引、可视化

大数额运用趋势

划分市场、牵动集团发展、大数额解析的新措施出现、大数据与云总结中度融合、大数据完整设施陆续现身、大数量安全

是的研商范式

率先范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)

格雷法则

1.科学计算数据爆炸式拉长

2.缓解方案为横向扩展的系统布局

3.将统计用于数据而不是数量用于总结(把程序向数据迁移。以计算为主导转移为以多少为主导)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP定理

一个分布式系统不可以还要满足一致性、可用性、分区容错性八个系统要求,最八只可以同时知足两个。

CAP选择

1.屏弃分区容错,导致可增添性不强:MySQL、Postgres

2.舍弃可用性,导致质量不是特地高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.屏弃一致性,对一致性要求低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS目标

1.包容廉价的硬件装备

2.流数据读写

3.大数据集

4.简短的文本模型

5.强大的跨平台包容性

HDFS主要组件(图来自波德戈里察海洋大学大数量课程李先生的课件)

找个正规网赌平台 1

HDFS读文件

找个正规网赌平台 2


 

找个正规网赌平台 3

HDFS写文件

找个正规网赌平台 4

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文书块完整性:记录新建文件所有块的校验和

3.集群载荷均衡:自动从负载重的DataNode上迁移数据

4.文本删除:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中配置

MapReduce

函数式编程优点

找个正规网赌平台,1.逻辑可证

2.模块化

3.组件化

4.不难调试

5.易于测试

6.更高的生产率

函数式编程的表征

1.一直不副成效:没有改动过函数在其效能域之外的量并被其他函数使用

2.无状态的编程:将状态保存在参数中,作为函数的附赠品来传递(不是很懂)

3.输入值和输出值:在函数式编程中,唯有输入值和输出值。函数是中央的单位。在面向对象编程中,将目的传来传去;在函数式编程中,是将函数传来传去。

MapReduce流程图(图来自波尔图大学黄宜华先生的课件)

找个正规网赌平台 5

大数目流式统计

流式数据的表征

实时性、易失性、突发性、无序性、无限性、准确性

大数量流式计算模型

数据流管理系列:固定查询、ad hoc查询

大数量流式计算:推文(Tweet) Storm、Yahoo S4

Storm总体架构

主节点Nimbus:负责全局资源分配、职分调度、状态监控、故障检测

从节点Supervisor:接收义务,启动或终止工作经过Worker。每个Worker内部有两个Executor。每个Executor对应一个线程。每个Executor对应一个或几个Task。

Zookeeper:协调、存储元数据、从节点心跳音讯、存储整个集群的拥有情形音讯、所有配置音信

Storm特征

1.编程不难

2.支撑多语言

3.作业级容错

4.品位扩张

5.底层使用Zero新闻队列,快

Storm缺点

1.资源分配没有考虑职责拓扑的结构特征,无法适应数据负载的动态变化

2.用到集中式的作业级容错,限制了系统的可增加性

检索引擎

寻找引擎的定义

依照早晚的国策、运用特定的处理器程序、从互连网上采访音讯,对音讯举办社团和拍卖将来,将那些信息展现给用户的系列叫搜索引擎。

寻找引擎的结缘

搜索器:搜集音信

索引器:抽取索引

检索器:在库中搜寻,排序。

用户接口:显示

探寻引擎的工作进度

爬行 -> 抓取存储 -> 预处理 -> 排行

搜索引擎的评论目的

查全率、查准率、响应时间、覆盖范围、用户方便性

大数额解析

数量解析的目标

对乱七八糟的数据开展汇总、萃取、提炼,进而找出所啄磨对象的内在规律,发现其市值。

数据解析的意思

在纷繁扬扬的数据中剖析出有价值的情节,得到对数码的体会。

数量解析的体系

1.革命性数据解析(为了形成值得假如的检验)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

Leave a Comment.