提纲 41概述 42 HBase访问接口 4.3 HBase数据模型 44 HBase的实现原理 45 HBase运行机制 46 HBase应用方案 4.7 HBase编程实践 本PPT是如下教材的配套讲义 《大数据技术原理与应用 —概念、存储、处理、分析与应用》 (2017年2月第2版) SBN:978-7-115443304 厦门大学林子雨编著,人民邮电出版社 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 • 4.1 概述 • 4.2 HBase访问接口 • 4.3 HBase数据模型 • 4.4 HBase的实现原理 • 4.5 HBase运行机制 • 4.6 HBase应用方案 • 4.7 HBase编程实践 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata 本PPT是如下教材的配套讲义: 《大数据技术原理与应用 ——概念、存储、处理、分析与应用》 (2017年2月第2版) ISBN:978-7-115-44330-4 厦门大学 林子雨 编著,人民邮电出版社
4.1概述 ·4.1.1 从 Big table说起 4.12 HBase简介 4.1.3 HBase与传统关系数据库的对比分析 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1 概述 • 4.1.1 从BigTable说起 • 4.1.2 HBase简介 • 4.1.3 HBase与传统关系数据库的对比分析
41.1从 Big table说起 Big Table是一个分布式存储系统 Big Table起初用于解决典型的互联网搜索问题 建立互联网索引 1爬虫持续不断地抓取新页面,这些页面每页一行地存储到 Big Table里 2 MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备 搜索互联网 3用户发起网络搜索请求 4网络搜索应用查询建立好的索引,从 Big Table得到网页 5搜索结果提交给用户 contents anchorcnnsi.com""anchormylook.ca <humby com. cnn WWW " CNN "cNn.cOmktg 网页在 Big Table中的存储样例 大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.1从BigTable说起 BigTable是一个分布式存储系统 BigTable起初用于解决典型的互联网搜索问题 •建立互联网索引 1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里 2 MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备 •搜索互联网 3 用户发起网络搜索请求 4 网络搜索应用查询建立好的索引,从BigTable得到网页 5 搜索结果提交给用户 网页在BigTable中的存储样例
●411从 Big Table说起 Big Table是一个分布式存储系统 利用谷歌提出的 MapReduce分布式并行计算模型来处理海量数据 使用谷歌分布式文件系统GFS作为底层数据存储 采用 Chubby提供协同服务管理 可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、 高性能和高可用性等特点 谷歌的许多项目都存储在 Big Table中,包括搜索、地图、财经、打印、 社交网站 Orkut、视频共享网站 Youtube和博客网站 Blogger等 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.1从BigTable说起 •BigTable是一个分布式存储系统 •利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据 •使用谷歌分布式文件系统GFS作为底层数据存储 •采用Chubby提供协同服务管理 •可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、 高性能和高可用性等特点 •谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、 社交网站Orkut、视频共享网站YouTube和博客网站Blogger等
4.12 HBase简介 HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌 Big Table的 开源实现,主要用来存储非结构化和半结构化的松散数据。 HBase的目标是处理非常 庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和 数百万列元素组成的数据表 Hadoop生态系统 ETL工具 BI报表 RDBMS Pig Hi ve Scoop Mal pReduce HBase HDFS (Hadoop Distributed File System) 图41 Hadoop生态系统中 HBase与其他部分的关系 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.2HBase简介 HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的 开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常 庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和 数百万列元素组成的数据表 ETL工具 BI报表 RDBMS Pig Hive Sqoop MapReduce HBase HDFS (Hadoop Distributed File System) Zookeeper Avro Hadoop生态系统 图4-1 Hadoop生态系统中HBase与其他部分的关系