400-888-5228

課程介紹:

作為企業(yè)Hadoop應(yīng)用的核心產(chǎn)品,Hive承載著FaceBook、淘寶等大佬 95%以上的離線統(tǒng)計(jì),很多企業(yè)里的離線統(tǒng)計(jì)甚至全由Hive完成.

Hive可以讓你輕松的在Hadoop中存儲(chǔ)、查詢和分析海量數(shù)據(jù)。

 

課程特點(diǎn):

1,深入淺出中動(dòng)手實(shí)作;

2,對(duì)Hive深入淺出的剖析;

3,掌握Hive的優(yōu)化技術(shù);

4,Hive和亞馬遜云計(jì)算;

 

課程時(shí)長(zhǎng):

2天

課程對(duì)象:

軟件工程師;

數(shù)據(jù)庫(kù)開發(fā)人員;

網(wǎng)絡(luò)后臺(tái)開發(fā)人員;

運(yùn)維人員;

 

學(xué)員基礎(chǔ):

了解Linux系統(tǒng);

了解網(wǎng)絡(luò);

了解Java;

 

課程大綱:

第1個(gè)主題:云計(jì)算的四大核心技術(shù)

1.HDFS

2.MapReduce

3.HBase

4.Hive

 

第2個(gè)主題:Hive集群與管理

1、Hadoop集群的搭建

2、Hadoop集群的監(jiān)控

3、Hadoop集群的管理

4、集群下運(yùn)行MapReduce程序

5、安裝并啟動(dòng)Hive

6、測(cè)試Hive

 

第3個(gè)主題:Hive的命令、數(shù)據(jù)類型和文件格式

1.Hive的CLI

2.Hive的集合數(shù)據(jù)類型

3.編碼和模式

 

第4個(gè)主題:開發(fā)Hive

1.連接Java調(diào)試器到Hive

2.通過Eclipse來開發(fā)Hive代碼

3.Hive的單元測(cè)試

 

第5個(gè)主題:HQL

1.HQL的數(shù)據(jù)定義

2.使用HQL操作數(shù)據(jù)

3.深入HQL查詢

 

第6個(gè)主題:HQL的視圖和索引

1.HQL的視圖:降低查詢的復(fù)雜度和限定特定的條件

2.HQL的索引:索引的創(chuàng)建和管理、定制索引

 

第7個(gè)主題:Hive中的函數(shù)

1.使用Hive中已有的函數(shù)

2.自定義聚合函數(shù)

3.自定義表生成函數(shù)

4.在自定義函數(shù)中訪問緩存

 

第8個(gè)主題:Hive的存儲(chǔ)過程

1、為何需要Hive中的存儲(chǔ)過程

2、在后臺(tái)中運(yùn)行的存儲(chǔ)過程

3、HiveStorageHandler

4、存儲(chǔ)過程的具體編寫和使用

 

第9個(gè)主題:Hive架構(gòu)優(yōu)化

1、降低IO負(fù)載

2、表的分區(qū)、動(dòng)態(tài)分區(qū)

3、壓縮

4、分布式緩存

 

第10個(gè)主題:徹底優(yōu)化HQL

1、HQL優(yōu)化的具體策略和方式

2、Map和Reduce

3、數(shù)據(jù)傾斜

4,執(zhí)行計(jì)劃

 

第11個(gè)主題:在AWS上使用Hive

1.使用并管理EMRHive集群

2.EMR集群的詳細(xì)配置

3.持久層、元數(shù)據(jù)

4.集群中的HDFS和S3(配置、日志等)

 

第12個(gè)主題:Hive的Thrift

1.配置、啟動(dòng)、使用Thrift

2.Thrift的管理

3.管理HiveServer

4.ThriftMetaStore