課程內(nèi)容:
14章分布式集群架構(gòu)
14-01大數(shù)據(jù)行業(yè)前沿應(yīng)用與知識(shí)介紹
14-02Linux入門基礎(chǔ)
14-03Hadoop入門介紹
14-04Hadoop單機(jī)環(huán)境搭建
14-05Hadoop偽分布式集群搭建
14-06Hadoop完全分布式集群搭建
15章分布式文件存儲(chǔ)系統(tǒng)HDFS
15-01HDFS簡介
15-02HDFS編程入門
15-03HDFS讀寫文件
15-04HDFS架構(gòu)原理及常用指令
16章ETL工具Sqoop基本原理和常用指令
16-01Sqoop介紹
16-02Sqoop原理
16-03Sqoop部署
16-04關(guān)系型數(shù)據(jù)庫導(dǎo)入Hadoop
16-05Hadoop導(dǎo)入關(guān)系型數(shù)據(jù)庫
16-06Sqoop job應(yīng)用
17章大數(shù)據(jù)倉庫知識(shí)應(yīng)用
17-01Hive架構(gòu)原理和技術(shù)方向
17-02HiveQL數(shù)據(jù)查詢、函數(shù)(聚合函數(shù)、窗口函數(shù)、UDF)
17-03Hbase表設(shè)計(jì)及數(shù)據(jù)查詢
17-04商業(yè)應(yīng)用案例—寬表設(shè)計(jì)與用戶畫像
17-05商業(yè)應(yīng)用案例—網(wǎng)站流量分析與頁面運(yùn)營
18章Spark架構(gòu)原理和核心組件
18-01Spark介紹
18-02Spark數(shù)據(jù)結(jié)構(gòu)及編程語言接口
18-03Spark與分布式數(shù)據(jù)庫和分布式數(shù)據(jù)倉庫的集成方法
19章PySpark編程指南與Spark RDD相關(guān)操作
19-01PySpark開發(fā)環(huán)境搭建
19-02PySpark編程入門:Spark基本數(shù)據(jù)結(jié)構(gòu)
19-03PySpark編程入門:PySpark常用語句
19-04采用PySpark讀取分布式數(shù)據(jù)庫中數(shù)據(jù)
19-05PySpark數(shù)據(jù)清洗案例
20章Spark MLLib與機(jī)器學(xué)習(xí)算法實(shí)踐