課程介紹
現今是大數據時代,為構建大數據平臺,技術人員需要對分布式計算平臺有一定深入的理解和應用。本課程將為大家全面而又深入的介紹Spark、Hadoop平臺的構建流程,涉及Spark Hadoo系統基礎知識,概念及架構,Spark Hadoo實戰技巧,Spark、Hadoo經典案例等。
培訓對象
學員須具備:了解Linux系統及相關語言環境;
各類 IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。
課程收益
幫助學員對Spark、Hadoo生態系統有一個清晰明了的認識;
理解Spark、Hadoo系統適用的場景;
掌握Spark、Hadoo等初中級應用開發技能;搭建穩定可靠的Spar、Hadook集群,滿足生產環境的標準。
知識概要
-- 大數據整體體解決方案架構介紹;
-- Cloudera CDH安裝及集群介紹;
-- Kafka的使用場景;
-- HDFS HIVE IMPALA組件;
-- HIVE、IMPALA區別:特性不同點,架構不同特點;
-- Zookeeper組件;
-- Azkaban、Yarn 調度資源協調;
-- yarn架構組件(Resourcemanager、NodeManager、ApplicationMaster);
-- yarn作業調度流程;
-- 大數據安全管理;
-- Hadoop安全機制Kerberos。
課程大綱
大數據整體體解決方案、架構介紹、流處理、批處理
硬件選型,操作系統選型
開源軟件,Hadoop生態軟件
大數據組件(開發語言介紹)
Cloudera CDH安裝及集群介紹
Cloudera CDH 安裝
Hadoop集群介紹,Hadoop集群使用
HDFS分布式文件系統介紹
Kafka的使用場景
Kakfa的設計思想,Kafka文件存儲機制
持久化\負載均衡\Topic模型
消息傳輸一致性\分布式
Leader的選擇\集群分區
生產者消費者配置
案例:Kafka從flume獲取消息,實現傳輸
flume+sqoop介紹及開發實例
flume實現數據采集流程
flume agent配置,flume sink配置,flume 數據過濾
案例(1): 使用flume動態采集日志
Sqoop功能及軟件結構
從關系型數據庫導入數據到HDFS,從HDFS導入數據到關系型數據庫
案例: 從HDFS導入數據到MySQL數據庫
案例: 從MySQL數據庫導入數據到HDFS
Hadoop集群搭建、Spark集群部署及測試
Spark交互式命令行
如何使用Spark交互式命令行、理解Spark任務提交流程、執行流程
如何通過WebUI查看任何執行狀態
spark streaming運行原理spark 生態及運行原理
集群模式
Spark工作機制
RDD彈性分布式數據集,介紹RDD實現原理
理解什么是Action和Transformation,理解窄依賴與寬依賴
Spark核心概念之RDD
RDD函數
Spark核心概念之Shuffle
Spark Job執行原理分析、shuffle操作解析
Spark核心概念之Cache
Spark廣播變量與累加器、Cache與checkpoint問題
Spark多語言編程
Spark SQL組件、架構
DataFrame、SparkSQL運行原理
Spark SQL基礎應用
Spark Streaming運行原理、DStream
DStream 常用函數
Machine Learning On Spark簡介、常用數據結構
Spark 資源調優
案例:spark streaming數據處理
HDFS HIVE IMPALA組件
DHFS分布式存儲特性
DHFS訪問方式
HDFS優化方案
HIVE IMPALA查詢
共同點:如數據表元數據、ODBC/JDBC驅動、SQL語法、靈活的文件格式、存儲資源池等
HIVE、IMPALA區別:特性不同點,架構不同特點
Zookeeper組件
Zookeeper應用
Zookeeper注冊中心管理
Zookeeper配置與協調
實驗:HDFS存取數據、HIVE、IMPALA實現數據分析和報表
Azkaban、Yarn 調度資源協調
Azkaban的適用場景
Azkaban特點
Azkaban的架構
配置文件
啟動executor服務器
啟動web服務器
案例:多job工作流案例
yarn架構組件(Resourcemanager\NodeManager\ApplicationMaster)
yarn作業調度流程
綜合案例
Flume實現日志采集+kafka(消息隊列、緩存)+spark streaming(數據處理)+數據庫/DHFS
sqoop 導入關系型數據庫,實現hive impala查詢
大數據安全管理
Apache Sentry
Hadoop安全機制Kerberos
認證過程
無認證考試
開班信息
暫無開班信息