一、HCIA-Big Data認證概述
HCIA-Big Data認證定位于大數(shù)據(jù)技術的普及,華為FusionInsight HD 解決方案的功能特性、常見且重要大數(shù)據(jù)組件基礎技術原理及操作演練的考核和認證。HCIA-Big Data認證包括但不限于:大數(shù)據(jù)行業(yè)與技術趨勢介紹;HDFS分布式文件系統(tǒng)、MapReduce分布式離線批處理計算引擎和Yarn資源協(xié)調、Spark2x基于內存的分布式計算引擎、HBase分布式NoSQL數(shù)據(jù)庫、Hive分布式數(shù)據(jù)倉庫、Streaming分布式流計算引擎、Loader數(shù)據(jù)轉換、Flume海量日志聚合、Kafka分布式消息訂閱系統(tǒng)、ZooKeeper集群分布式協(xié)調服務等11個常用且重要的大數(shù)據(jù)組件技術原理與架構,華為大數(shù)據(jù)解決方案產品FusionInsight HD及成功案例介紹;基于獨立大數(shù)據(jù)組件的實戰(zhàn)演練以及大數(shù)據(jù)綜合應用實戰(zhàn)。通過HCIA-Big Data認證,將證明您已經系統(tǒng)掌握常用且重要的大數(shù)據(jù)組件技術原理與架構,能夠運用華為大數(shù)據(jù)解決方案FusionInsight HD進行海量數(shù)據(jù)的導入和導出、分布式文件系統(tǒng)HDFS的基礎操作、分布式數(shù)據(jù)庫HBase客戶端及表操作、分布式數(shù)據(jù)倉庫Hive的常用HQL語句查詢,以及了解典型場景的綜合應用等。使您具備大數(shù)據(jù)售前、大數(shù)據(jù)售后技術支持、大數(shù)據(jù)項目管理、大數(shù)據(jù)運維管理、大數(shù)據(jù)開發(fā)、大數(shù)據(jù)分析等崗位所必備的知識和技能。企業(yè)擁有通過HCIA-Big Data認證的工程師,意味著企業(yè)掌握了大數(shù)據(jù)技術基礎原理與架構等相關知識,具備運用華為大數(shù)據(jù)解決方案FusionInsight HD和開源Hadoop生態(tài)系統(tǒng)進行數(shù)據(jù)初步處理的能力,并且為大數(shù)據(jù)應用開發(fā)業(yè)務奠定了堅實的基礎。
二、HCIA-Big Data課程內容介紹
課程 |
模塊 |
詳情內容 |
HCIA-Big Data |
概述,F(xiàn)I基本架構 |
1、大數(shù)據(jù)時代的特征以及大數(shù)據(jù)的概念
2、大數(shù)據(jù)的應用領域
3、大數(shù)據(jù)時代的機遇和挑戰(zhàn)
4、華為大數(shù)據(jù)解決方案 |
Kerberos&LDAP認證 |
1、Kerberos、ldap簡介
2、用戶分類
3、Kerberos、ldap工作原理
4、Kerberos、ldap特性
5、Kerberos、ldap |
Zookeeper |
1、zookeeper在系統(tǒng)中的位置
2、zookeeper的系統(tǒng)架構
3、zookeeper的關鍵特性
4、zookeeper與其他組件的關系 |
HDFS(讀寫、壓縮) |
1、HDFS概述以及應用場景
2、HDFS在FusionInsight產品當中的位置 3、HDFS系統(tǒng)架構
4、HDFS的關鍵特性介紹
5、HDFS shell應用開發(fā) |
MapReduce和Yarn |
1、MR的基本定義和特點
2、MR工作模式介紹
3、Yarn的基本定義
4、Yarn工作模式介紹
5、yarn的資源管理和任務調度
6、yarn的增強特性 |
Hbase |
1、Hbase的定義以及與傳統(tǒng)數(shù)據(jù)庫的對比 2、Hbase的功能與架構
3、Hbase的工作流程
4、Hbase的華為增強特性 |
Streaming |
1、streaming的定義與應用場景
2、streaming在fusioninsight產品的位置 3、streaming的關鍵特性介紹
4、streamSQL介紹 |
Kafka |
1、kafka的簡要介紹
2、kafka的架構與功能
3、kafka的關鍵工作流程
4、kafka在zookeeper上的目錄結構 |
Spark核心 |
1、spark的簡要介紹
2、spark基本功能和技術架構
3、spark的工作原理
4、spark在fusioninsight中的集成情況
5、sparkSQL的工作原理
6、streaming的工作原理 |
FusionInsight集群安裝部署 |
1、認識華為的FusionInsight安裝部署流程
2、了解注意事項 |
三、HCIP-Big Data認證概述
HCIP-Big Data認證定位于對大數(shù)據(jù)平臺和核心組件開發(fā)應用的場景理解,流程和開發(fā)方法等能力構建,考核和認證。HCIP-Big Data認證包括但不僅限于:FusionInsight應用開發(fā)流程,HDFS, HBase, Hive, Solr, Kafka, MR, YARN, Spark, Flume, Loader, Oozie, Redis, Storm等組件開發(fā)應用場景、流程、接口/方法和開發(fā)樣例講解,開發(fā)實踐。通過HCIP-Big Data認證,將證明您深入理解大數(shù)據(jù)平臺與技術及應用,掌握大數(shù)據(jù)平臺和關鍵組件的開發(fā)流程、接口,掌握典型場景的開發(fā)方法,勝任大數(shù)據(jù)開發(fā)者工作崗位。擁有通過HCIP-Big Data認證的工程師,意味著企業(yè)掌握了運用大數(shù)據(jù)平臺和組件實現(xiàn)大數(shù)據(jù)解決方案規(guī)劃、實施、開發(fā)等綜合能力。
四、HCIP-Big Data課程內容介紹
課程 |
模塊 |
詳情內容 |
HCIP-Big Data |
HDFS(讀寫和壓縮)+eclipse使用 |
1、HDFS系統(tǒng)架構以及HDFS的關鍵特性回顧
2、HDFS java應用開發(fā)
3、HDFS shell應用開發(fā) |
MapReduce和Yarn |
1、MR和yarn的工作模式回顧
2、MR的java開發(fā) |
Hive |
1、hive的基本架構回顧
2、hive的jdbc客戶端開發(fā)流程 |
Hbase |
1、Hbase的功能與架構和工作流程回顧
2、Hbase的java開發(fā) |
Streaming |
1、streaming的關鍵特性回顧
2、streaming的java應用開發(fā)
3、CQL應用開發(fā) |
Loader&Flume |
1、flume關鍵特性回顧
2、flume的應用開發(fā) |
Kafka |
1、kafka的關鍵工作流程回顧 2、kafka的應用開發(fā) 3、flume和kafka綜合 |
Solr |
1、solr的概述以及應用場景 2、solr的概念體系和系統(tǒng)構架 3、solr的關鍵特性以及華為增強特性 4、solr的應用開發(fā) |
Oozie |
1、oozie簡介2、oozie開發(fā) |
Spark核心 |
1、spark的工作原理回顧 2、sparkcore的應用開發(fā) |
Spark SQL&SparkStreaming |
1、sparkSQL的工作原理與應用開發(fā)2、streaming的工作原理與應用開發(fā) |
Redis |
1、redis的基本概念和應用場景 2、redis的應用開發(fā) |
Kerberos&LDAP認證 |
1、Kerberos、ldap安裝與維護 |
五、HCIE-Big Data認證概述
HCIE-Big Data認證定位于大數(shù)據(jù)分析領域中大型分布式并行處理數(shù)據(jù)倉庫平臺的架構原理、優(yōu)化設計、應用開發(fā)和大數(shù)據(jù)挖掘領域的基礎理論、常用挖掘算法、應用設計以及開發(fā),旨在推動業(yè)界大數(shù)據(jù)行業(yè)的專家型人才培養(yǎng)。HCIE-Big Data認證包括但不僅限于:(1)華為企業(yè)級的大型并行處理分布式數(shù)據(jù)倉庫平臺FusionInsight LibrA的架構、功能特性、數(shù)據(jù)庫設計、數(shù)據(jù)庫數(shù)據(jù)導入導出、數(shù)據(jù)庫調優(yōu)及數(shù)據(jù)庫開發(fā)等;(2)數(shù)據(jù)挖掘的理論(包括數(shù)據(jù)預處理、數(shù)據(jù)倉庫、分類、聚類、關聯(lián)規(guī)則等)以及使用華為企業(yè)級大數(shù)據(jù)挖掘平臺FusionInsight Miner和基于華為云的企業(yè)智能平臺EI (Enterprise Intelligence)的基礎服務 - MLS (Machine Learning Service,機器學習服務)進行數(shù)據(jù)深度分析和挖掘。通過HCIE-Big Data認證,將證明您系統(tǒng)理解并掌握大型并行處理數(shù)據(jù)倉庫平臺的架構原理、分布式關系型數(shù)據(jù)庫的設計和優(yōu)化及應用開發(fā);掌握大數(shù)據(jù)挖掘的基本原理,常用算法、常用挖掘方法、對華為大數(shù)據(jù)挖掘解決方案FusionInsight Miner和華為云機器學習服務MLS的熟練使用,勝任數(shù)據(jù)倉庫開發(fā)、大數(shù)據(jù)分析、大數(shù)據(jù)數(shù)據(jù)挖掘和人工智能的相關崗位。企業(yè)擁有HCIE-Big Data 認證的工程師,意味著企業(yè)掌握了運用大數(shù)據(jù)技術進行大數(shù)據(jù)分析應用、大數(shù)據(jù)挖掘應用的能力。
六、HCIE-Big Data課程內容介紹
課程 |
模塊 |
詳情內容 |
HCIE-Big Data |
FusionInsight解決方案 |
華為大數(shù)據(jù)解決方案整體介紹。包含華為FusionInsight大數(shù)據(jù)平臺架構及功能模塊具體功能介紹。 |
FusionInsight HD安裝部署 |
FusionInsight HD大數(shù)據(jù)平臺安裝前規(guī)劃,包括物理硬件、軟件的準備,磁盤、網絡、進程的規(guī)劃。以及軟件的安裝步驟詳解 |
HDFS分布式文件系統(tǒng) |
1、HDFS簡介
2、HDFS的系統(tǒng)架構
3、HDFS的實現(xiàn)原理及關鍵特性
4、華為對HDFS的增強特性
5、HDFS的命令行客戶端使用介紹 |
MapReduce離線計算引擎 |
1、MR簡介
2、MRv1與MRv2區(qū)別
3、Yarn架構及工作原理詳解
4、MR on Yarn詳解
5、MR 數(shù)據(jù)處理流程詳解
6、MR使用演示 |
Hbase分布式數(shù)據(jù)庫 |
1、Hbase簡介
2、Hbase系統(tǒng)架構
3、Hbase關鍵關鍵概念詳解
4、Hbase關鍵流程詳解(數(shù)據(jù)讀寫流程、Region Split流程、小文件合并流程等)
5、Hbase過濾器介紹
6、Hbase表設計
7、Hbase shell客戶端使用 |
Hive分布式數(shù)據(jù)倉庫 |
1、Hive系統(tǒng)架構
2、Hive工作原理
3、Hive關鍵特性(如分區(qū)表、分桶、數(shù)據(jù)加密、數(shù)據(jù)存儲格式等)
4、Hive權限管理
5、Hive shell客戶端使用 |
Streaming實時計算引擎 |
1、Streaming簡介
2、Streaming架構詳解
3、Streaming各進程之間交互及工作原理詳解
4、Streaming關鍵特性介紹
5、Straming CQL的使用介紹 |
Spark內存計算引擎 |
1、Spark 簡介
2、Spark架構詳解
3、Spark Core詳解
4、Spark SQL詳解
5、Spark Streaming詳解
6、Spark SQL使用介紹 |
數(shù)據(jù)挖掘基礎 |
1、什么是數(shù)據(jù)挖掘
2、數(shù)據(jù)挖掘所能夠解決的問題
3、數(shù)據(jù)挖據(jù)的常用算法簡介
4、數(shù)據(jù)挖掘常用工具簡介 |
FusionInsight Miner操作指南 |
1、項目和工作流的基本概念和管理
2、數(shù)據(jù)輸入算子(如讀取Hive表、讀取HDFS數(shù)據(jù)、讀取文本數(shù)據(jù)等)的功能和使用
3、數(shù)據(jù)轉換算子(如聚合、去重、過濾、連接等)的功能和使用
4、主成成分分析、異常檢測、分類、聚類、回歸、推薦等算子簡介
5、數(shù)據(jù)輸出算子功能介紹及使用 |
數(shù)據(jù)預處理 |
1、數(shù)據(jù)類型和數(shù)據(jù)質量介紹
2、數(shù)據(jù)聚集、抽樣、維歸約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量轉換
3、相似性和向異性的度量 |
分類 |
1、邏輯回歸介紹
2、決策樹介紹
3、K-最近鄰分類器介紹
4、貝葉斯分類器介紹
5、支持向量機分類器介紹
6、隨機森林介紹
7、梯度提升樹算法介紹
8、使用華為Miner實現(xiàn)數(shù)據(jù)分類 |
聚類 |
1、K-均值聚類介紹
2、層次聚類介紹
3、DBSCAN介紹
4、使用華為Miner通過K-均值算法實現(xiàn)數(shù)據(jù)聚類 |
關聯(lián)規(guī)則 |
1、頻繁項集相關概念介紹
2、生成關聯(lián)規(guī)則的算法介紹
3、關聯(lián)模式的評估 |
異常檢測 |
1、異常的成因
2、異常檢測方法
3、基于臨近度的異常檢測
4、基于密度的離群點檢測
5、基于聚類技術的離群點檢測 |
推薦系統(tǒng) |
1、協(xié)同過濾算法 2、基于內容的推薦 3、基于關聯(lián)規(guī)則的推薦 4、基于效用的推薦 5、基于知識的推薦 |
圖計算 |
1、圖計算基本概念
2、PageRank算法介紹
3、使用Miner關系分析中的網頁排名算子體驗PageRank算法 |
分布式數(shù)據(jù)庫架構 |
1、體系構架基本知識
2、MPP特性介紹 |
LibrA數(shù)據(jù)庫集群規(guī)劃和部署 |
1、組網方案
2、軟硬件要求
3、LibrA安裝前準備
4、LibrA軟件安裝流程
5、LibrA安裝后檢查 |
關鍵特性 |
1、LibrA產品特性
2、LibrA關鍵技術
3、企業(yè)級增強特性 |
安全管理 |
1、訪問控制
2、用戶管理
3、權限管理模型
4、對象權限
5、安全審計 |
數(shù)據(jù)庫管理系統(tǒng)并發(fā)控制 |
1、配置負載均衡
2、事務與隔離級別
3、LibrA鎖機制介紹 |
數(shù)據(jù)備份與恢復 |
1、備份與恢復方案
2、備份與恢復集群信息
3、備份與恢復數(shù)據(jù)庫對象
4、數(shù)據(jù)安全操作策略
5、物理備份與恢復 |
數(shù)據(jù)遷移 |
1、數(shù)據(jù)遷移場景介紹
2、GDS工具介紹和使用
3、copy from/to介紹和使用
4、開源ELT工具介紹和使用
5、gs_dump/gs_restore介紹和使用
6、gsql工具介紹和使用
7、Roach工具介紹和使用
8、從其他數(shù)據(jù)庫中遷移數(shù)據(jù) |
資源負載管理 |
1、資源負載管理的對象
2、內存管理
3、基于資源池的資源負載管理機制
4、開啟和管理資源負載管理功能
5、并發(fā)管理和優(yōu)先級調度
7、異常管理
8、檢查資源負載狀態(tài) |
配套工具集的使用 |
1、Database Manager工具介紹、安裝部署和主要功能列表
2、Data Studio工具介紹、安裝部署和主要功能列表 |
SQL介紹和使用 |
1、SQL相關機制和原理
2、SQL語法和相關操作
3、利用EXPLAIN進行SQL調優(yōu) |
數(shù)據(jù)庫表設計 |
1、數(shù)據(jù)庫邏輯設計
2、存儲模式
3、數(shù)據(jù)分布
4、表分區(qū)
5、索引 |
存儲過程 |
1、數(shù)據(jù)類型介紹
2、數(shù)組介紹
3、申明語法
4、基本語句
5、動態(tài)語句
6、控制語句
7、其他語句
8、游標
9、高級包 |
數(shù)據(jù)庫性能監(jiān)控和調優(yōu) |
1、系統(tǒng)資源監(jiān)控方式
2、性能相關視圖
3、使用命令行監(jiān)控集群性能
4、使用DM工具監(jiān)控集群性能
5、LibrA的性能調優(yōu) |
應用程序開發(fā)指導 |
1、FusionInsight LibrA驅動介紹
2、ODBC應用程序開發(fā)
3、JDBC應用程序開發(fā)
4、基礎開發(fā)規(guī)范 |
|