Hadoop與Spark大數據架構

  •  
    •  課程目標

      首先介紹了大數據架構的總體內容,并分別詳細講解了Hadhoop與Spark兩套架構,深入講解了主流的三大類大數據計算框架,分別是批處理、交互式計算和流式計算框架,并選取當下主流的開源實現進行介紹。課程最后對Mahout與MLlib這兩個主流的分布式數據挖掘與機器學習庫進行了實現以及應用案例講解。

    •  師資團隊

    • 華清創客企業內訓講師,均是來自各個領域的資深專家,均擁有6年以上大型項目經驗。

    •  培養對象

      1、學員學習本課程應具備基礎知識:了解Java語言、Linux系統;
      2、適用于各類IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。

    •  培訓方式

    第一種:華清創客講師面授
    課時:共2天,每天6學時,總計12學時
    ◆費用(含教材費):2400元
    ◆外地學員:代理安排食宿(需提前預定)

    第二種:線上直播授課
    直播課時:共4天,每天3學時,總計12學時;
    輔導:授課期間,輔導老師每天有1小時的輔導直播
    ◆費用(含教材費):2400元

    第三種:企業訂制培訓
    課時:根據定制的大綱確定課時
    費用:根據課程難度,每課時1500~3000元

      •  質量保證

        1、培訓過程中,如有部分內容理解不透或消化不好,可免費在下期培訓班中重聽;

        2、培訓結束后免費提供一個月的技術支持,充分保證培訓后出效果;

        3、培訓合格學員可享受免費推薦就業機會。

      •  課程大綱

        主題 內容

        大數據架構概述 "1.1大數據層級架構及各層軟件設計要求,包括數據收集、存儲、計算框、應用

        1.2 Hadoop生態系統概述以及版本演化,并給出版本選擇建議。

        1.3 Spark生態系統概述及其特點,并與Hadoop對比"

        數據收集系統FlumeSqoop


        2.1使用flumesqoop兩個系統將外部流式數據(比如網站日志,用戶行為數據等)、關系型數據庫(比如MySQLOracle等)中的數據導入Hadoop中進行分析和挖掘

        大數據存儲系統HDFSHbase "


        3.1 HDFS1.0進行對比介紹2.0原理、特性與基本架構(快照、緩存、異構存儲)。

        3.2 HBase原理,基本架構與案例分析

        3.3 HBase應用場景、原理和架構,典型應用案例(互聯網、銀行)"

        集群資源管理與調度系統


        4.1 介紹YARN應用場景、基本架構與資源調度

        Zookeeper部署及典型應用


        5.1 介紹Zookeeper是什么,基本原理及在應用

        大數據計算平臺 "介紹主流的三大類大數據計算框架,分別是批處理、交互式計算和流式計算框架,并選取當下主流的開源實現進行介紹。


        6.1 批處理計算框架

        6.1.1 MapReduce2.0基本原理與架構、程序編寫(使用javaC++php語言)

        6.1.2 數據分析系統HivePig應用與比較,如何使用其中的海量數據

        6.1.3 Spark計算框架,背景及應用案例

        6.2 交互式計算框架,Impalapresto應用場景,基本架構和典型應用案例

        6.3 流式/實時計算框架,stormSparkStreaming基本架構特點,及應用案例"

        數據挖掘與機器學習庫 7.1 MahoutMLlib兩個主流的分布式數據挖掘與機器學習庫的實現以及應用案例。



the end

評論(0)