課時一:概念綜述
1、 大數據的定義由來和原因
2、 大數據的6V特征
3、 從數據庫,數據倉庫到大數據
課時二:Hadoop生態圈、spark生態圈、搜索引擎概述
1、 hadoop:HDFS、Map-Reduce、Hbase、Hive等
2、 spark:scala、spark-SQL、spark-Streaming等
3、 搜索引擎:lucene(solr)、ES
4、 并發的機器學習工具:R-hadoop、spark-MLLIB、 spark-R、pyspark
課時三:存儲在hbase中的數據
1、 NoSQL(key-value)
2、 Hbase:安裝
3、 行鍵與列簇
4、 如何利用Hbase的特點存儲數據
5、 應用程序如何訪問Hbase中的數據
6、 數據遷移:sqoop
7、 Hbase的應用場景
課時四:Hive:為用SQL的開發者留的活路
1、 Hive:安裝(單用戶與多用戶)
2、 Hive:基本操作
3、 Hive:與典型的關系型數據庫的區別
4、 如果“想慢”,你可以這樣…(不恰當使用hive的案例介紹)
5、 Hive的應用場景
課時五:Spark各組件在衛生領域的應用
1、 Hadoop最大的特點是什么?
2、 Spark概述與安裝
3、 Scala:你可以一直“點”下去
4、 RDD:“映射”、“轉換”解決一切
5、 spark-SQL
6、 spark-streaming
7、 spark的其他組件
8、 應用場景
課時六:機器學習算法介紹—I
1、 綜述(人工智能、數據挖掘、機器學習、機器智能、大數據:這些詞的確切含義)
2、 監督學習、無監督學習與強化學習
3、 工具:R、Python等
4、 決策樹詳解(熵、貪心法、連續的和離散的)
5、 神經網絡詳解(神經元、激勵函數、前饋神經網絡的BP算法,其他神經網絡)
課時七:機器學習算法介紹—II
1、 關聯規則詳解(頻繁項集、Apriori、支持度、置信度)
2、 聚類詳解(k-means、k-medoid)
3、 常見算法的簡述(Na?ve-Bayes、k-NN、HMM、SVM等)