Type of Credit: Elective
Credit(s)
Number of Students
本課程主要在培養同學資料探勘(Data Mining)技術與演算法之基礎。在授課方向上,將以培養同學資料探勘演算法的基礎研究能力為主。
先修課程:程式設計、線性代數、資料結構、演算法、資料庫系統
先備技術: Python, DBMS, Github
能力項目說明
學習目標:培養同學資料探勘演算法的基礎研究能力
學習成效:
(1) 資料探勘的專業知識
(2) 資料探勘演算法的設計思維
教學週次Course Week | 彈性補充教學週次Flexible Supplemental Instruction Week | 彈性補充教學類別Flexible Supplemental Instruction Type |
---|---|---|
第一週 Introduction to Data Mining (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習3 hr.)
第二週 Frequent Pattern Mining: Apriori Algorithms, FP-Trees (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第三週 Frequent Pattern Mining: Quantitative Association Rules, Ratio Rules (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第四週 Frequent Pattern Mining: Association and Causial Relatiobships, Applications (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第五週 國慶日放假、彈性補充教學:線上課程(影片觀摩) AI and Democracy, Keynote Speech By Prof. Lawrence Lessig
第六週 Classification Algorithms: Introduction, Decision Tree, Rule-based Classisifer 指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第七週 Classification Algorithms: Associated Classification, Naïve Bayes Classifier, K-NN (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第八週 Classification Algorithms: Support Vector Machines, Ensemble Algorithms(指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第九週 期中考
第十週 Classification Algorithms: Feature Engineering, Data Imbalance, Data Leakage (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第十一週 Clustering:Introduction, Similarity and Distance, K-Means (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第十二週 Clustering: Hierarchical Clustering, Chameleon (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第十三週 Clustering: DBscan, Gausian Mixture Model(指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習4 hr.)
第十四週 Data Warehousing and Online Analytical Processing (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習5 hr.)
第十五週 Dimensionality Reduction: Singular Value Decomposition, PCA (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習5 hr.)
第十六週 Recommendation: Content-based, Collaborative-based Filtering, Matrix Factorization (指定閱讀課本, 講課與討論, 課前預習1 hr., 課後複習5 hr.)
第十七週 期末考
第十八週 彈性補充教學:專題展示
評量工具:期中考試、期末考試、程式作業、學期專題
評分標準(暫定):根據考試成績、程式作業與學期專題成果評分
期中考 25~30%
期末考 25~30%
作業 15~20% (4個Data Mining程式作業)
學期專題 20~30% ( Kaggle競賽,評分考量包括競賽名次、Algorithm Design, Feature Engineering)
本課程設計主要針對沒有修讀過資科系「資料科學導論」、「機器學習」或「網路搜索與探勘」的同學而設計。修讀過上述課程的同學,選修前請審慎考量主題重複性。
指定書目:
. Introduction to Data Mining, P. N. Tan, M. Steinbach, A. Karpatne and V. Kumar, Pearson, 2nd Ed., 2018.
. Data Mining: Concepts and Techniques, J. Han and M. Kamber, Morgan Kaufmann, 3rd Ed., 2012.
. 課程教材連結 http://wm5.nccu.edu.tw