一、總則CDA(Certified Data Analyst),即“CDA數據分析師”,是在數字經濟大背景和人工智能時代趨勢下,面向全行業(yè)的專業(yè)權威國際資格認證,旨在提升全球用戶數字技能,助力企業(yè)數字化轉型,推動行業(yè)數字化發(fā)展。「CDA人才考核標準」是面向全行業(yè)數據相關崗位的一套科學化、專業(yè)化、國際化的人才技能準則,CDA考試大綱規(guī)定并明確了數據分析師認證考試的具體范圍、內容和知識點,考生可按照大綱要求進行相關知識的學習,獲取技能,成為專業(yè)人才。 二、考試形式與試卷結構考試方式:一年四屆 (3、6、9、12月的最后一個周六),線下統考,上機答題。 考試題型:客觀選擇題(單選60題+多選30題+內容相關10題) 案例實操題(1題) 考試時間:90分鐘(客觀選擇題),120分鐘(案例實操題),共210分鐘 考試成績:分為A、B、C、D四個層次,A、B、C為通過考試,D為不通過 考試要求:客觀選擇題為閉卷上機答題,無需攜帶計算器及其他考試無關用品。 案例實操題考生須自行攜帶電腦操作(安裝好帶有數據挖掘功能的軟件如:PYTHON、SQL、SPSS 三、知識要求針對不同知識,掌握程度的要求分為【領會】、【熟知】、【應用】三個級別,考生應按照不同知識要求進行學習。 1.領會:考生能夠了解規(guī)定的知識點,并能夠了解規(guī)定知識點的內涵與外延,了解其內容要點之間的區(qū)別與聯系,并能做出正確的闡述、解釋和說明。 2.熟知:考生須掌握知識的要點,并能夠正確理解和記憶相關理論方法,能夠根據不同要求,做出邏輯嚴密的解釋、說明和闡述。此部分為考試的重點部分。 3.應用:考生須學會將知識點落地實踐,并能夠結合相關工具進行商業(yè)應用,能夠根據具體要求,給出問題的具體實施流程和策略。 四、考試科目PART 1 數據挖掘概論(占比15%)a.數據挖掘概要(3%) b.數據挖掘方法論(3%) c.基礎數據挖掘技術(4%) d.進階數據挖掘技術(5%) PART 2 高級數據處理與特征工程(占比25%)a.高級數據處理(5%) b.特征工程概要(2%) c.特征建構(3%) d.特征選擇(5%) e.特征轉換(5%) f.特征學習(5%) PART 3 自然語言處理與文本分析(占比20%)a.自然語言處理概要(占比2%) b.分詞與詞性標注(占比4%) c.文本挖掘概要(占比2%) d.關鍵詞提取(占比4%) e.文本非結構數據轉結構(占比8%) PART 4 機器學習算法(占比40%)a.樸素貝葉斯(4%) b.決策樹(分類樹及回歸樹)(5%) c.神經網絡與深度學習(5%) d.支持向量機(4%) e.集成方法(5%) f.聚類分析(5%) g.關聯規(guī)則(4%) h.序列模式(3%) i.模型評估(5%) PART 5 機器學習實戰(zhàn)(本部分內容考查方式為案例實操,不計入客觀選擇題占比。) a.自動機器學習 b.類別不平衡問題 c.半監(jiān)督學習 d.模型優(yōu)化 五、科目內容PART 1 數據挖掘概論 1、數據挖掘概要【領會】數據挖掘在政府部門及互聯網、金融、零售、醫(yī)藥等行業(yè)的應用 【熟知】數據挖掘的起源、定義及目標 【應用】根據給定的數據建立一個數據挖掘的項目 2、數據挖掘方法論【熟知】數據挖掘步驟(字段選擇、數據清洗、字段擴充、數據編碼、數據挖掘、結果呈現) 【應用】運用數據挖掘進行不同文件格式的數據導入,并進行初步的數據探索,探索的內容包含數值型字段的描述性統計分析、直方圖(需與目標字段做連接)、缺失值分析及類別型字段的描述性統計分析、條形圖(需與目標字段做連接、缺失值分析。數據探索的結果可進行初步的字段篩選。 3、基礎數據挖掘技術【領會】可視化技術(能使用相關工具根據業(yè)務問題做出可視化數據報告) 【熟知】案例為本的學習(Case-based Learning):KNN(K-Nearest Neighbor)原理 【應用】運用數據挖掘中的KNN算法進行分類預測、數字預測及內容推薦。建模的過程需考慮將數據進行適當的轉換以獲得更優(yōu)的分析結果。 4、進階數據挖掘技術【熟知】數據挖掘技術的功能分類 PART 2 高級數據處理與特征工程 1、高級數據預處理【領會】數據過濾(理解如何通過數據過濾的方式,建立區(qū)隔化模型,以提升模型的預測效果) 【熟知】缺失值的高級填補技術,包括KNN填補、XGBoosting填補 【應用】運用高級數據預處理技術進行數據過濾,以建立區(qū)隔化模型 2、特征工程概要【領會】特征工程的重要性 【熟知】特征工程的涵蓋范圍 3、特征建構【領會】特征建構前的準備 【熟知】類別型特征的編碼 【應用】運用數據挖掘對特征進行適當的建構,以作為下階段特征選擇的輸入 4、特征選擇【熟知】無效變量(不相關變量、多余變量) 【應用】運用數據挖掘進行關鍵特征的選擇。同時,評估不同的關鍵特征選擇方法對模型效能的影響。 5、特征轉換【領會】線性特征轉換-主成分分析(PCA) 【熟知】非線性的特征轉換-核主成分分析(Kernel PCA) 【應用】運用數據挖掘進行特征的轉換。同時,評估不同的特征轉換方法對模型效能的影響。 6、特征學習【熟知】關聯規(guī)則為基礎的特征學習 【應用】運用數據挖掘進行自動的特征學習。同時,評估不同的特征學習方法對模型效能的影響。 PART 3 自然語言處理與文本分析 1、自然語言處理概要【領會】BOSON的中文語意平臺 【熟知】自然語言處理的研究范疇 【運用】運用BOSON的中文語意平臺進行語言的處理 2、分詞與詞性標注【領會】詞性的種類及意義 【熟知】N-Gram及詞 【運用】運用中文分詞及詞性標注技術對多篇文章進行分詞及詞性標注 3、文本挖掘概要【領會】信息檢索技術之全文掃描 【熟知】文本挖掘的應用 【應用】將多篇文件及查詢轉為向量格式,并計算查詢與文件間的相似度。 4、關鍵詞提取【熟知】TF、DF及IDF 【應用】對多篇文件及查詢中的詞,計算TF、DF、IDF及詞性并提取重要的關鍵詞。 5、文本非結構數據轉結構【熟知】詞袋模型 【應用】對多篇文件進行詞嵌入模型的訓練及使用。 PART 4 機器學習算法 1、樸素貝葉斯【熟知】樸素貝葉斯(獨立性假設、概率的正規(guī)化、拉普拉斯變換、空值的問題) 【應用】運用數據挖掘軟件建立樸素貝葉斯模型,解讀模型結果,并評估模型效能。 2、決策樹(分類樹及回歸樹)【領會】PRISM決策規(guī)則算法 【熟知】ID3決策樹算法(ID3的字段選擇方式、如何使用決策樹來進行分類預測、決策樹與決策規(guī)則間的關系、ID3算法的弊端) 【應用】運用數據挖掘軟件建立分類樹模型,解讀模型結果,并評估模型效能。 3、神經網絡與深度學習【領會】BP神經網絡概述(理解神經網絡的由來及發(fā)展歷程) 【熟知】感知機(Perceptron)及感知機的極限 【應用】運用數據挖掘軟件建立BP神經網絡模型,解讀模型結果,并評估模型效能。 4、支持向量機【領會】支持向量機概述 【熟知】支持向量 【應用】運用數據挖掘軟件建立支持向量機模型,解讀模型結果,并評估模型效能。 5、集成方法【領會】集成方法概述 【熟知】抽樣技術 【應用】運用數據挖掘軟件建立組合方法模型,解讀模型結果,并評估模型效能。 6、聚類分析【領會】聚類的概念 【熟知】相似性的衡量(二元變量的相似性衡量、混合類別型變量與數值型變量的相似性衡量) 【應用】運用數據挖掘軟件建立聚類模型,解讀模型結果,并提供營銷建議。 7、關聯規(guī)則【領會】關聯規(guī)則的概念 【熟知】關聯規(guī)則的評估指標(支持度、置信度、提升度) 【應用】運用數據挖掘軟件建立關聯規(guī)則模型,解讀模型結果,并提供營銷建議。 8、序列模式【領會】序列模式的概念 【熟知】序列模式的評估指標(支持度、置信度) 【應用】運用數據挖掘軟件建立序列模式模型,解讀模型結果,并提供營銷建議。 9、模型評估【熟知】混淆矩陣(正確率(Accuracy)、查準率(Precision)、查全率(Recall)、F-指標(F-Measure)) 【應用】運用數據挖掘軟件比較不同模型間的優(yōu)劣 PART 5 機器學習實戰(zhàn) 1、自動機器學習【領會】自動機器學習的基本概念 【熟知】自動數據預處理的方法 【應用】運用自動機器學習技術,快速建立模型,解讀模型結果,并評估模型效能。 2、類別不平衡問題【領會】不平衡數據定義 【熟知】類別不平衡問題的檢測方法 【應用】能運用類別不平衡的處理技術,提升模型的效能 3、半監(jiān)督學習【領會】監(jiān)督學習、無監(jiān)督學習及半監(jiān)督學習間的關系 【熟知】半監(jiān)督學習的基本思路 【應用】能運用半監(jiān)督學習,降低開發(fā)決策模型的成本 4、模型優(yōu)化【領會】模型參數優(yōu)化的目的 【熟知】模型參數優(yōu)化的方法 【應用】運用模型參數優(yōu)化建立更精準的數據挖掘模型 六、推薦學習書目說明:推薦學習書目中,部分書籍結合軟件,考試中客觀選擇題部分不考查軟件操作使用,案例實操部分需要考生運用相關軟件進行建模分析,考生可根據自身需求選擇性學習。參考書目不需全部學完,根據考綱知識點進行針對性學習即可。 [1] Jiawei Han, Micheline Kamber, Jian Pei.數據挖掘:概念與技術(原書第3版)[M].范明,孟小峰 譯,機械工業(yè)出版社,2012.(必讀) |
|
|