• <abbr id="kam3m"><form id="kam3m"></form></abbr>

    <u id="kam3m"><li id="kam3m"></li></u>

  • <table id="kam3m"></table>
    
    

    <u id="kam3m"></u>
    18禁无遮挡啪啪无码网站,真人无码作爱免费视频,2018年亚洲欧美在线v,国产成人午夜一区二区三区 ,亚洲精品毛片一区二区,国产在线亚州精品内射,精品无码国产污污污免费,国内少妇人妻偷人精品
    首頁 > 文章中心 > 數(shù)據(jù)挖掘課程

    數(shù)據(jù)挖掘課程

    前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘課程范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

    數(shù)據(jù)挖掘課程

    數(shù)據(jù)挖掘課程范文第1篇

    關(guān)鍵詞:統(tǒng)計(jì)學(xué);數(shù)據(jù)挖掘;案例驅(qū)動(dòng)

    中圖分類號(hào):G712 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2014)40-0069-02

    一、前言

    近年來,數(shù)據(jù)獲取和數(shù)據(jù)存儲(chǔ)技術(shù)快速發(fā)展,各種數(shù)據(jù)庫、數(shù)據(jù)倉庫中存儲(chǔ)的數(shù)據(jù)量飛速增長(zhǎng)。人們關(guān)注的焦點(diǎn)要從噪聲、模糊的隨機(jī)數(shù)據(jù)中提取重要的信息、知識(shí),數(shù)據(jù)挖掘的出現(xiàn),提供了一種有效解決“數(shù)據(jù)豐富而知識(shí)貧乏”問題的方法。

    數(shù)據(jù)挖掘作為統(tǒng)計(jì)專業(yè)的核心課程,是學(xué)生必須掌握的職業(yè)能力課程。根據(jù)高職生的知識(shí)結(jié)構(gòu)體系和培養(yǎng)目標(biāo),我們采用案例驅(qū)動(dòng)教學(xué)方法,以學(xué)生為主體,案例為主線,教師為主導(dǎo),對(duì)案例進(jìn)行分析,學(xué)習(xí)案例所涉及的相關(guān)知識(shí)點(diǎn),從而會(huì)利用相關(guān)軟件工具對(duì)數(shù)據(jù)進(jìn)行分析,挖掘數(shù)據(jù)間的知識(shí)。

    二、數(shù)據(jù)挖掘中案例驅(qū)動(dòng)教學(xué)的實(shí)施

    (一)合理高職高專統(tǒng)計(jì)專業(yè)數(shù)據(jù)挖掘課程教學(xué)目標(biāo)

    數(shù)據(jù)挖掘是集數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、模式識(shí)別、可視化等學(xué)科的一個(gè)新興交叉學(xué)科,又包含了聚類分析、關(guān)聯(lián)規(guī)則分析、分類等,每一種挖掘又有不同算法,是一門理論性、實(shí)踐性及綜合性較強(qiáng)的課程。其知識(shí)內(nèi)容豐富,內(nèi)容深淺不一,各種方法變化快,新方法層出不窮,這對(duì)師生都提出了嚴(yán)峻的挑戰(zhàn)。

    高職高專將培養(yǎng)高等技術(shù)應(yīng)用型專門人才為根本任務(wù),以適應(yīng)社會(huì)行業(yè)發(fā)展需求為基本目標(biāo),結(jié)合本院統(tǒng)計(jì)專業(yè)學(xué)生的專業(yè)技能特點(diǎn),我們將本門課程的教學(xué)目標(biāo)定位為:掌握數(shù)據(jù)挖掘課程涉及的基本概念,提高信息分析能力,能從收集到的數(shù)據(jù)信息中利用有效的軟件工具CLEMENTINE進(jìn)行知識(shí)“挖掘”;要根據(jù)實(shí)際情況制定合理完整的數(shù)據(jù)模型并進(jìn)行評(píng)估,這些評(píng)估要具有可視性,才能有效地解決問題,而使數(shù)據(jù)挖掘更具有合理性。

    (二)如何驅(qū)動(dòng)教學(xué)來設(shè)計(jì)數(shù)據(jù)挖掘案例

    1.介紹案例驅(qū)動(dòng)教學(xué)法。案例驅(qū)動(dòng)法是在“哈佛大學(xué)”的情境案例教學(xué)課起源,是一種探索性和協(xié)作性學(xué)習(xí)的教學(xué)模式。整個(gè)授課過程圍繞著同一個(gè)目標(biāo)和幾項(xiàng)任務(wù)“教授”,學(xué)生通過對(duì)課程的學(xué)習(xí)、資料的查找和知識(shí)的整合,通過充分思考和與實(shí)踐相結(jié)合,提高自身能力。這種案例驅(qū)動(dòng)的教學(xué)法可以讓學(xué)生提高學(xué)習(xí)興趣,發(fā)展學(xué)生自身的能力。同時(shí)能讓教師更好地發(fā)揮促進(jìn)學(xué)生學(xué)習(xí)、引導(dǎo)學(xué)生成功的功能。

    案例驅(qū)動(dòng)法是把教學(xué)內(nèi)容和目標(biāo)通過一個(gè)任務(wù)來體現(xiàn),把教材內(nèi)容重新整合,老師的授課和學(xué)生的接受都圍繞這個(gè)任務(wù)完成。

    案例驅(qū)動(dòng)法可以充分發(fā)揮學(xué)生的主體地位,從而改變傳統(tǒng)的關(guān)于師生關(guān)系的觀念,讓學(xué)生從被動(dòng)學(xué)習(xí)到主動(dòng)學(xué)習(xí),真正愛上學(xué)習(xí),提高自己的創(chuàng)新、自學(xué)和實(shí)踐能力,同時(shí)要求老師在授課中給予學(xué)生正確的引導(dǎo)、促進(jìn)、組織和控制,這樣可以增強(qiáng)同學(xué)間的協(xié)作精神和學(xué)生的獨(dú)立意識(shí)。通過學(xué)生的自主學(xué)習(xí)和探索,可以改變?cè)瓉砜菰锏膶W(xué)習(xí)方式。對(duì)于數(shù)據(jù)挖掘這門課程,內(nèi)容深?yuàn)W,既要求學(xué)習(xí)一定的理論知識(shí),又要求掌握數(shù)據(jù)挖掘的使用方法,因此我們引入使用案例驅(qū)動(dòng)的教學(xué)方法。

    2.數(shù)據(jù)挖掘案例教學(xué)的實(shí)施規(guī)劃。利用CLEMENTINE軟件工具進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)挖掘看成一個(gè)以數(shù)據(jù)為中心的循序漸進(jìn)的螺旋式數(shù)據(jù)探索過程,該過程分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、方案評(píng)估和方案實(shí)施六大部分。因此,在教學(xué)過程中,我們圍繞數(shù)據(jù)挖掘的六大部分,在每一部分,講解基本的數(shù)據(jù)挖掘技術(shù)原理;對(duì)于數(shù)據(jù)挖掘算法,只要求掌握相關(guān)算法使用的方法和使用的場(chǎng)合,并會(huì)使用專業(yè)的數(shù)據(jù)挖掘工具CLEMENTINE,此應(yīng)用的前提條件要求對(duì)學(xué)生進(jìn)行數(shù)據(jù)挖掘;將教學(xué)的亮點(diǎn)和重點(diǎn)放在案例分析和實(shí)際應(yīng)用上,要對(duì)學(xué)生進(jìn)行動(dòng)手能力的訓(xùn)練。

    在教學(xué)的過程中,最重要的是案例的選取。通過參考教學(xué)大綱和教學(xué)目標(biāo),對(duì)教學(xué)案例進(jìn)行精心設(shè)計(jì),可以提高學(xué)生的分析能力,提高學(xué)生發(fā)現(xiàn)問題和解決問題的能力,才能更好地將教案落實(shí),并形成具體的項(xiàng)目。根據(jù)數(shù)據(jù)挖掘課程的特點(diǎn)和具體內(nèi)容,我們通過某些小案例引入一些相關(guān)知識(shí),并且采用學(xué)生能夠接受的一個(gè)大案例讓學(xué)生使用成績(jī)數(shù)據(jù)模型組織整個(gè)教學(xué)過程。

    我們的課程內(nèi)容按數(shù)據(jù)挖掘過程分為六大部分,按照每一部分的教學(xué)目標(biāo)我們?cè)O(shè)計(jì)了多個(gè)不同的小案例如下。

    (1)藥物研究數(shù)據(jù)和學(xué)生參加社會(huì)活動(dòng)數(shù)據(jù)案例:通過這兩個(gè)數(shù)據(jù)模型掌握在CLEMENTIME軟件工具中利用軟件中SOURCES選項(xiàng)卡的多種節(jié)點(diǎn)讀入多種文件類型(如TXT文件、EXCEL文件、SPSS文件等)的數(shù)據(jù),掌握讀入數(shù)據(jù)的數(shù)據(jù)類型,掌握APPEND節(jié)點(diǎn)、MERGE節(jié)點(diǎn)合并數(shù)據(jù)的方法。

    (2)移動(dòng)客戶數(shù)據(jù)案例:通過利用移動(dòng)數(shù)據(jù)讓學(xué)生掌握TYPE節(jié)點(diǎn)進(jìn)行變量說明的方法,會(huì)使用該節(jié)點(diǎn)進(jìn)行有限變量值和無效值的調(diào)整,會(huì)使用DATA AUDIT節(jié)點(diǎn)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估和調(diào)整;掌握數(shù)據(jù)中對(duì)離群點(diǎn)、極端值和缺失值的調(diào)整,對(duì)數(shù)據(jù)進(jìn)行質(zhì)量管理;會(huì)使用AGGREATE對(duì)數(shù)據(jù)進(jìn)行分類匯總;利用FILLER節(jié)點(diǎn)對(duì)變量值重新計(jì)算,會(huì)用RECLASSIFY節(jié)點(diǎn)實(shí)現(xiàn)變量值進(jìn)行調(diào)整;會(huì)對(duì)數(shù)據(jù)進(jìn)行篩選、樣本子集劃分等處理;了解數(shù)據(jù)分析特征,把握數(shù)據(jù)間相關(guān)性強(qiáng)弱的基本手段;利用壓縮樣本量、簡(jiǎn)約變量值或變量降維等方法對(duì)樣本量龐大的數(shù)據(jù)進(jìn)行精簡(jiǎn)。

    (3)決策樹模型案例:了解C5.0決策樹算法,會(huì)建立決策樹模型,學(xué)會(huì)歸納和提煉現(xiàn)有數(shù)據(jù)包含的規(guī)律,建立分類預(yù)測(cè)模型,會(huì)分析結(jié)論,用于對(duì)未來新數(shù)據(jù)的預(yù)測(cè)。

    (4)人工神經(jīng)網(wǎng)絡(luò)模型案例:了解人工神經(jīng)網(wǎng)絡(luò)算法,掌握人工神經(jīng)網(wǎng)絡(luò)建立的步驟,建立B-P反向神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)分析結(jié)果。

    (5)貝葉斯模型案例:了解貝葉斯網(wǎng)絡(luò)算法,掌握貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的組成和構(gòu)建,會(huì)用TAN貝葉斯和馬爾科夫毯網(wǎng)絡(luò)解決從龐大數(shù)據(jù)中尋找輸入變量之間的相關(guān)性,輸入變量的組合取值對(duì)輸出變量的影響,用網(wǎng)絡(luò)結(jié)構(gòu)直觀展示它們的關(guān)系。

    在設(shè)計(jì)小案例的同時(shí),我們還選擇學(xué)生既熟悉又感興趣的綜合項(xiàng)目案例選題:學(xué)生成績(jī)數(shù)據(jù)、圖書管理數(shù)據(jù)、電信服務(wù)數(shù)據(jù)等,讓學(xué)生帶著問題進(jìn)一步學(xué)習(xí)課程,在學(xué)習(xí)中尋找方法解決項(xiàng)目中遇到的問題。當(dāng)課程結(jié)束后,各項(xiàng)目組呈交項(xiàng)目數(shù)據(jù)模型和報(bào)告,且項(xiàng)目組長(zhǎng)要向所有同學(xué)按數(shù)據(jù)挖掘的六大部分講解分析報(bào)告。

    3.案例驅(qū)動(dòng)教學(xué)的成效。圍繞案例進(jìn)行教學(xué)的“數(shù)據(jù)挖掘”課程除了采用案例驅(qū)動(dòng)教學(xué)法,還要增加學(xué)生的實(shí)際訓(xùn)練能力,都取得了明顯的效果,從以下五個(gè)方面體現(xiàn):①學(xué)生要主動(dòng)提出問題,同時(shí)積極主動(dòng)地參與課堂教學(xué),才能提高學(xué)生分析和處理問題的能力;②增強(qiáng)學(xué)生的自主學(xué)習(xí)能力,要求學(xué)生通過小組討論的形式和實(shí)際訓(xùn)練讓學(xué)生以積極主動(dòng)的態(tài)度處理和解決一些技術(shù)問題,從而提高自學(xué)能力;③學(xué)生間要注意培養(yǎng)團(tuán)隊(duì)合作能力的,也要具有競(jìng)爭(zhēng)意識(shí);④課程學(xué)習(xí)結(jié)束后,普遍反映對(duì)利用CLEMENTIME軟件工具進(jìn)行數(shù)據(jù)挖掘的自信心提高,能夠進(jìn)一步提高對(duì)專業(yè)的認(rèn)知,獨(dú)立解決一些數(shù)據(jù)統(tǒng)計(jì)分析的問題。

    三、結(jié)束語

    數(shù)據(jù)挖掘是統(tǒng)計(jì)專業(yè)的專業(yè)課程,其內(nèi)容繁多、深?yuàn)W,把基于案例驅(qū)動(dòng)的教學(xué)模式引入《數(shù)據(jù)挖掘》課程,學(xué)生在學(xué)習(xí)過程中,實(shí)現(xiàn)了整個(gè)數(shù)據(jù)挖掘的流程,在基于項(xiàng)目的技術(shù)應(yīng)用中深入理解了數(shù)據(jù)挖掘的理論知識(shí)。學(xué)生要將所學(xué)的理論知識(shí)和實(shí)踐相結(jié)合,從而有效提高自己的操作技能和知識(shí)水平,培養(yǎng)了自己應(yīng)用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問題的應(yīng)用能力和創(chuàng)新實(shí)踐能力。

    從教學(xué)效果來看,通過將理論教學(xué)和實(shí)踐相結(jié)合,案例教學(xué)法整合了各種學(xué)習(xí)工具和教學(xué)資源,這樣才能充分發(fā)揮學(xué)生的主觀能動(dòng)性,培養(yǎng)和提高學(xué)生的主觀能動(dòng)性,同時(shí)增強(qiáng)學(xué)生分析和處理問題的能力,今后,我們將繼續(xù)完善數(shù)據(jù)挖掘的教學(xué)案例,研究和總結(jié)教學(xué)經(jīng)驗(yàn),使整個(gè)教學(xué)環(huán)節(jié)更加完善合理。

    參考文獻(xiàn):

    [1]劉云霞.統(tǒng)計(jì)學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010,(26).

    [2]覃義,楊丹江,劉憶寧.《數(shù)據(jù)挖掘》本科教學(xué)的體會(huì)與創(chuàng)新[J].科技信息,2012,(10).

    [3]李國(guó)榮.培養(yǎng)統(tǒng)計(jì)專業(yè)學(xué)生動(dòng)手能力和創(chuàng)新能力的探索[J].統(tǒng)計(jì)教育,2007,(9).

    [4]白忠喜,魯越青,梁偉,等.校政企共建基地開展基于項(xiàng)目驅(qū)動(dòng)的實(shí)踐教學(xué)改革[J].中國(guó)大學(xué)教學(xué),2011,(2).

    [5]焦國(guó)華,黃健柏,黃暉.數(shù)據(jù)挖掘技術(shù)在鋼鐵行業(yè)的應(yīng)用[J].系統(tǒng)工程,2010,(28).

    數(shù)據(jù)挖掘課程范文第2篇

    關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理;挖掘算法;Web挖掘;個(gè)性化推薦

    中圖分類號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):1672-5913(2007)14-0027-03

    1引言

    數(shù)據(jù)挖掘是一門綜合性的交叉學(xué)科,它融合了概率統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)倉庫、人工智能、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)結(jié)構(gòu)、高性能計(jì)算、數(shù)據(jù)可視化以及面向?qū)ο蠹夹g(shù)等,在保險(xiǎn)業(yè)、電信業(yè)、交通業(yè)、零售業(yè)、銀行業(yè)正在被越來越廣泛深入地使用,同時(shí)在生物學(xué)、天文學(xué)、地理學(xué)等領(lǐng)域也逐漸顯現(xiàn)出技術(shù)優(yōu)勢(shì),特別是在客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站設(shè)計(jì)、電子商務(wù)系統(tǒng)、搜索引擎等方面數(shù)據(jù)挖掘技術(shù)顯示出了獨(dú)特的魅力。數(shù)據(jù)挖掘技術(shù)正在以一種全新的概念改變著計(jì)算機(jī)應(yīng)用的方式。

    從最近計(jì)算機(jī)技術(shù)的發(fā)展以及學(xué)生就業(yè)方面來看,對(duì)本校的應(yīng)用性本科生開設(shè)“數(shù)據(jù)挖掘技術(shù)”課程迫在眉睫。但數(shù)據(jù)挖掘給人的感覺就是“高深莫測(cè)”,當(dāng)前數(shù)據(jù)挖掘領(lǐng)域主要是博士生、碩士生研究的領(lǐng)域,數(shù)據(jù)挖掘課程也只在一些重點(diǎn)大學(xué)的研究生或高年級(jí)的本科生中開設(shè),應(yīng)用型本科院校以及一些高職高專幾乎都沒有開設(shè)此類課程。這限定了數(shù)據(jù)挖掘作為一門既有理論又有實(shí)踐價(jià)值學(xué)科的應(yīng)用和推廣,筆者認(rèn)為很可惜。從計(jì)算機(jī)專業(yè)的學(xué)生的畢業(yè)設(shè)計(jì)以及就業(yè)角度分析,相當(dāng)多的同學(xué)以后會(huì)從事電子商務(wù)類軟件的開發(fā),而這類應(yīng)用目前都漸漸基于Web作為應(yīng)用平臺(tái),面對(duì)的是海量的數(shù)據(jù)信息,因此讓學(xué)生掌握數(shù)據(jù)挖掘的思想和方法對(duì)提高計(jì)算機(jī)素養(yǎng)很有必要。即使將來從事控制、通信、游戲、圖像處理等軟件開發(fā),數(shù)據(jù)挖掘的思想和方法也很容易找到用武之地。

    2數(shù)據(jù)挖掘課程開設(shè)的可行性分析

    從計(jì)算機(jī)技術(shù)發(fā)展以及學(xué)生就業(yè)反饋的信息,筆者覺得數(shù)據(jù)挖掘的思想、方法以及算法對(duì)應(yīng)用型本科生是很重要的,并且讓學(xué)生掌握好這門課程也是完全可能的。我校從1998年以來一直在高年級(jí)本科生中開設(shè)了“人工智能”課程,但從教學(xué)效果上來看,很不理想。“數(shù)據(jù)挖掘技術(shù)”這門課程在不少地方很像“人工智能”,“數(shù)據(jù)挖掘技術(shù)”課程中的一些思想就是從“人工智能”中發(fā)展過來的,但是“數(shù)據(jù)挖掘技術(shù)”課程與“人工智能”課程有一個(gè)本質(zhì)的區(qū)別,就是數(shù)據(jù)挖掘從誕生的一開始就是面向大量的、實(shí)際的數(shù)據(jù)庫信息,因此,具有極強(qiáng)的應(yīng)用性,如果將“數(shù)據(jù)挖掘技術(shù)”課程看做是“數(shù)據(jù)庫技術(shù)”課程的自然延伸,同時(shí)充分利用數(shù)據(jù)結(jié)構(gòu)、人工智能、面向?qū)ο蠹夹g(shù)與方法、Web技術(shù)、概率統(tǒng)計(jì)等課程的基礎(chǔ),就能夠?qū)ⅰ皵?shù)據(jù)挖掘技術(shù)”課程開設(shè)好。于是兩年前,筆者在應(yīng)用型本科生中做了嘗試,就是取消原來的“人工智能”課程,取而代之的是“數(shù)據(jù)挖掘技術(shù)”課程,從兩年的教學(xué)實(shí)踐以及教學(xué)效果上看,行之有效。并且在教學(xué)中發(fā)現(xiàn),雖然數(shù)據(jù)挖掘技術(shù)要用到人工智能的一些思想和方法,但沒有“人工智能”課程作為前導(dǎo)課程,沒有任何影響,因?yàn)椋瑪?shù)據(jù)挖掘中的一些人工智能思想在“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)中是自成體系的,并且是以比“人工智能”中的方法更加簡(jiǎn)單、更加直接、更加面向應(yīng)用的方式。開設(shè)“數(shù)據(jù)挖掘技術(shù)”課程必須以下列的課程作為基礎(chǔ)(前導(dǎo)課程),當(dāng)然這些課程都是一些常規(guī)課程。

    1) 必須深入學(xué)習(xí)一門程序設(shè)計(jì)語言,通過這門語言的學(xué)習(xí)可以掌握程序設(shè)計(jì)的基礎(chǔ)知識(shí),并且掌握面向?qū)ο笏枷腴_發(fā)的精髓,能夠進(jìn)行可視化程序設(shè)計(jì)。學(xué)習(xí)程序設(shè)計(jì)絕不是記住程序設(shè)計(jì)語言的語法就行了,而要努力做到將應(yīng)用中的思想變?yōu)槌绦颉_@一點(diǎn)是計(jì)算機(jī)專業(yè)學(xué)生的基本素養(yǎng)。這一環(huán)節(jié)沒有做好,其余的計(jì)算機(jī)專業(yè)的專業(yè)課程,如數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫原理、編譯原理、軟件工程等就無法學(xué)習(xí),即使學(xué)了,也不能真正掌握。筆者從計(jì)算機(jī)發(fā)展和應(yīng)用角度,推薦學(xué)習(xí)C/C++和Java,要求對(duì)C++的模板以及STL或Java的數(shù)據(jù)結(jié)構(gòu)類(在Java的util包中)能夠較好掌握。

    2) 掌握“數(shù)據(jù)結(jié)構(gòu)”課程,特別是“數(shù)據(jù)結(jié)構(gòu)”課程中的樹的特點(diǎn)和應(yīng)用。在“數(shù)據(jù)結(jié)構(gòu)”課程中,樹主要以二叉樹為主,對(duì)于一般的樹,在當(dāng)前的“數(shù)據(jù)結(jié)構(gòu)”課程的教學(xué)中都是將一般的樹轉(zhuǎn)化為二叉樹來進(jìn)行處理的,但是在數(shù)據(jù)挖掘中這樣不太方便。數(shù)據(jù)挖掘中的很多算法都涉及到樹的應(yīng)用,并且大多都是不太規(guī)則的樹,在數(shù)據(jù)挖掘中,采用樹的思想與Java中的數(shù)據(jù)結(jié)構(gòu)類或C++中的STL相結(jié)合的方法,能夠得到很好的效果。

    3) 掌握“數(shù)據(jù)庫技術(shù)”課程中數(shù)據(jù)庫操作的特點(diǎn)和應(yīng)用。數(shù)據(jù)挖掘的對(duì)象主要是數(shù)據(jù)庫中的數(shù)據(jù),但作為數(shù)據(jù)挖掘?qū)ο蟮臄?shù)據(jù)庫的數(shù)據(jù)信息量往往很大,因此,為了提高挖掘的效率,需要建立數(shù)據(jù)倉庫,或者需要在算法上加工,盡量減少掃描數(shù)據(jù)庫的次數(shù)。

    4) 掌握“Web技術(shù)”。這是因?yàn)镮nternet已經(jīng)廣泛應(yīng)用并且深入人心,未來的軟件相當(dāng)多的都是基于Web平臺(tái)之上,因此,對(duì)于Web挖掘不僅重要,而且具有直接的應(yīng)用價(jià)值。當(dāng)前Internet上的軟件如一些知名網(wǎng)站、搜索引擎以及一些電子商務(wù)系統(tǒng),采用了數(shù)據(jù)挖掘技術(shù),得到了很多有價(jià)值的信息或提高了個(gè)性化能力,大大增強(qiáng)了企業(yè)的競(jìng)爭(zhēng)力。因此,掌握“Web技術(shù)”課程對(duì)Web挖掘很有裨益。

    5) 熟悉“概率統(tǒng)計(jì)”課程中的思維方式,對(duì)各種分布以及條件概率能夠熟練掌握,在數(shù)據(jù)挖掘中的分類、關(guān)聯(lián)規(guī)則等領(lǐng)域很多挖掘方法都靈活運(yùn)用了概率統(tǒng)計(jì)中的思想和方法。

    從“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)實(shí)踐中明顯看出,主要需要以上幾門課程,并且教學(xué)結(jié)束后發(fā)現(xiàn),學(xué)生不僅能夠掌握數(shù)據(jù)挖掘的思想、方法以及算法,通過對(duì)一些主要的挖掘算法的實(shí)現(xiàn),對(duì)“數(shù)據(jù)庫技術(shù)”、“程序設(shè)計(jì)語言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”掌握得更加深刻,將“數(shù)據(jù)挖掘技術(shù)”作為“數(shù)據(jù)庫技術(shù)”的自然延伸,是“程序設(shè)計(jì)語言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”的綜合運(yùn)用得到良好效果。

    3 “數(shù)據(jù)挖掘技術(shù)”課程的設(shè)置

    一門課程的設(shè)置,不僅要根據(jù)當(dāng)前計(jì)算機(jī)技術(shù)的發(fā)展,同時(shí)也要根據(jù)當(dāng)前學(xué)生的就業(yè)需求,充分考慮到應(yīng)用型本科學(xué)生的特點(diǎn)。兩年前,經(jīng)過多方面的考慮以及參考了各種國(guó)內(nèi)國(guó)外數(shù)據(jù)挖掘的教材以及論文后決定,“數(shù)據(jù)挖掘技術(shù)”課程教學(xué)學(xué)時(shí)定為32課時(shí),講課22學(xué)時(shí),上機(jī)實(shí)驗(yàn)10學(xué)時(shí)。在這個(gè)總的學(xué)時(shí)定下來之后,就是對(duì)“數(shù)據(jù)挖掘技術(shù)”課程的內(nèi)容設(shè)計(jì),這是最重要的環(huán)節(jié)。精選出的內(nèi)容不僅要反映數(shù)據(jù)挖掘的特點(diǎn)以及最新發(fā)展,還要結(jié)合應(yīng)用型本科生的特點(diǎn),要具有很強(qiáng)的針對(duì)性,重點(diǎn)要突出,要能夠“學(xué)以致用”。最后“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)內(nèi)容如下:

    1) 數(shù)據(jù)挖掘綜述2學(xué)時(shí)。本講側(cè)重于從兩、三個(gè)具體應(yīng)用領(lǐng)域進(jìn)行分析得出采用數(shù)據(jù)挖掘技術(shù)的重要性與必要性,可以選取客戶關(guān)系管理、體育競(jìng)技、信息安全和商業(yè)欺詐等作為案例,然后給出完整的數(shù)據(jù)挖掘定義和數(shù)據(jù)挖掘技術(shù)的分類,以及數(shù)據(jù)挖掘需要的一些前導(dǎo)課程的知識(shí)要點(diǎn)。

    2) 數(shù)據(jù)挖掘過程及當(dāng)前數(shù)據(jù)挖掘的軟件工具2學(xué)時(shí)。數(shù)據(jù)挖掘的過程是數(shù)據(jù)抽取與集成、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)的選擇與整理、數(shù)據(jù)挖掘以及結(jié)論評(píng)估。本講重點(diǎn)講解挖掘的過程,強(qiáng)調(diào)數(shù)據(jù)預(yù)處理對(duì)挖掘的重要意義,對(duì)于缺省的值、殘缺的值等的處理方法。讓學(xué)生對(duì)數(shù)據(jù)挖掘的整體過程有清楚的理解。然后介紹一下當(dāng)前流行的商品化數(shù)據(jù)挖掘軟件如IBM的IntelligentMiner和加拿大Simon Fraser 大學(xué)的DBMiner。

    3) 關(guān)聯(lián)規(guī)則挖掘與序列模式挖掘6學(xué)時(shí)。在介紹關(guān)聯(lián)規(guī)則原理的基礎(chǔ)上,主要介紹著名算法Apriori及其改進(jìn)、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每個(gè)算法需要2學(xué)時(shí),對(duì)每個(gè)算法要進(jìn)行徹底分析,不僅能夠理解算法的原理、思想以及過程,還要分析算法提出人為什么會(huì)提出這種算法,在日常生活中的含義是什么,算法的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及如何用Java或C++來編程實(shí)現(xiàn)該算法。最后,對(duì)多層次關(guān)聯(lián)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘做個(gè)簡(jiǎn)單介紹即可。

    4) 分類技術(shù)4學(xué)時(shí)。介紹分類的原理,主要講解ID3和C4.5、樸素貝葉斯分類,簡(jiǎn)單介紹一下BP神經(jīng)網(wǎng)絡(luò)的分類。對(duì)于C4.5要求能夠從原理上把握整個(gè)算法,能夠進(jìn)行連續(xù)值的離散化處理,理解C4.5比ID3的優(yōu)勢(shì)所在;對(duì)于樸素貝葉斯分類,要深刻理解該分類的原理以及貝葉斯信念網(wǎng)絡(luò)的工作原理。特別的,對(duì)于FP_TREE以及C4.5算法的實(shí)現(xiàn),需要用到不規(guī)則樹,提出用C++或Java解決這種不規(guī)則樹的方法。

    5) 聚類技術(shù)4學(xué)時(shí)。在介紹聚類的重要性和分類的基礎(chǔ)上主要介紹劃分聚類PAM算法思想以及基于密度聚類DBSCAN,對(duì)于當(dāng)前重要的聚類STING和CLIQUE做個(gè)簡(jiǎn)單介紹。最后,比較聚類和分類的不同之處。

    6) Web挖掘與個(gè)性化推薦技術(shù)4學(xué)時(shí)。對(duì)于Web挖掘從內(nèi)容挖掘、訪問行為挖掘和結(jié)構(gòu)挖掘三個(gè)方面進(jìn)行講解,重點(diǎn)講解個(gè)性化技術(shù)。對(duì)基于最小關(guān)聯(lián)規(guī)則集的個(gè)性化推薦以及基于協(xié)作篩的個(gè)性化推薦作深入剖析,并指出在當(dāng)今網(wǎng)站設(shè)計(jì)中的重要意義。

    7) 上機(jī)實(shí)驗(yàn)設(shè)計(jì)。精選五個(gè)上機(jī)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是關(guān)聯(lián)規(guī)則的Apriori算法或FP_Tree算法的實(shí)現(xiàn),兩個(gè)任選一個(gè),如果選擇Apriori的話,需要采取一些效率改進(jìn)措施;第二個(gè)實(shí)驗(yàn)是序列模式挖掘中的AprioriSome算法;第三個(gè)實(shí)驗(yàn)是分類技術(shù)中的ID3或C4.5算法,這兩個(gè)算法的主體相同,任做一個(gè)即可;第四個(gè)實(shí)驗(yàn)是聚類中的PAM或DBSCAN算法,兩個(gè)任選一個(gè);第五個(gè)實(shí)驗(yàn)是利用協(xié)作篩進(jìn)行個(gè)性化網(wǎng)站的智能推薦。以上五個(gè)實(shí)驗(yàn)每個(gè)實(shí)驗(yàn)2學(xué)時(shí),建議編程語言采用Java或C++,最后挖掘結(jié)果具有可理解性。

    當(dāng)然,以上的課程內(nèi)容設(shè)計(jì)會(huì)隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,不斷進(jìn)行微調(diào),以適應(yīng)不斷變化的計(jì)算機(jī)技術(shù)發(fā)展與社會(huì)需求。

    4 “數(shù)據(jù)挖掘技術(shù)”教學(xué)實(shí)踐總結(jié)

    兩年前,雖然已對(duì)“數(shù)據(jù)挖掘技術(shù)”課程作了充分準(zhǔn)備,但在剛開設(shè)這門課程的時(shí)候,很擔(dān)心這門“高深莫測(cè)”的課程的教學(xué)效果。但經(jīng)過兩年的教學(xué)實(shí)踐發(fā)現(xiàn),這門課程的教學(xué)效果比預(yù)想的還要好。通過對(duì)該門課程的學(xué)習(xí),學(xué)生不僅基本掌握了數(shù)據(jù)挖掘的基本原理和算法,同時(shí)對(duì)以前的一些主干課程如數(shù)據(jù)結(jié)構(gòu)的理解和運(yùn)用有了非常深刻的認(rèn)識(shí)。更為重要的是,本課程的五個(gè)實(shí)驗(yàn)都是數(shù)據(jù)挖掘領(lǐng)域中最經(jīng)典、最重要的算法,通過對(duì)這些算法的編程實(shí)現(xiàn),不僅理解了數(shù)據(jù)挖掘關(guān)鍵算法的精髓,同時(shí),這些數(shù)據(jù)挖掘算法實(shí)現(xiàn)的程序經(jīng)過不斷改進(jìn)、加工,性能不斷提高,由于都是源代碼,可以將這些算法應(yīng)用到一些實(shí)用的軟件系統(tǒng)如客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站中去,收到良好效果。此外,在網(wǎng)上的一些數(shù)據(jù)挖掘論壇中,經(jīng)常看到一些初學(xué)數(shù)據(jù)挖掘的研究生或技術(shù)人員很想看一看數(shù)據(jù)挖掘經(jīng)典算法的具體程序?qū)崿F(xiàn),我們也將這兩年不斷改進(jìn)的程序源代碼作為免費(fèi)資源贈(zèng)送給了不少同行,也為數(shù)據(jù)挖掘的推廣應(yīng)用貢獻(xiàn)了微薄之力。

    5結(jié)束語

    “數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)嘗試目前主要針對(duì)的是本校應(yīng)用型計(jì)算機(jī)專業(yè)本科生,雖然收到了良好的效果,但“數(shù)據(jù)挖掘技術(shù)”絕不僅僅是計(jì)算機(jī)專業(yè)學(xué)生才需要掌握的課程,對(duì)于我校通信系、電力系、自動(dòng)化系等工科專業(yè),經(jīng)濟(jì)系、管理系甚至一些文科類的學(xué)生也很有價(jià)值,因此,怎樣在非計(jì)算機(jī)專業(yè)的應(yīng)用型本科生中開設(shè)好這門新興課程,甚至在高職高專學(xué)生中也開設(shè)好這門課程,則是需要作進(jìn)一步的探索和嘗試。

    參考文獻(xiàn):

    [1] 毛國(guó)君. 數(shù)據(jù)挖掘原理與算法[M]. 北京:清華大學(xué)出版社,2005.

    [2] 陳文偉. 數(shù)據(jù)挖掘技術(shù)[M]. 北京工業(yè)大學(xué)出版社,2002.

    [3] 余力. 電子商務(wù)個(gè)性化[M]. 北京:清華大學(xué)出版社,2007.

    A Test to Applied College Students on Teaching Data Mining

    XU Jin-bao

    (Dept. of Computer Engineering, Nanjing Institute of Technology,

    Nanjing 211100,China)

    Abstract:Data mining becomes more and more important in nowadays. To applied college students, mastering the basics and methods of data mining technology demands immediate attention. This article gives some suggestions on how to teach these students well. The content of data mining technology course and experiments are selected elaborately. Mining technologies such as association rule , data classification, clustering , web mining and personalized recommendation are emphasized.

    數(shù)據(jù)挖掘課程范文第3篇

    關(guān)鍵詞:數(shù)據(jù)挖掘;程序設(shè)計(jì);教學(xué)

    中圖分類號(hào):G64 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):1672-5913(2007)02-0057-03

    1程序設(shè)計(jì)課程與數(shù)據(jù)挖掘技術(shù)概述

    程序設(shè)計(jì)課程是培養(yǎng)學(xué)生軟件開發(fā)能力的一門課程。目前國(guó)內(nèi)的理工類學(xué)校或相關(guān)專業(yè)普遍都為學(xué)生開設(shè)了程序設(shè)計(jì)課程。一直以來,如何了解多數(shù)學(xué)生在學(xué)習(xí)程序設(shè)計(jì)中所遇到的困難,如何幫助學(xué)生克服學(xué)習(xí)中的障礙,都要靠教師多年的教學(xué)經(jīng)驗(yàn)來解決。這種傳統(tǒng)的教學(xué)方法顯然不能滿足知識(shí)更新迅速的計(jì)算機(jī)教學(xué)過程。因此需要研究如何從學(xué)生提交的程序作業(yè)中利用數(shù)據(jù)庫技術(shù)及時(shí)發(fā)現(xiàn)問題和解決問題。數(shù)據(jù)挖掘(Data Mining)技術(shù)是近年來新興的數(shù)據(jù)管理與分析技術(shù),主要用于發(fā)現(xiàn)數(shù)據(jù)中隱藏的線索,輔助人們進(jìn)行科學(xué)分析和決策。數(shù)據(jù)挖掘普遍需要三個(gè)階段:數(shù)據(jù)準(zhǔn)備、挖掘操作和結(jié)果表達(dá)。下面以C語言為例介紹在程序設(shè)計(jì)課程教學(xué)中,對(duì)學(xué)生程序作業(yè)進(jìn)行數(shù)據(jù)挖掘的一種應(yīng)用方案。

    2程序設(shè)計(jì)課程的數(shù)據(jù)挖掘過程

    2.1 數(shù)據(jù)準(zhǔn)備

    根據(jù)程序設(shè)計(jì)課程的教學(xué)特點(diǎn),我們按錯(cuò)誤的嚴(yán)重程度將所有學(xué)生提交的程序作業(yè)的評(píng)閱結(jié)果歸納為以下5類,即題目錯(cuò)誤、編譯時(shí)語法錯(cuò)誤、編譯時(shí)語法警告、編譯后運(yùn)行結(jié)果不完全正確、編譯后運(yùn)行結(jié)果完全正確。為了對(duì)學(xué)生程序作業(yè)中的問題進(jìn)一步分析原因,我們對(duì)以下8類數(shù)據(jù)進(jìn)行分析,即功能模塊函數(shù)序列、邏輯結(jié)構(gòu)序列、語句類型序列、表達(dá)式序列、運(yùn)算符序列、標(biāo)識(shí)符序列、數(shù)值常量序列以及簡(jiǎn)化的字符常量序列。

    要將文件形式的源程序分解為以上8項(xiàng)數(shù)據(jù),就需要按語法規(guī)則完成以下步驟:

    (1) 過濾程序中的注釋信息和空白字符,產(chǎn)生預(yù)處理元素序列;

    (2) 根據(jù)#include和#define等標(biāo)記替換用戶指定的包含文件和宏定義等預(yù)處理元素;

    (3) 對(duì)照語法元素表,進(jìn)一步將程序分解為關(guān)鍵字、標(biāo)識(shí)符、常量、運(yùn)算符、定界符等語法元素序列;

    (4) 將數(shù)值常量以空格為連接符連接為一個(gè)數(shù)值常量序列;

    (5) 將字符及字符串常量保留%d等格式字符和\n等轉(zhuǎn)義字符后刪去多余字符,以空格為連接符連接為一個(gè)簡(jiǎn)化的字符常量序列;

    (6) 將所有運(yùn)算符以空格為連接符連接為一個(gè)運(yùn)算符序列;

    (7) 將用戶變量名和函數(shù)名統(tǒng)一編碼后與程序中的關(guān)鍵字構(gòu)成標(biāo)識(shí)符序列;

    (8) 將運(yùn)算符與標(biāo)識(shí)符及常量以空格為連接符連接為一個(gè)表達(dá)式序列;

    (9) 將程序中的語句分類為表達(dá)式語句、函數(shù)調(diào)用語句、空語句、復(fù)合語句、if語句、else語句、switch語句、case語句、while語句、do語句、for語句、break語句、continue語句、return語句和goto語句,并組織成語句類型序列;

    (10) 對(duì)語句按分號(hào)和大括號(hào)等定界符劃分為模塊函數(shù)序列;

    (11) 將模塊內(nèi)語句按順序、選擇、循環(huán)的分類構(gòu)成邏輯結(jié)構(gòu)序列。

    2.2 挖掘操作的過程

    由于篇幅所限,下面僅以程序設(shè)計(jì)教學(xué)中的典型題目“溫度轉(zhuǎn)換”的數(shù)值常量序列和運(yùn)算符序列為考察數(shù)據(jù)具體描述挖掘過程。

    (1)數(shù)據(jù)清理

    首先將數(shù)據(jù)準(zhǔn)備階段的各類數(shù)據(jù)與評(píng)閱結(jié)果組成一個(gè)數(shù)據(jù)記錄集(如表1所示)。由于分析的目的是找出教學(xué)中造成學(xué)生程序錯(cuò)誤的主要因素,而題目錯(cuò)誤僅僅是因?yàn)閷W(xué)生操作馬虎,與掌握程序設(shè)計(jì)的能力并不相關(guān),因此把評(píng)閱結(jié)果全部正確的和題目錯(cuò)誤的記錄過濾掉,只保留評(píng)閱結(jié)果為語法錯(cuò)誤、語法警告和運(yùn)行錯(cuò)誤的記錄(如表2所示)。

    (2)構(gòu)造1項(xiàng)侯選集,發(fā)現(xiàn)頻繁1項(xiàng)集

    將所有數(shù)據(jù)作為1項(xiàng)集中的元素,構(gòu)造1項(xiàng)侯選集,并計(jì)算不同元素的數(shù)量,如表3所示。保留其中數(shù)量較多的元素,濾掉其它元素,得到頻繁1項(xiàng)集,如表4所示。

    (3)構(gòu)造2項(xiàng)侯選集,發(fā)現(xiàn)頻繁2項(xiàng)集

    將所有頻繁1項(xiàng)集元素兩兩組合,構(gòu)成侯選2項(xiàng)集,并計(jì)算組合后的數(shù)量,如表5所示。保留其中數(shù)量比較多的元素,濾掉其它元素,得到頻繁2項(xiàng)集{=/*(-),編譯警告}。

    2.3 結(jié)果表達(dá)和解釋

    保留下來的2項(xiàng)集的兩個(gè)元素分別代表了錯(cuò)誤類型和造成該類型錯(cuò)誤的主要語法元素序列,即現(xiàn)有數(shù)據(jù)表明(輸入函數(shù)中)未使用取地址運(yùn)算符是造成編譯警告的主要原因。

    3數(shù)據(jù)挖掘應(yīng)用效果

    在現(xiàn)實(shí)的教學(xué)過程中,我們對(duì)2005級(jí)8個(gè)班275名學(xué)生的5385個(gè)程序進(jìn)行了統(tǒng)計(jì)和分析,發(fā)現(xiàn)題目錯(cuò)誤的比例約占1.49%,編譯錯(cuò)誤的比例約占3.38%,編譯時(shí)警告的比例約占1.21%,運(yùn)行錯(cuò)誤的比例約占8.10%,運(yùn)行正確的比例約占85.82%。其中造成編譯錯(cuò)誤的主要原因是注釋信息或各級(jí)括號(hào)定界符未配對(duì);造成編譯警告的主要原因是格式輸入函數(shù)調(diào)用時(shí)缺少地址運(yùn)算符或用戶變量定義后未使用;造成運(yùn)行錯(cuò)誤的主要原因是除法運(yùn)算符兩側(cè)運(yùn)算量為整型常量。下面的圖表反映了在程序設(shè)計(jì)課程的教學(xué)中沒有使用數(shù)據(jù)挖掘技術(shù)和使用了數(shù)據(jù)挖掘技術(shù)的教學(xué)效果對(duì)比。

    圖1為未采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評(píng)閱結(jié)果統(tǒng)計(jì)圖,其中靠上的折線表示每次學(xué)生作業(yè)的平均分?jǐn)?shù),靠下的折線表示每次學(xué)生作業(yè)的嚴(yán)重語法錯(cuò)誤發(fā)生率。可以發(fā)現(xiàn),學(xué)生每次作業(yè)的平均成績(jī)基本呈水平小波動(dòng)隨機(jī)形狀,表明學(xué)生成績(jī)?cè)趯W(xué)習(xí)過程中沒有明顯變化,同樣嚴(yán)重語法錯(cuò)誤發(fā)生率也沒有明顯變化。圖2為一直采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評(píng)閱結(jié)果統(tǒng)計(jì)圖,可以發(fā)現(xiàn)學(xué)生的成績(jī)隨著系統(tǒng)的使用時(shí)間增加而穩(wěn)定的上升。在第三次作業(yè)以后基本保持在90分以上的水平,同時(shí)嚴(yán)重語法錯(cuò)誤的比例也快速的下降,在第二次作業(yè)以后就控制在5%以下。以上對(duì)比說明本方法比較準(zhǔn)確地發(fā)現(xiàn)了學(xué)生程序中的語法錯(cuò)誤和算法錯(cuò)誤的主要因素,使學(xué)生得到及時(shí)地反饋并在以后的程序設(shè)計(jì)中避免相似的錯(cuò)誤,從而明顯的改善了教學(xué)效果。

    參考文獻(xiàn):

    [1] 李建中,王珊 . 數(shù)據(jù)庫系統(tǒng)原理[M] . 北京:電子工業(yè)出版社,2004.

    [2] Richard J. Roiger,Michael W.Geatz . 數(shù)據(jù)挖掘教程[M] .北京:清華大學(xué)出版社,2003.

    [3] GB/T 15272-94.程序設(shè)計(jì)語言C[S].

    數(shù)據(jù)挖掘課程范文第4篇

    一、知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的理論基礎(chǔ)

    (一)知識(shí)發(fā)現(xiàn)的研究綜述

    知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)一詞最早出現(xiàn)在1989年8月美國(guó)底特律召開的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上[1]。1996年,知識(shí)發(fā)現(xiàn)被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[2]。對(duì)KDD的研究主要包括從數(shù)據(jù)庫的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的效率,從機(jī)器學(xué)習(xí)的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的有效性,從統(tǒng)計(jì)分析的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的正確性,從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的最大效用。KDD過程是多個(gè)步驟交互螺旋式上升的學(xué)習(xí)和總結(jié)過程[3],基本流程包括:

    (1)限定學(xué)習(xí)領(lǐng)域,儲(chǔ)備預(yù)先知識(shí)、確定學(xué)習(xí)目標(biāo);

    (2)聚焦目標(biāo)數(shù)據(jù)集,選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;

    (3)數(shù)據(jù)預(yù)處理,數(shù)據(jù)降噪或數(shù)據(jù)清洗;

    (4)數(shù)據(jù)轉(zhuǎn)換;

    (5)確定數(shù)據(jù)挖掘功能法則;

    (6)獲得知識(shí)信息、運(yùn)用知識(shí)成果并重新選定學(xué)習(xí)目標(biāo)。

    在創(chuàng)新的過程中,單單依靠顯性知識(shí)已經(jīng)不足以支撐整個(gè)思維求異和技術(shù)創(chuàng)新的全流程。隨著數(shù)據(jù)量的爆炸式增長(zhǎng),傳統(tǒng)數(shù)據(jù)庫的檢索查詢已不能滿足信息社會(huì)的深層次需求,再加上傳統(tǒng)分析手段的落后,大量數(shù)據(jù)來不及整理、分析或利用就已“時(shí)過境遷”成為無效信息,而且被長(zhǎng)期積壓在數(shù)據(jù)庫中浪費(fèi)存儲(chǔ)資源。為了及時(shí)消解數(shù)據(jù)產(chǎn)生和數(shù)據(jù)理解之間的矛盾,還必須定期對(duì)數(shù)據(jù)進(jìn)行深度挖掘,使得大量被隱藏的、有價(jià)值的信息得到有效利用。

    (二)數(shù)據(jù)挖掘的理論探索

    數(shù)據(jù)挖掘(Data Mining)是指使用算法來抽取信息和模式,通常是知識(shí)發(fā)現(xiàn)過程的一個(gè)重要步驟。數(shù)據(jù)挖掘融合了機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)理論、人工智能及信息管理系統(tǒng)等多門學(xué)科的最新成果。應(yīng)用數(shù)據(jù)挖掘技術(shù)從大型數(shù)據(jù)庫中發(fā)現(xiàn)隱藏在其中的規(guī)律和有用信息,為管理層決策提供事實(shí)型數(shù)據(jù)和研究模式。

    根據(jù)KDD的目標(biāo)任務(wù),數(shù)據(jù)挖掘任務(wù)可分為:分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。而所要挖掘的對(duì)象則可以分為:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及web等對(duì)象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機(jī)器、統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫、近似推理和不確定性推理、基于證據(jù)理論和元模式、現(xiàn)代數(shù)學(xué)分析、粗糙集(Rough Set)、集成方法等方法[4]。

    (三)小結(jié)

    綜上,知識(shí)發(fā)現(xiàn)用于從大量數(shù)據(jù)中抽取規(guī)律信息,發(fā)現(xiàn)非預(yù)期或潛在的價(jià)值量,而數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)的重要一環(huán)是與實(shí)踐應(yīng)用緊密相連的,兩者不僅僅是對(duì)數(shù)據(jù)的簡(jiǎn)單檢索調(diào)用,而是從數(shù)據(jù)集合中自動(dòng)提取出隱含在數(shù)據(jù)中的關(guān)系和模式,進(jìn)而對(duì)未來可能發(fā)生的行為進(jìn)行預(yù)測(cè),為決策者提供有力支持。

    二、高校成績(jī)管理與學(xué)科建設(shè)

    成績(jī)是學(xué)生在校學(xué)習(xí)期間對(duì)所學(xué)知識(shí)理解掌握情況和教師教學(xué)質(zhì)量評(píng)價(jià)的原始記錄,對(duì)學(xué)校的教學(xué)管理和教學(xué)改革措施評(píng)價(jià)具有重要的參考價(jià)值[5]。成績(jī)管理是高校教學(xué)管理中的最為基礎(chǔ)性的一個(gè)環(huán)節(jié),是根據(jù)教學(xué)目的和教學(xué)任務(wù),

    通過學(xué)生的實(shí)際量化考核分?jǐn)?shù)來進(jìn)行統(tǒng)計(jì)、查閱和分析的綜合性數(shù)據(jù)處理過程。該過程的科學(xué)與否,直接關(guān)系到教務(wù)管理的實(shí)際質(zhì)量和教學(xué)工作的可持續(xù)發(fā)展,特別是在網(wǎng)絡(luò)化和信息化的新形勢(shì)下,該項(xiàng)工作被素質(zhì)教育賦予更加深遠(yuǎn)的現(xiàn)實(shí)意義。本文所指學(xué)科成績(jī)不僅限于學(xué)生的筆試成績(jī),還包括了學(xué)生參加各種校內(nèi)外實(shí)習(xí)和培訓(xùn),以及其他形式素質(zhì)教育的量化數(shù)據(jù)。

    (一)高校成績(jī)管理所面臨的新形勢(shì)

    從宏觀上講,隨著國(guó)家高等教育普及工作的不斷推進(jìn),以及教育戰(zhàn)線“以人為本”理念的逐步深入,高校教務(wù)在成績(jī)管理這一環(huán)節(jié)上所面臨的任務(wù)顯得比以往任何時(shí)刻都更加繁重。

    首先,院校擴(kuò)建和學(xué)生擴(kuò)招為學(xué)科成績(jī)管理模塊在數(shù)據(jù)容量上增加了壓力。近幾年,隨著一些高校教學(xué)資源的整合和擴(kuò)充,許多高校設(shè)立了新校區(qū)、設(shè)置了新專業(yè),反映在學(xué)生成績(jī)管理上則是成績(jī)數(shù)據(jù)的時(shí)空容量同時(shí)增長(zhǎng)。每多出一個(gè)學(xué)生,從學(xué)籍材料到各年度學(xué)科數(shù)據(jù)再到圖形化成績(jī)資料都會(huì)相應(yīng)增加,教師教務(wù)管理系統(tǒng)所要處理的信息量也會(huì)相應(yīng)增加,這首先在量上增加了數(shù)據(jù)壓力。

    同時(shí),素質(zhì)教育為學(xué)科成績(jī)管理如何更好地服務(wù)教師施教和學(xué)生學(xué)習(xí)提出了新的課題。素質(zhì)教育是我國(guó)長(zhǎng)期以來所推行的一項(xiàng)基本國(guó)策。學(xué)科成績(jī)是高校學(xué)生在校的唯一量化評(píng)價(jià)指標(biāo),如何通過這些數(shù)據(jù)來及時(shí)反映出學(xué)生的學(xué)習(xí)效果和心理需求、反映出教師隊(duì)伍的教學(xué)質(zhì)量和教學(xué)改革進(jìn)度,已經(jīng)成為教務(wù)管理系統(tǒng)化的一個(gè)重要課題。

    數(shù)據(jù)挖掘課程范文第5篇

    關(guān)鍵詞:數(shù)據(jù)挖掘;進(jìn)階課程;教學(xué)方法研究;本科高年級(jí)

    學(xué)生在本科高年級(jí)學(xué)生中開設(shè)數(shù)據(jù)挖掘等進(jìn)階課程是十分必要的,以大數(shù)據(jù)、數(shù)據(jù)挖掘?yàn)槔湎嚓P(guān)技術(shù)不僅是當(dāng)前學(xué)術(shù)界的研究熱點(diǎn),也是各家企事業(yè)單位招聘中重要崗位的要求之一。對(duì)于即將攻讀碩士或博士學(xué)位的學(xué)生,對(duì)于即將走上工作崗位的學(xué)生,了解并掌握一些大數(shù)據(jù)相關(guān)技術(shù),尤其是數(shù)據(jù)挖掘技術(shù),都是不無裨益的。在目前本科教學(xué)中,對(duì)于數(shù)據(jù)挖掘等課程的教學(xué),由于前序課程的要求,往往是放在本科四年級(jí)進(jìn)行。如何激發(fā)本科四年級(jí)學(xué)生在考研,找工作等繁雜事務(wù)中的學(xué)習(xí)興趣,從而更好地掌握數(shù)據(jù)挖掘的相關(guān)技術(shù)是本課程面臨的主要挑戰(zhàn),也是所有本科進(jìn)階課程所面臨的難題之一。

    1數(shù)據(jù)挖掘等進(jìn)階課程所面臨的問題

    1.1進(jìn)階課程知識(shí)體系的綜合性

    進(jìn)階課程由于其理論與技術(shù)的先進(jìn)性,往往是學(xué)術(shù)研究的前沿,工業(yè)應(yīng)用的熱點(diǎn),是綜合多方面知識(shí)的課程。以數(shù)據(jù)挖掘課程為例,其中包括數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)、可視化、高性能技術(shù),算法等多方面的知識(shí)內(nèi)容。雖然學(xué)生在前期的本科學(xué)習(xí)中已經(jīng)掌握了部分相關(guān)內(nèi)容,如數(shù)據(jù)庫、統(tǒng)計(jì)、算法等,但對(duì)于其他內(nèi)容如機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、可視化等,有的是與數(shù)據(jù)挖掘課程同時(shí)開設(shè)的進(jìn)階課程,有的已經(jīng)是研究生的教學(xué)內(nèi)容。對(duì)于進(jìn)階課程繁雜的知識(shí)體系,應(yīng)該如何把握廣度和深度的關(guān)系尤為重要。

    1.2進(jìn)階課程的教學(xué)的目的要求

    進(jìn)階課程的知識(shí)體系的綜合性體現(xiàn)在知識(shí)點(diǎn)過多、技術(shù)特征復(fù)雜。從教學(xué)效益的角度出發(fā),進(jìn)階課程的教學(xué)目的是在有限的課時(shí)內(nèi)最大化學(xué)生的知識(shí)收獲。從教學(xué)結(jié)果的可測(cè)度出發(fā),進(jìn)階課程的教學(xué)需要能夠有效驗(yàn)證學(xué)生掌握重點(diǎn)知識(shí)的學(xué)習(xí)成果。1.3本科高年級(jí)學(xué)生的實(shí)際情況本科高年級(jí)學(xué)生需要處理考研復(fù)習(xí),找工作等繁雜事務(wù),往往對(duì)于剩余本科階段的學(xué)習(xí)不重視,存在得過且過的心態(tài)。進(jìn)階課程往往是專業(yè)選修課程,部分學(xué)分已經(jīng)修滿的學(xué)生往往放棄這部分課程的學(xué)習(xí),一來沒有時(shí)間,二來怕拖累學(xué)分。

    2數(shù)據(jù)挖掘等進(jìn)階課程的具體教學(xué)方法

    進(jìn)階課程的教學(xué)理念是在有限的課時(shí)內(nèi),盡可能地提高課程的廣度,增加介紹性內(nèi)容,在授課中著重講解1~2個(gè)關(guān)鍵技術(shù),如在數(shù)據(jù)挖掘課程中,著重講解分類中的決策樹算法,聚類中的K-Means算法等復(fù)雜度一般,應(yīng)用廣泛的重要知識(shí)點(diǎn),并利用實(shí)踐來檢驗(yàn)學(xué)習(xí)成果。

    2.1進(jìn)階課程的課堂教學(xué)

    數(shù)據(jù)挖掘等進(jìn)階課程所涉及的知識(shí)點(diǎn)眾多,在課堂上則采用演示和講授相結(jié)合的方法,對(duì)大部分知識(shí)點(diǎn)做廣度介紹,而對(duì)需要重點(diǎn)掌握知識(shí)點(diǎn)具體講授,結(jié)合實(shí)踐案例及板書。在介紹工業(yè)實(shí)踐案例的過程中,對(duì)于具體數(shù)據(jù)挖掘任務(wù)的來龍去脈解釋清楚,尤其是對(duì)于問題的歸納,數(shù)據(jù)的處理,算法的選擇等步驟,并在不同的知識(shí)點(diǎn)的教學(xué)中重復(fù)介紹和總結(jié)數(shù)據(jù)挖掘的一般性流程,可以加深學(xué)生對(duì)于數(shù)據(jù)挖掘的深入理解。對(duì)于一些需要記憶的知識(shí)點(diǎn),在課堂上采用隨機(jī)問答的方式,必要的時(shí)候可以在每堂課的開始重復(fù)提問,提高學(xué)習(xí)的效果。

    2.2進(jìn)階課程的課后教學(xué)

    對(duì)于由于時(shí)間限制無法在課上深入討論的知識(shí)點(diǎn),只能依靠學(xué)生在課后自學(xué)掌握。本科高年級(jí)學(xué)生的課后自學(xué)的動(dòng)力不像低年級(jí)學(xué)生那么充足,可以布置需要?jiǎng)邮謱?shí)踐并涵蓋相關(guān)知識(shí)點(diǎn)的課后實(shí)踐,但盡量降低作業(yè)的工程量。鼓勵(lì)學(xué)生利用開源軟件和框架,基于提供的數(shù)據(jù)集,實(shí)際解決一些簡(jiǎn)單的數(shù)據(jù)挖掘任務(wù),讓學(xué)生掌握相關(guān)算法技術(shù)的使用,并對(duì)算法有一定的了解。利用學(xué)院與大數(shù)據(jù)相關(guān)企業(yè)建立的合作關(guān)系,在課后通過參觀,了解大數(shù)據(jù)技術(shù)在當(dāng)前企業(yè)實(shí)踐中是如何應(yīng)用的,激發(fā)學(xué)生的學(xué)習(xí)興趣。

    2.3進(jìn)階課程的教學(xué)效果考察進(jìn)階課程的考察不宜采取考試的形式,可以采用大作業(yè)的形式。從具體的數(shù)據(jù)挖掘?qū)嵺`中檢驗(yàn)教學(xué)的成果,力求是學(xué)生在上完本課程后可以解決一些簡(jiǎn)單的數(shù)據(jù)挖掘任務(wù),將較復(fù)雜的數(shù)據(jù)挖掘技術(shù)的學(xué)習(xí)留給學(xué)生自己。

    3結(jié)語

    數(shù)據(jù)挖掘是來源于實(shí)踐的科學(xué),學(xué)習(xí)完本課程的學(xué)生需要真正理解,掌握相關(guān)的數(shù)據(jù)挖掘技術(shù),并能夠在實(shí)際數(shù)據(jù)挖掘任務(wù)中應(yīng)用相關(guān)算法解決問題。這也對(duì)教師的教學(xué)水平提出了挑戰(zhàn),并直接與教師的科研水平相關(guān)。在具體的教學(xué)過程中,發(fā)現(xiàn)往往是在講授實(shí)際科研中遇到的問題時(shí),學(xué)生的興趣較大,對(duì)于書本上的例子則反映一般。進(jìn)階課程在注重教學(xué)方法的基礎(chǔ)上,對(duì)于教師的科研水平提出了新的要求,這也是對(duì)于教師科研的反哺,使教學(xué)過程變成了教學(xué)相長(zhǎng)的過程。

    作者:劉崢 王俊昌 單位:南京郵電大學(xué)計(jì)算機(jī)學(xué)院

    參考文獻(xiàn):

    [1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數(shù)據(jù)挖掘》課程教學(xué)方法探討[J].現(xiàn)代計(jì)算機(jī),2014(13).

    [2]蔣盛益,李霞,鄭琪.研究性學(xué)習(xí)和研究性教學(xué)的實(shí)證研究———以數(shù)據(jù)挖掘課程為例[J].計(jì)算機(jī)教育,2014(24).

    [3]張曉芳,王芬,黃曉.國(guó)內(nèi)外大數(shù)據(jù)課程體系與專業(yè)建設(shè)調(diào)查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.

    相關(guān)期刊更多

    數(shù)據(jù)

    省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

    北京市統(tǒng)計(jì)局

    大數(shù)據(jù)

    統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

    工業(yè)和信息化部

    數(shù)據(jù)法學(xué)

    部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

    中國(guó)人民公安大學(xué)法學(xué)院

    主站蜘蛛池模板: 国产美女69视频免费观看| 四虎www永久在线精品| 99视频九九精品视频在线观看 | 国产亚洲精品成人av一区| 亚洲男人的天堂在线观看| 2020久久国产综合精品swag| 国产成人一区二区三区免费| 国产精品一区亚洲一区天堂| 亚洲av尤物一区二区| 熟妇人妻av中文字幕老熟妇| 91久久性奴调教国产免费| 91蜜臀国产自产在线观看| 久热久热中文字幕综合激情 | 日韩亚av无码一区二区三区| 亚洲男人成人性天堂网站| 日本亚洲欧美高清专区vr专区| 国产精品不卡一二三区| a在线亚洲男人的天堂试看| 在线播放国产精品三级网| 蜜桃在线免费观看网站| 精品国产一区二区三区大| 91人妻无码成人精品一区91| 1精品啪国产在线观看免费牛牛| 国产精品爽黄69天堂A| 蜜臀av片| 成人看的污污超级黄网站免费| 337P日本欧洲亚洲大胆精品555588| 午夜在线观看成人av| 亚洲日韩精品制服丝袜AV| 国产亚洲无线码一区二区| 亚洲av日韩av综合aⅴxxx| 好吊视频专区一区二区三区| 国产自产av一区二区三区性色| 久久一日本道色综合久久| 激情在线网| 国产一区二区三区四区五区加勒比| 国产18禁黄网站禁片免费视频 | 夜夜高潮次次欢爽av女| 亚洲中文字幕在线观看| 免费视频成人片在线观看| 亚洲精品久综合蜜|