前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數據分析范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
根據規范要求,我們在進行實驗分析時讀取數據,只能讀到一定的準確度。無論讀取到多少位數,絕不可能把準確度增加到超過測定方法所能允許的范圍,這個準確度主要決定于所用儀器刻度的精確程度。如萬分之一的分析天平稱得的物質的質量,不僅表明物體的總體質量,還表明可以稱到萬分之一克,但最后一位數不可靠。如0.5060g,實際質量為.0.5060g±0.0001g。所以在化驗分析結果中正確記錄分析數據的有效數字位數是很重要的。分析化驗中使用測量儀器測量的數據,其有效數字位數應和測量儀器的精度相適應。一般來講是以最小分度值的十分之一為測量儀器檢測數據的有效數數字最后一位。如最小分度值為0.1mL常量滴定管,讀數時應保留到小數點后第二位,最小分度值為1℃的溫度計,檢測結果可保留一位小數等。在另一方面也與我們所采用的方法和測定對象有關。有明確規定,則應按規定來確定有效數字位數。如《GB/T6536-2010石油產品蒸餾測定法》中就有明確規定體積讀準至0.5mL,溫度讀準至0.5℃,就應按規定準確記錄。所以數據讀取記錄的位數,其中末位數字為可疑數字或不確定數字外(即為估讀數字),其余位數都是準確的。實際操作中,常常要根據方法要求的測量精度來選測量儀器。例如油料化驗常用的恒重操作中,要求恒重至0.0002g,此時就應在萬分之一天平進行稱量,又如石油產品水分測定中要求試樣稱準至0.1g,此時選擇普通托盤天平稱量即可。
2化驗數據的正確計算
正確計算分析數據,是得到正確結果的關鍵。試驗所計算的結果不僅表明被量的大小,而且表明化驗分析的準確程度,采用過多或過少的位數都是不適當的。因此在化驗計算數據分析時要注意以下幾個問題:一是運算中的倍數、分數都是準確數字,不適用于有效數字運算規則。二是平均測量值的精度高于單次測量值的精度。在測量值個數不少于4時,平均值有效數字位數可比單次測值多取一位。三是當涉及到各種常數時,一般視為準確的,不考慮其有效數字位數。四是當計算結果為中間過程時,可比結果多保留一位有效數字。例如開口閃點的結果要求保留整數位,在計算大氣壓修正值或溫度計修正值時可將修正值保留一位小數。五是表示誤差時取一位有效數字,最多取兩位,有關化學平衡的計算,一般保留兩位或三位有效數字。
3化驗結果數據有效保留位數要正確
在油料化驗分析中,結果數據位數的保留直接影響著測定結果的準確度。計算結果所保留的位數必須與油料化驗分析的精確度一致,測定結果的數值應當與平行測定允許差數的保留位數相同。一般來講石油產品化驗分析結果數據的保留位數,檢測方法中都有明確規定。方法中沒有明確規定時,檢測結果的記錄的有效位數應該保留一位可疑數字,或根據方法精密度中的允許誤差來確定結的有效位數。關于石油產品分析結果保留數據可按表執行。
4按石油產品試驗方法進行精密度驗證提高數據的準確性
在石油產品試驗方法測定中,對于同一指標,有時是同一操作者測定,有是不同操作者或不同實驗室測定,不同的測定情況精密度的要求也不一樣,通常用重復性和再現性來分別表示。重復性是指同一操作者在同一實驗室,用同一臺儀器按方法規定的步驟,在連續的時間里,對同一試樣的同一性質進行重復測定所得結果的允許誤差。再現性是指不同實驗室的不同操作者,使用同類型的儀器按方法規定的步驟,對同一試樣的同一性質進行測定所得結果的允許誤差。在每個石油產品試驗方法中,對精密度都有明確規定,其計算基本有以下幾種類型:
4.1重復測定結果的差值不得超過某一規定值。即:第一次測定結果-第二次測定結果≤某一規定值這“某一規定值”有時是一具體數值,如GB264酸值的精密度要求;有時是較小結果的百分之幾,如GB509測定油品實際膠質的精密度要求;有時是算術平均值的百分之幾,如GB265的精密度要求。
4.2單次測定結果與算術平均值的差數,不得超過算術平均值的某一規定數值。即:單次測定結果-算術平均值≤算術平均值×所規定的百分數如SH0079KOH溶液標定的計算
數據分析:從挖金土豆到篩金沙
大數據之所以成為業界的熱點,是因為現在做數據分析的價值越來越大,在Hadoop等技術的支持下,成本相對越來越低。對于企業做數據分析的價值和方法的前后變化,Informatica公司大中國區首席產品顧問但彬在論壇上,用一個非常生動形象的比喻做了說明:“如果將做數據分析比喻成開采金礦,原來我們所做的是用挖掘機挖金土豆,而現在則是用篩子來篩金沙。因為現在大量分布在社交網絡的數據,對企業而言就是就像是大量的金沙,分布廣泛而分散。如果能用低成本的方法篩出金沙,是非常有價值且值得做的事情。”
但彬介紹,Informatica作為一家數據集成公司,更關注的是如何把來自各個地方的大數據,通過像抽水機的泵一樣的裝置整合到需要的程度和地方。Informatica2011年完成了近8億元的收入,這也是對大數據市場火熱程度的一個印證。
Informatica主要從四個方向考慮大數據處理的一些問題:第一,大數據的集成,即從數據種類的多樣性方面,整合所有來源的所有數據類型,不管是來自交易系統的結構化數據,社交網絡的半結構化、非結構化數據,還是來自RFID讀卡器的感應數據;第二,保障數據的權威、可信性,保障數據安全,實現可重復利用、一致的數據質量;第三是實現數據的自助式服務,消除手工操作帶來的錯誤,提高生產率,允許分析員通過基于瀏覽器的工具直觀地定義和校驗從源到目標的處理流程,以此自動生成映射邏輯,交由開發人員部署運行;第四是自適應服務,通過多協議數據配置、集成數據質量等手段實現交付適應不同項目需求的數據。
從交易到交互,從互聯網行業到傳統行業,大數據的滲透力和影響力不容小覷。在Teradata大中華區首席架構師張新宇看來,除了數據管理,更重要的是數據分析,利用新的分析方法,比如通過使用Map Reduce(編程語言可以是Java/Python/Perl/C/C++)新分析框架,提供針對多種數據的并行處理能力等,實現大數據的洞察力是更關鍵的。
北京賽迪時代信息產業股份有限公司存儲工程服務事業部總經理李降龍也介紹,大數據帶來的挑戰在于怎樣實時處理這些數據,通過虛擬化搭建一個計算和存儲資源池,以彈性架構有效地合理分配和使用它們,并建立合理應用系統,使大數據得到最好的管理和使用,才能發揮大數據的價值。論壇上民族證券CIO顏陽也分享了證券公司對于大數據的理解以及他們所做輿情分析的大數據應用。
職場新貴:數據科學家
針對大數據而生的新一代分析工具――Map Reduce近年來備受關注,它一次遍歷數據,連接列表順序分析,而不需要像傳統的SQL那樣為了排序需要對表做自關聯。Map Reduce在數字營銷優化、社交網絡及關系分析、欺詐檢測及預防、設備數據分析等場景中都有非常好的應用。
除了原有的關系型數據分析,結合非關系型數據(NoSQL)的探索性分析的需求在企業內部越來越旺盛,如此一來,一種新的IT職業――數據科學家會越來越火。
在當前市場經濟高速發展的態勢下,各企業間競爭力越來越強。再加上信息技術的參與,企業能夠獲取信息的渠道與手段日益增多,面臨的信息也紛繁復雜,而好的決策不僅需要真實的數據支持,而且還要在盡量短的時間內做出。所以,企業急需要高效的數據分析工具,來節省對大量數據分析的時間。本文就提出——數據倉庫技術這一優化的數據管理、分析技術。
2數據倉庫的特點
2.1面向主題
即在較高的這一層次上,實現對企業信息系統里面數據的分類、綜合處理,將其進行抽象化處理。數據倉庫是從企業整體上來看的,直接面向主題進行組織,其本質在于實現數據的分析與處理,為管理層提供可進行決策的參考依據。
2.2集成性
屬于數據倉庫全部特點中最為關鍵的一個環節。這是由于數據倉庫里面的數據不是直接面向應用的,在細節數據這一方面欠妥,僅是從原來數據抽出來之后統一匯入數據庫,繼而發生數據缺失、同名異義等問題。
2.3不能更新
一旦當數據裝入到數據倉庫之后,沒有意外情況就不會再發生變化,數據主要提供給企業,進行決策的支持使用。
2.4實時變化
數據倉庫中的數據不能更新只是針對應用的,但對于數據倉庫來說,它需要為企業的決策提供支持,因此需要數據的價值性與最新性,時間則是不可或缺的一個重要屬性。
3系統的目標及功能
3.1目標定位
基于計算機、網絡等技術水平的提高,企業的信息化水平也有了極大地發展。一般企業內部都有生產管理系統、企業信息采集系統等的覆蓋,同時也有在此基礎上開發的財務報表等系統,一般都能夠滿足各部門進行日常管理、經營所提出的要求。但是,如何匯總系統中繁雜的數據,使管理者直觀、精準的掌握業務相關數據,另一方面又能實現對數據的多角度分析,這便是基于數據倉庫的企業數據分析、決策系統應解決的根本問題。
3.2功能
以數據倉庫作為基本,對企業數據分析(決策)支持系統做進一步的優化,本質在于把最新的計算機技術、最高水平的信息技術成果引入其中進行應用,使其能夠適應企業當前的信息管理系統,并使其為自己所用,形成綜合性強、專業化的信息分析、管理及處理平臺。
4系統設計
4.1整體結構
近些年來,隨著信息管理以及IT技術的極速發展,也促成了基于數據倉庫的數據分析與決策支持系統的優化形成。就數據倉庫概念結構上來說,所包含內容像數據倉庫數據庫、數據源、數據準備區與各種應用、管理數據。
4.2設計方法
數據倉庫系統建模程序:DW建模、數據獲得及集成、數據倉庫的構建、DSS應用編成、測試、理解需求。較之于原型法特點來說,這一設計方法雖然沒有太大的差異,但是卻與其存在著根本性的不同,數據倉庫設計為數據驅動,基于DB開發,主要對DB已有的數據資源進行抽取、挖掘與集成,用來支持企業管理者做出正確決策。
4.3主要技術的使用
(1)數據管理。該技術中有大量的數據管理技術、監視技術、壓縮技術以及倉庫索引等。(2)存儲方面。比如說多介質存數設備的管理技術、存儲控制技術以及并行存儲及管理技術等多個內容。(3)倉庫接口。語言接口技術、數據高效加載技術、多技術接口技術。
4.4設計工具
DSS的分析預測型工具、數據挖掘的挖掘型工具以及聯系分析處理的查詢分析工具,這三種工具組成了數據倉庫系統的工具層,每一種工具都有其不同的側重點,所針對的用戶以及適用的范圍也都各不相同。只有將這三種工具都納入到數據庫系統中去,才能從真正意義上實現對數據倉庫中信息的利用。(1)報表。報表是一個基本性的工具,在應用數據倉庫中,實現預定義數據計算、多維數據存儲的應用,可將企業原本復雜的報表難度在一定程度上進行簡化,在提高計算速度的同時還能確保精準性。(2)聯機分析。在借助多維的方式下,借助于聯機分析處理來對數據進行分析、查詢以及報表。較之于傳統的聯機事務處理這一應用,聯機事務處理這一應用是針對用戶對其事務加以處理,比如說銀行的儲蓄系統、飛機的訂票系統等,這就需要實時予以更新,對響應時間更是提出了高要求。(3)數據挖掘。該技術在諸多個領域的應用都收獲了很大效益。它并不是一定非要構建在數據倉庫基礎上的,但如果能實現協同合作,便能更進一步地對數據挖掘過程中某些步驟進行簡化,進而提高數據挖掘的工作效率。
5結束語
數據倉庫作為一個非易失性的數據集合,有著面向主題、集成以及實時變化的特點,很好地滿足了企業諸多種信息的綜合使用、分享,實時且精準地完成對財務分析、客戶分析以及市場分析等諸多方面的功能,可為企業管理層做出相應決策提供可參考性依據。隨著企業加強信息化水平的建設,數據化的深入發展,將會有更多的企業使用基于數據倉庫的企業數據分析與決策系統,為決策提供服務,以此來提高自己在市場競爭環境下有利的低位。所以,對數據分析與決策系統的優化研究這一問題具有重要價值。
作者:柴旭光 單位:邢臺職業技術學院
保持中立
大數據主要包括大交易數據、大交互數據和大數據處理。數據集成的功能是收集數據、探查數據和集中管理數據,從而進一步提高數據的質量。Informatica的數據集成軟件可以辨別哪些數據是合規的,并提取出來,實施統一管理和統一復制。Informatica公司高級副總裁兼首席信息官托尼·楊(Tony Young)表示,針對Hadoop大數據處理平臺,Informatica的數據集成軟件主要負責做好以下幾件事:解析和準備數據,探查和發現數據,轉換和清洗數據,監控Hadoop平臺中的數據。隨著云計算應用的逐漸普及,數據碎片日益增加,而移動計算、社交計算的快速發展也增加了數據訪問和管理的復雜性。在這種情況下,保證數據的合規性、一致性和準確性就顯得尤為重要。數據集成不僅可以輕松實現上述目標,而且可以在數據整個生命周期的管理中起到監督和調整的作用。
在數據管理產品趨向融合的今天,數據集成軟件會不會也被集成到一些綜合性的管理解決方案中呢?
托尼·楊表示:“Informatica之所以能夠保持快速成長,一個關鍵的因素就是始終保持中立的地位。我們的數據集成軟件可以與其他所有應用和管理軟件平臺相集成,比如微軟、SAP等廠商的產品。”
大數據促進業務增長
“數據分析是今后企業在競爭中保持優勢的一個主要手段。如果你現在不認真對待大數據,那么競爭對手就有可能超過你,并取代你。”托尼·楊表示,“大數據與SOA(面向服務的體系結構)不同。SOA不能直接給企業帶來商業價值,而大數據與企業的業務績效直接相關。企業的CIO必須重視大數據的處理與應用。”
托尼·楊介紹了一個利用Informatica數據集成解決方案促進企業銷售的成功案例。由于銷售額急劇下降,美國一家化妝品零售商求助于Informatica。Informatica利用其數據集成解決方案,創建了數據的單一視圖,將來自銷售柜臺的客戶信息以及社交網絡上的客戶需求進行匹配、集成和處理。該化妝品零售商利用Informatica提供的數據分析結果,調整了銷售方式,使得化妝品的銷售額得到了大幅提升。托尼·楊表示:“大數據分析不僅可以應用于消費品市場,交通、氣象、金融等很多行業也可以應用大數據分析工具促進業務的增長或提升服務質量。”
[關鍵詞] 計算機審計;數據挖掘;聚類算法;噪聲數據
隨著經濟和信息技術的不斷發展,許多企業開始引入了erp等系統,這些系統使得企業的眾多活動數據可以實時記錄,形成了大量有關企業經營管理的數據倉庫。從這些海量數據中獲取有用的審計數據是目前計算機審計的一個應用。對于審計人員來說,如何從被審計單位的海量數據中找出全面、高質量的審計數據從而找出審計證據是一個難題。本文利用數據挖掘技術對此問題進行了探討并提出了解決的方法。
數據挖掘(data mining)指的是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取出隱藏的、不為人知的卻潛在有用的信息和知識的過程[1]。事實上,實際應用數據的質量和存儲模式對于實施計算機審計并成功獲取審計證據非常重要。由于被審單位信息系統軟硬件平臺的異構性和可能存在的人為故意隱瞞、造假等,為保證計算機審計工作順利進行和審計結論的正確,對審計數據進行采集時必須對數據進行檢查、控制和分析。
1審計數據采集
審計數據采集指在開展計算機審計時從被審計單位的財務及業務信息系統及其他數據源獲得審計所需的電子數據并進行適當的格式轉換[3]。一般來說,計算機審計中數據采集的方法主要包括以下幾種:
(1)利用被審單位信息系統的數據導出功能。大多數的信息管理系統都提供了數據導出的功能,審計人員直接可以利用該功能導出企業財務數據完成數據的采集。
(2)利用通用的數據處理軟件完成數據采集。如access、sql server等都具有較強大的數據導入導出功能和數據轉換功能。審計人員可以利用這些軟件完成數據的采集。如被審企業原始數據為文本格式可以轉換為數據庫表格格式。
(3)利用審計軟件完成數據采集。如國家從2002年開始建設的“金審工程”就以現場審計實施系統(ao)及審計辦公系統(oa)作為計算機輔助審計的工具。別外應用國內的企業財務審計軟件、審計數據采集分析軟件等都可以完成審計數據的采集。
(4)利用專用程序接口完成數據采集。當被審計單位提供的審計數據的數據結構與已有的審計數據處理軟件系統的數據結構差異較大時,可以在審計人員的協助下由專門的程序員開發接口程序,完成數據的采集,但成本相對較高。
2 數據清洗
利用數據挖掘對審計數據進行處理分類時,為了提高分類的準確性、高效性和可伸縮性,必須對數據庫進行預處理,包括:數據的清洗、相關性分析、數據轉換等。
文獻[4]中給出數據清洗的定義為:發現和消除數據中的錯誤和不一致來提高數據的質量。一般而言,審計數據庫中數據采集于異質操作數據庫,不可避免存在著數據的錯誤或不一致等問題,如數據造假、數據重復、數據缺失等錯誤。根據文獻[5]提出的審計數據質量特征,必須要對采集的原始數據進行清洗,即由“臟”變“干凈”,提高審計數據質量,這是保證審計結論正確的關鍵。
數據清洗的一般過程如圖2所示。
(1)數據分析:為了清洗出干凈的數據,必須對數據進行詳盡的分析,包括數據的格式類別等。比如采集來的財務數據的字段類型、寬度、含義等。
(2)模式轉換:模式轉換主要是指將源數據映射成目標數據模型,如屬性的轉換,字段的約束條件和數據庫中各個數據集之間的映射和轉換等。有時需要將多個數據表合并成一個二維表格,有時卻要將一個數據表拆分成多個二維表格以便于問題的解決。
(3)數據校驗:上一步的模式轉換可行否,需要進行評估測試,經過反復分析、設計、計算、分析才能更好地清洗數據。否則不經過數據校驗可能有些錯誤數據不是很明顯,不能被很好地篩選出來。比如模式轉換時將一個數據集分解成多個數據表的時候,造成父表的主關鍵字的值和子表外部關鍵字的值不一致,從而形成孤立記錄,影響審計人員審計證據的正確性,進而影響審計結論的正確性。
(4)數據回流:用“干凈”的數據替代原始數據源中的“臟”數據,避免下次數據采集時重做數據的清洗。
有時候數據的清洗需要反復進行,審計人員需要對采集到的電子數據進行多次清洗,這樣才能得到高質量的審計數據。
3 數據挖掘實現
經過數據預處理后的審計數據庫包含了多個數據集,每個數據集又包含了若干數據記錄或者稱為元組,如何從這些二維表格數據中挖掘出有意義的審計數據至關重要。本文介紹一種利用聚類算法進行審計數據挖掘的算法。
3.1 算法概述
3.1.1聚類算法
所謂聚類就是根據相似性對數據對象進行分組,發現數據的分布特征,使得每個聚類中數據有非常高的相似性而不同聚類中的數據盡可能不同[6]。它同分類的主要區別在于,分類事先知道所依據的數據特征,而聚類是要找到這個數據特征。作為數據挖掘的功能,聚類分析可以作為一個獲取數據分布情況、觀察每個類的特征和對特定類進行進一步獨立分析的工具;聚類也能夠有效處理噪聲數據,比如數據庫中普遍包含的孤立點、空缺或錯誤數據等。
聚類分析算法通常有5類[7]:①基于劃分的方法,如clarans;②基于層次的方法,如cure和birch;③基于密度的方法,如dbscan、optics、gdbscan和dbrs;④基于網格的方法,如sting和wavecluster;⑤基于模型的方法,如cobweb。其中dbscan算法具有很好的過濾噪聲數據的優點。本文探討利用dbscan算法對審計數據進行處理,找出異常數據,查找出審計證據。
3.1.2 dbscan算法
dbscan算法的基本思想為[8]:對于同一個聚類中的每個對象,在給定的半徑d的鄰域中包含的對象不能少于某一個給定的最小數目minpts(也稱密度)。
為了生存一個聚類,dbscan算法首先從數據集db中選擇任意一個對象p,并查找數據集db中關于半徑d的所有鄰域對象,如果這個鄰域對象的個數小于最小數目minpts,則p為噪聲數據;否則p的鄰域對象形成一個初始聚類n,n中包含對象p及p直接密度可達的所有對象。然后確定該類中的每一個對象q是否為核心對象,若是,就將q的d—鄰域內尚未包含到n的所有對象追加到n中,并繼續判定新追加的對象是否為核心對象,如果是,重復上述追加過程,直到這個聚類不能再擴大為止。然后dbscan算法再在數據集db中另選一個沒有被標識為某個聚類或者噪聲的對象,重復上面的操作,一直到數據集db中的所有對象要么被標識為某個聚類、要么被標識為噪聲數據為止。
dbscan算法進行聚類的過程就是不斷執行數據集查詢比較的過程,最后產生的噪聲數據就是通常所說的異常數據,對于幫助審計人員進行審計判斷非常有效。圖3表示了二維平面坐標下的噪聲數據和若干聚類。
3.2數據模式定義
3.2.1項間的距離
設ri和rj是數據集db中的任意兩條記錄即某兩個數據項,它們之間的距離定義為:
式中,ri(rix,riy),rj(rjx,rjy)表示數據集中兩個項ri和rj在二維空間的坐標點,因此dij表示ri和rj在二維空間坐標的距離。如果dij大于給定的值d,則表示ri和rj不屬于同一個聚類分組。
3.2.2審計數據預處理
數據挖掘時數據的選擇是在二維平面上進行的,首先選擇列(字段或屬性),再選擇行(記錄或元組)。為了能夠獲得有效的審計證據得出正確的審計結論,有時候必須對源數據集進行數據轉換。
因為各個企事業單位的規模不同,財務數據的數量級或者數量單位可能不同,為了得到更加科學可靠的聚類分析結果,需要對財務數據進行預處理,一般進行比例變換。如將x軸定義為某公司某月營業收入與利潤總額的比值,將y軸定義為財務費用與凈利潤的比值,這樣處理的數據能更好地反映該企業的實際情況。這里的財務數據預處理都是由用戶來定義的,可以根據不同的審計要求和審計目的來定義。
建立一個新的二維表格數據至少包含4個屬性項:記錄號,x軸數據,y軸數據,標記。其中記錄號保持對應源數據集db中的記錄號, x坐標和y坐標即為經過比例變換后的數值,標記字段初始內容為空。
3.3算法描述及流程圖
給定一個計算機審計數據集,假設具有n個元組或者記錄,利用dbscan算法思想構造出l個分組(l<n),每個分組代表一個聚類。且l個分組必須滿足如下條件:
(1)每個分組至少包含minpts個元組。
(2)每個分組中的任意兩個元組直接的距離小于等于給定的距離d。
(3)每個元組僅屬于一個分組。
圖4為實現審計數據挖掘的算法(稱為audbscan)的流程圖。
3.4 聚類算法的實現
算法:審計數據挖掘聚類算法(audbscan)
輸入:根據數據集db產生的二維表格數據
//至少含有4個字段:rec 記錄號,rx x坐標數據,ry y坐標數據,rno 標記
半徑d //度量密度的距離
密度minpts //簇中的數目
輸出:噪聲數據記錄
algorithm audbscan(data,d,minpts)
for each record in data do
ifeach reccord in data is marked
output noise reccord //輸出標識為噪聲的數據
else
for each reccord in data is not marked noise or classer do
prand(a reccord is not marked noise or classer) //隨機選取沒有被標記的記錄p
lfound(p,d,minpts) //找到p關于d的minpts密度可達記錄
if s=recount(l)<minpts
p is marked noise
else
nfound(p,d,minpts)
each reccord in n is marked classer
for each reccord in n do
qone reccord
if q is a center record //q為核心記錄
nfound(q,d)
endif
endfor
endif
endfor
endif
endfor
在audbscan算法中,利用rand()函數產生第一個隨機記錄p,利用found()函數產生p關于d的minpts密度可達記錄。該算法最后的結果和隨機產生的第一條記錄相關,形成的聚類可能有不同,但得到的噪聲數據一致,因此對于審計證據的查找是有效的。
4 結論
數據挖掘技術與海量數據下審計業務的有效結合是未來計算機審計的一個發展方向。本文主要介紹了審計數據的采集、數據的處理轉換和數據的挖掘3個方面,并且在數據的挖掘方面采用了基于聚類的dbscan算法來快速、準確、高效地輸出噪聲數據。該算法中涉及的二維平面x,y軸坐標可以根據實際審計需要由審計人員加以定義,因此可以應用到各類審計實踐中去。另外,可以將dbscan算法擴展到三維空間上,只要再加上一個z軸數據,當然z軸數據也應該是和x,y軸數據相關的一個比例數據,此時聚類的結果將會變成一個不規則球體,從而能夠更加容易挖掘出未曾發現的知識,也更加容易發現數據間的潛在聯系。
主要參考文獻
[1][加]jiawei h,michelline k.數據挖掘概念與技術[m].范明,譯. 北京:機械工業出版社,2004.
[2]陳偉,張金城,robin qiu.審計數據處理實驗中的模擬數據生成系統[j].計算機工程,2007(19).
[3]王琦峰,胡玲玲. 基于ao的審計數據采集方法 [j].計算機系統應用,2009(3).
[4]米天勝,張金城. 面向數據的計算機審計中數據質量問題的探討[j].審計與經濟研究,2006(1).
[5]王昊,朱文明. 審計數據質量研究:從審計取證的視角 [j].南京大學學報:自然科學版,2007(1).
[6]楊磊,李建軍,張志軍,孫翠娟.談數據挖掘中常用的聚類算法[j].中國成人教育,2008(4).
[7]胡彩平,秦小麟.一種改進的空間聚類算法 [j].模式識別與人工智能,2007(3).
[8][美]margaret h dunham. 數據挖掘教程 [m].郭崇慧,譯.北京:清華大學出版社,2005.