視乎已經聽到或看到無數遍數據挖掘了,那么,你知道那是什么嗎?關于什么是數據挖掘,很多學者和專家給出了不同的定義,以下我們列出幾種常見的說法: 簡單地說,數據挖掘是從大量數據中提取或挖掘知識。該術語實際上有點用詞不當。數據挖掘應當更正確地命名
視乎已經聽到或看到無數遍數據挖掘了,那么,你知道那是什么嗎?關于什么是數據挖掘,很多學者和專家給出了不同的定義,以下我們列出幾種常見的說法:“簡單地說,數據挖掘是從大量數據中提取或‘挖掘’知識。該術語實際上有點用詞不當。數據挖掘應當更正確地命名為‘從數據中挖掘知識’,不幸的是它有點長。許多人把數據挖掘視為另一個常用的術語‘數據庫中知識發現’或KDD的同義詞。而另一些人只是把數據挖掘視為數據庫中知識發現過程的一個基本步驟。” ——《數據挖掘:概念與技術》(FreeEIM J. Han and M. Kamber)
“數據挖掘就是對觀測到的數據集(經常是很龐大的)進行分析,目的是發現未知的關系和以數據擁有者可以理解并對其有價值的新穎方式來總結數據。”——《數據挖掘原理》(David Hand, et al)
“運用基于計算機的方法,包括新技術,從而在數據中獲得有用知識的整個過程,就叫做數據挖掘。”——《數據挖掘--概念、模型、方法和算法》(Mehmed Kantardzic openeim)
“數據挖掘,簡單地說,就是從一個數據庫中自動地發現相關模式。”——《構建面向CRM的數據挖掘應用》(Alex Berson, et al)
“數據挖掘(DM)是從大型數據庫中將隱藏的預測信息抽取出來的過程。”——《數據挖掘:機遇與挑戰》(John Wang)
而作為數據挖掘領域的華人第一人,韓家煒教授在《數據挖掘:概念與技術》的教學幻燈片中,給出一個更清晰的定義:“數據挖掘,就是從大型數據庫中抽取有意義的(非平凡的,隱含的,以前未知的并且是有潛在價值的)信息或模式的過程。”
這里我們可以看到數據挖掘具有以下幾個特點:
l 基于大量數據:并非說小數據量上就不可以進行挖掘,實際上大多數數據挖掘的算法都可以在小數據量上運行并得到結果。但是,一方面過小的數據量完全可以通過人工分析來總結規律,另一方面來說,小數據量常常無法反映出真實世界中的普遍特性。
l 非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的“經過我的計算,我發現了一個有趣的現象,到本場比賽結束為止,這屆世界杯的進球數和失球數是一樣的。非常的巧合!”那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的數據挖掘新手卻常常犯這種錯誤。
l 隱含性:數據挖掘是要發現深藏在數據內部的知識,而不是那些直接浮現在數據表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。
l 新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。
l 價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說數據挖掘只是“屠龍之技”,看起來神乎其神,卻什么用處也沒有。這只是一種誤解,不可否認的是在一些數據挖掘項目中,或者因為缺乏明確的業務目標,或者因為數據質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數據挖掘的確可以變成提升效益的利器。
“數據挖掘”這個術語是在什么時候被大家普遍接受的,已經難以考證,大約在上世紀90年代開始興起。其中還有一段趣話。在科研界,最初一直沿用“數據庫中的知識發現”(即KDD,Knowledge Discovery in Database 5z20)。在第一屆KDD國際會議中,委員會曾經展開討論,是繼續沿用KDD,還是改名為Data Mining(數據挖掘)?最后大家決定投票表決,采納票數多的一方的選擇。投票結果頗有戲劇性,一共14名委員,其中7位投票贊成KDD,另7位贊成Data Mining。最后一位元老提出“數據挖掘這個術語過于含糊,做科研應該要有知識”,于是在科研界便繼續沿用KDD這個術語。而在商用領域,因為“數據庫中的知識發現”顯得過于冗長,就普遍采用了更加通俗簡單的術語——“數據挖掘”。
嚴格地說,數據挖掘并不是一個全新的領域,它頗有點“新瓶裝舊酒”的意味。組成數據挖掘的三大支柱包括統計學、機器學習和數據庫等領域內的研究成果,其它還包含了可視化、信息科學等內容。數據挖掘納入了統計學中的回歸分析、判別分析、聚類分析以及置信區間等技術,機器學習中的決策樹、神經網絡等技術,數據庫中的關聯分析、序列分析等技術。
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com