資料探勘#1 - 認識資料探勘

資料探勘 Data Mining 一個技術演進的議題,廣義的觀點是資料探勘是從大量資料裡面挖掘出有意義的模式的過程,也有另一種說法是資料探勘跟資料庫知識發現 (KDD)具有同義詞的意思,而 KDD 的意思是「從資料中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程」、資料探勘是「KDD通過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟」(資料來源:wiki https://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98)

為什麼需要資料探勘?

從早期我們知道的原始資料處理進而發展資料庫管理系統 (DBMS,可以透過SQL查詢語言取得一個關聯子集,例如:查詢今天的訂單數,就能夠過 count 這類的聚合函數來查詢),透過數據得出一個分析結果方便地用在有效的決策上面,但是,到這邊為甚麼還需要資料探勘呢?因為,正所謂「科技始終來自於人性」、柏拉圖說的「需求是發明之母」,我們周遭都是數字、資料、分析、紀錄各種資訊,這些數字的快速增長,讓大數據的時代需要找出有價值的資訊,然後把這些資訊經過擷取、分析進而轉化成知識。

garbage in, garbage out. (GIGO) 垃圾進,垃圾出

到底什麼才是獲得有價值的資訊?資料的來源、整理、擷取相當的重要,有句名言「garbage in, garbage out.」也就是說拿著無用的資料、有誤差的資訊輸入進電腦裡面,卻得到不能使用的結果,因此輸入時需要刪除不一致、無意義的資料,在資料的準確度做個嚴格把關。

挖掘什麼類型的資料或模式呢?

資料探勘可以用在很多類型的資料,包含資料庫、Web、資料倉儲、OLTP 線上分析處理 、有序/序列資料、時間序列分析、多媒體等等。至於模式的話,有許多的觀點可以採用,像是特徵型、關聯、相關性的探勘、分類、回歸分析、離散、預測、群聚 (clustering) 等等。