Like 從資料中挖金礦:找到你的獲利處方籤?
Join aNobii to see if your friends read it, and discover similar books!
Book Description
為什麼你的網站不賺錢?!
要了解Google、Amazon網站成功的祕密,就在這裡!
本書以最簡單的方式介紹Data Mining(資料採礦、資料探勘)在資料分析、商業行銷方面的強大威力,也揭露Google、Amazon.com賴以成功的關鍵。
例如搜尋引擎,其中就使用了資料採礦的技巧。
資料採礦的目的,就是在龐大的資料中擷取有用的資訊。由於儲存資訊的成本已經降到接近0,資料採礦的可行性也大幅增加,除了可用在商業行銷,也可運用於社會,甚至預測未來。本書用許多日常生活的例子,來解釋資料採礦的觀念和工具,例如:
.以喝牛奶與身高的關係解釋「迴歸分析」; Continue
Book Details
-
Rating:




(19)
- 繁體書
- Paperback
- ISBN-10: 9867889940
- ISBN-13: 9789867889942
- Publisher: 經濟新潮社
- Pub date: Mar 11, 2010
Prices Change currency & sellers
| ISBN | Edition | List | Sale | Seller |
|---|---|---|---|---|
| 9789867889942 | Paperback | NTD280 | NTD228 | 金石堂 |
| + 2 copies tradable: → | ||||
這本書是講資料採礦,講的相當淺顯易懂,簡單來說,這是一本入門書。書的主要架構大致是這個樣子,先講資料採礦可能會遇到的盲點以及必須要做的事情,然後介紹步驟以及常使用的方法,最後延伸到網路以及隱私問題。
步驟:
# 先決定想知道什麼
# 資料的蒐集
# 資料的取捨
# 先從單一資料與屬性下手
# 失敗經驗有助於往後的分析
# 試著加上其他屬性
# 剔除異常值
# 單一屬性與多重屬性的混雜使用
大致有這些分析方法:
* 分類:群集分析、決策樹分析、自我組織映射圖
* 關聯:關聯法則
* 預測:迴歸分析、類神經網路
迴歸分析的最小平方法,其實就是加總各點與直線距離的平方和, ... (continue)
這本書是講資料採礦,講的相當淺顯易懂,簡單來說,這是一本入門書。書的主要架構大致是這個樣子,先講資料採礦可能會遇到的盲點以及必須要做的事情,然後介紹步驟以及常使用的方法,最後延伸到網路以及隱私問題。
步驟:
# 先決定想知道什麼
# 資料的蒐集
# 資料的取捨
# 先從單一資料與屬性下手
# 失敗經驗有助於往後的分析
# 試著加上其他屬性
# 剔除異常值
# 單一屬性與多重屬性的混雜使用
大致有這些分析方法:
* 分類:群集分析、決策樹分析、自我組織映射圖
* 關聯:關聯法則
* 預測:迴歸分析、類神經網路
迴歸分析的最小平方法,其實就是加總各點與直線距離的平方和,畫出平方和最小化情形下的直線。所謂的迴歸分析就是從不明確的資料群裡,找出「各式各樣的資料這麼多,最後應該有這樣的規律/公式吧」的妥協點的方法。從迴歸分析取得的線就是回歸線,想查明的東西稱為因變數,所需要的資料稱為自變數。只有一個自變數的案例稱為「簡單迴歸分析」,有兩個以上自變數的案例稱為「複迴歸分析」。缺點是如果資料的分散度很大時,會無法找出適當的回歸線,導致預測的準確度很低。
決策樹是依據分歧條件去歸納整理並畫出類似樹狀的圖形,可以用來快速的做判斷。
群集分析,是依據資料的某些條件做出分類。K平均法是其中的一種方法,他是經由不斷的計算每個群集的中心點位於何處,移動中心點,經由計算移動中心點以後,再次重新判斷、將資料點歸屬到距離最近的中心點。重複這項作業直到中心點不再移動為止。
自我組織映射圖,這個比較難說明,書裡舉的例子是先簡單把資料分為四格,然後每個格子裡再去區分為四格來分類,以次類推到更裏面的格子。簡單的說就是把多次元的資料以二次元方式來表現,就x, y, z甚至w, x, y, z想在一張平面的圖裡表現出來。章節最後介紹了自我組織映射圖,說是目前比較矚目的方法。
關聯法則,就是依照資料去找出不同種類物品的關聯關係,常被用來舉例的就是尿布跟啤酒。說到這個,我突然想到,國內的賣場並非如此,這跟民族性有關係嗎?還是跟現行法令有關係?
類神經網路。一個點是以資料屬性與臨界值來判定是否符合條件,再加上多個屬性,就形成了類神經網路。好處在於可以擴充也可以學習,缺點在於需要額外準備資料來檢測分析是否俱備泛用性,然後有可能有過度學習的情況。
後面講的是資料採礦的其他問題,像是網路上收集的資料會導致隱私的洩漏等等的,然後講到OECD,OECD的幾個原則:
* 蒐集個人資料時,必須使用公正的手段而且取得當事人的同意才可以進行蒐集。
* 個人資料需要符合利用目的的內容,必須確保其正確且最新的狀態
* 蒐集個人資料的目的,於各個階段必須明確標示
* 個人資料只能使用在已得到當事人同意的用途上
* 個人資料必須嚴加保護,避免被使用在破壞、洩漏、惡質連線等用途上
* 個人資料的運用方式必須公開;資料管理者的連繫管道必須暢通
* 必須設定個人資料相關的詢問及客訴窗口。如果客訴情況屬實,必須修改或刪除資料。
* 資料管理的負責人,必須負責執行這些原則
個人必須要注意的,就是要判斷自己的資料哪些是可以公開的,哪些是不想公開的。而且因為網路和儲存裝置的大量普及,一旦散佈出去的資料將很難再去抹滅。
Is this helpful?