學習啦 > 知識大全 > 知識百科 > 百科知識 > 什么是數(shù)據(jù)聚類數(shù)據(jù)聚類的原理

什么是數(shù)據(jù)聚類數(shù)據(jù)聚類的原理

時間: 謝君787 分享

什么是數(shù)據(jù)聚類數(shù)據(jù)聚類的原理

  數(shù)據(jù)聚類是對于靜態(tài)數(shù)據(jù)分析的一門技術,在許多領域受到廣泛應用,包括機器學習,數(shù)據(jù)挖掘,模式識別,圖像分析以及生物信息。那么你對數(shù)據(jù)聚類了解多少呢?以下是由學習啦小編整理關于什么是數(shù)據(jù)聚類的內(nèi)容,希望大家喜歡!

  數(shù)據(jù)聚類的基本原理

  聚類是把相似的對象通過靜態(tài)分類的方法分成不同的組別或者更多的子集(subset),這樣讓在同一個子集中的成員對象都有相似的一些屬性,常見的包括在坐標系中更加短的空間距離等。一般把數(shù)據(jù)聚類歸納為一種非監(jiān)督式學習。

  數(shù)據(jù)聚類的類型

  數(shù)據(jù)聚類算法可以分為結構性或者分散性。結構性算法利用以前成功使用過的聚類器進行分類,而分散型算法則是一次確定所有分類。結構性算法可以從上之下或者從下至上雙向進行計算。從下至上算法從每個對象作為單獨分類開始,不斷融合其中相近的對象。而從上之下算法則是把所有對象作為一個整體分類,然后逐漸分小。

  結構性

  距離測量

  在結構性聚類中,關鍵性的一步就是要選擇測量的距離。一個簡單的測量就是使用曼哈頓距離,它相當于每個變量的絕對差值之和。該名字的由來起源于在紐約市區(qū)測量街道之間的距離就是由人步行的步數(shù)來確定的。一個更為常見的測量是歐式空間距離,他的算法是找到一個空間,來計算每個空間中點到原點的距離,然后對所有距離進行換算。

  創(chuàng)建聚類

  在已經(jīng)得到距離值之后,元素間可以被聯(lián)系起來。通過分離和融合可以構建一個結構。傳統(tǒng)上,表示的方法是樹形數(shù)據(jù)結構,然后對該結構進行修剪。

  分散性

  K-均值法及衍生算法

  K-均值法聚類 K-均值算法表示以空間中k個點為中心進行聚類,對最靠近他們的對象歸類。

  例如: 數(shù)據(jù)集合為三維,聚類以兩點: X = (x1, x2, x3) and Y = (y1, y2, y3). 中心點Z 變?yōu)?Z = (z1, z2, z3), where z1 = (x1 + y1)/2 and z2 = (x2 + y2)/2 and z3 = (x3 + y3)/2. 算法歸納為 (J. MacQueen, 1967):

  選擇聚類的個數(shù)k. 任意產(chǎn)生k個聚類,然后確定聚類中心,或者直接生成k個中心。 對每個點確定其聚類中心點。 再計算其聚類新中心. 重復以上步驟直到滿足收斂要求。(通常就是確定的中心點不再改變). 該算法的最大優(yōu)勢在于簡潔和快速。劣勢在于對于一些結果并不能夠滿足需要,因為結果往往需要隨機點的選擇非常巧合。
看過“數(shù)據(jù)聚類的原理”的人還看了:

1.什么是聚類分析 聚類分析的應用

2.淺析聚類分析方法在食堂消費數(shù)據(jù)中的應用論文

3.試論R軟件在系統(tǒng)聚類分析中的應用

4.個人知識管理工具

5.淺談多元統(tǒng)計相關論文

6.基于二元回歸分析的火災數(shù)據(jù)分析

1735534