import matplotlib.pyplot as plt
import numpy as np


from sklearn import cluster, datasets
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

n_samples = 200
random_state = 42

blobs = datasets.make_blobs(n_samples=n_samples, random_state=42)
plt.figure()
plt.scatter(blobs[0][:,0], blobs[0][:,1])

<matplotlib.collections.PathCollection at 0x7f815d23ec90>

from sklearn.metrics import silhouette_score

nrows=2
ncols=2
ff,aa = plt.subplots(nrows, ncols,figsize=(10,10))
v_K = [2,3,4,5]
ikk = 0
SC  = np.empty(len(v_K))
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[ikk]
        clustering = KMeans(n_clusters=K, random_state=random_state).fit(blobs[0])
        labels = clustering.predict(blobs[0])
        SC[ikk] = silhouette_score(blobs[0],labels)

        for k in range(K):
            idx_k = np.where(labels == k)[0]
            aa[rr][cc].scatter(blobs[0][idx_k,0], blobs[0][idx_k,1], label='k={0:d}'.format(k))
        ikk += 1
        aa[rr][cc].set_title('K={} clusters'.format(K))
        aa[rr][cc].legend()
plt.figure()
plt.plot(v_K, SC)
_=plt.title('cluster silhouette score')
_=plt.xlabel('number of clusters, K')

# Anisotropicly distributed data
random_state = 170
X, y = datasets.make_blobs(n_samples=n_samples, random_state=random_state)
transformation = [[0.6, -0.6], [-0.4, 0.8]]
X_skinny_blobs = np.dot(X, transformation)
skinny_blobs = (X_skinny_blobs, y)
plt.figure()
plt.scatter(skinny_blobs[0][:,0], skinny_blobs[0][:,1])

<matplotlib.collections.PathCollection at 0x7f815163c210>

"""
I repeat the analysis of the three blobs with the skinny blobs
"""
XX = X_skinny_blobs.copy()
nrows=2
ncols=2
ff,aa = plt.subplots(nrows, ncols,figsize=(10,10))
v_K = [2,3,4,5]
ikk = 0
SC = np.empty(len(v_K))
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[ikk]
        clustering = KMeans(n_clusters=K, random_state=random_state).fit(XX)
        labels = clustering.predict(XX)
        SC[ikk] = silhouette_score(XX,labels)

        for k in range(K):
            idx_k = np.where(labels == k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))
        ikk += 1
        aa[rr][cc].set_title('K={} clusters'.format(K))
        aa[rr][cc].legend()
plt.figure()
plt.plot(v_K, SC)
_=plt.title('Silhouette Score')
_=plt.xlabel('number of clusters, K')

noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5,
                                      noise=.05)
plt.figure()
plt.scatter(noisy_circles[0][:,0], noisy_circles[0][:,1])

<matplotlib.collections.PathCollection at 0x7f815143ca10>

XX = noisy_circles[0].copy()
nrows=2
ncols=2
ff,aa = plt.subplots(nrows, ncols,figsize=(10,10))
v_K = [2,3,4,5]
ikk = 0
SC = np.empty(len(v_K))
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[ikk]
        clustering = KMeans(n_clusters=K, random_state=random_state).fit(XX)
        labels = clustering.predict(XX)
        SC[ikk] = silhouette_score(XX,labels)

        for k in range(K):
            idx_k = np.where(labels == k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))
        ikk += 1
        aa[rr][cc].set_title('K={} clusters'.format(K))
        aa[rr][cc].legend()
plt.figure()
plt.plot(v_K, SC)
_=plt.title('Silhouette Score')
_=plt.xlabel('number of clusters, K')

def kernel_Kmeans_Clustering(K, n_clusters=2):
    """
    Implements kernel Kmeans Clustering
    input:
    K: 2 dim np.array with kernel matrix
    n_clusters: number of clusters
    output:
    labels: np.array with the label of each row of the kernel matrix
    """
    n = X.shape[0]
    labels = -np.ones(n) # initialization
    idx_k = np.random.permutation(n)[:n_clusters]
    for jj in range(n_clusters):
        labels[idx_k[jj]] = jj # the centroid of cluster jj is pattern with id
                           # idx_k[jj]
                           # np.where(labels==kk)[0] retrieves members of
                           # cluster kk
    """
    - Loop until convergence or maximum number of iterations reached:
    - Compute norm of each cluster center
    - Assign samples a clusters computing the distance in Feature Space
    - Check if cluster membership has changed or maximum number of iterations
      has been reached
    """

    for iter in range(10):
        labels_old = labels.copy() # to compare label assignment
        CTC = np.zeros(n_clusters)
        for kk in range(n_clusters):
            id_members_cluster_k = np.where(labels==kk)[0]
            CTC[kk] = np.mean(K[id_members_cluster_k, id_members_cluster_k])

        for ii in range(n):
            closest_prototype = -1
            kernel_to_centroid = 1e300
            for kk in range(n_clusters):
                id_members_cluster_k = np.where(labels==kk)[0]
                kernel = CTC[kk] + K[ii,ii] - 2*np.mean(K[ii, id_members_cluster_k])
                if kernel < kernel_to_centroid:
                    closest_prototype = kk
                    kernel_to_centroid = kernel
            labels[ii] = closest_prototype
        diff_centroids = np.sum(np.absolute(labels-labels_old))
        if (diff_centroids ==0):
            break
    return labels

def compute_dispersion(X, labels):
    unique_labels = np.unique(labels)
    dispersion = 0
    X2 = np.sum(X**2,1)
    for k in unique_labels:
        idx_members_cluster_k = np.where(labels==k)[0]
    for idi, ii in enumerate(idx_members_cluster_k[:-1]):
        xi = X[ii,:]
        for jj in idx_members_cluster_k[idi+1:]:
            xj = X[jj,:]
            dispersion += np.sqrt((X2[ii] + X2[jj] - 2*xi.dot(xj.T)))
    return dispersion

XX = blobs[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_gamma = [.01, .1, 1, 10]

dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[rr]
        gamma = v_gamma[cc]
        A = rbf_kernel(XX,gamma=gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.2f}, K={1:d}'.format(gamma,K))


ff.tight_layout()
for rr in range(nrows):
    for cc in range(ncols):
        print("gamma={0:.2f}, dispersion={1:.2f}, K={2:d}".format(v_gamma[cc],
                                                                  dispersion[rr,cc],
                                                                  mK[rr,cc]))

gamma=0.01, dispersion=3306.02, K=2
gamma=0.10, dispersion=53218.85, K=2
gamma=1.00, dispersion=4056.41, K=2
gamma=10.00, dispersion=2400.24, K=2
gamma=0.01, dispersion=3306.02, K=3
gamma=0.10, dispersion=3306.02, K=3
gamma=1.00, dispersion=3817.64, K=3
gamma=10.00, dispersion=773.50, K=3
gamma=0.01, dispersion=682.79, K=4
gamma=0.10, dispersion=527.17, K=4
gamma=1.00, dispersion=1342.28, K=4
gamma=10.00, dispersion=763.35, K=4
gamma=0.01, dispersion=3306.02, K=5
gamma=0.10, dispersion=4056.41, K=5
gamma=1.00, dispersion=338.15, K=5
gamma=10.00, dispersion=2094.89, K=5

nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
K = 3
v_gamma = [1e-6,1e-5, 1e-4,.001, .01, .1, 1, 10, 100, 1e3, 1e4, 1e5]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        A = rbf_kernel(XX,XX,gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
K = 3
v_gamma = [1, 2, 5, 7.5, 10, 20, 50, 75, 100, 200, 500, 750]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        A = rbf_kernel(XX,XX,gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

XX = skinny_blobs[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_gamma = [.01, .1, 1, 10]

dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[rr]
        gamma = v_gamma[cc]
        A = rbf_kernel(XX,XX,gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.2f}, K={1:d}'.format(gamma,K))


ff.tight_layout()
for rr in range(nrows):
    for cc in range(ncols):
        print("gamma={0:.2f}, dispersion={1:.2f}, K={2:d}".format(v_gamma[cc],
                                                                  dispersion[rr,cc],
                                                                  mK[rr,cc]))

gamma=0.01, dispersion=3676.92, K=2
gamma=0.10, dispersion=3450.80, K=2
gamma=1.00, dispersion=16877.78, K=2
gamma=10.00, dispersion=5263.99, K=2
gamma=0.01, dispersion=1878.07, K=3
gamma=0.10, dispersion=1592.31, K=3
gamma=1.00, dispersion=2205.37, K=3
gamma=10.00, dispersion=15887.57, K=3
gamma=0.01, dispersion=1282.10, K=4
gamma=0.10, dispersion=1458.10, K=4
gamma=1.00, dispersion=3673.31, K=4
gamma=10.00, dispersion=2497.49, K=4
gamma=0.01, dispersion=332.15, K=5
gamma=0.10, dispersion=154.68, K=5
gamma=1.00, dispersion=1018.20, K=5
gamma=10.00, dispersion=294.58, K=5

nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
K = 3
v_gamma = [1e-6,1e-5, 1e-4,.001, .01, .1, 1, 10, 100, 1e3, 1e4, 1e5]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        A = rbf_kernel(XX,XX,gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
K = 3
v_gamma = [.1, .2, .5, .75, 1, 2, 5, 7.5, 10.0, 20.0, 50.0, 75.0]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        A = rbf_kernel(XX,XX,gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

XX = noisy_circles[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_gamma = [.01, .1, 1, 10]

dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[rr]
        gamma = v_gamma[cc]
        A = rbf_kernel(XX,XX,gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.2f}, K={1:d}'.format(gamma,K))


ff.tight_layout()
for rr in range(nrows):
    for cc in range(ncols):
        print("gamma={0:.2f}, dispersion={1:.2f}, K={2:d}".format(v_gamma[cc],
                                                                  dispersion[rr,cc],
                                                                  mK[rr,cc]))

gamma=0.01, dispersion=4045.01, K=2
gamma=0.10, dispersion=3879.33, K=2
gamma=1.00, dispersion=4408.77, K=2
gamma=10.00, dispersion=3113.70, K=2
gamma=0.01, dispersion=1316.11, K=3
gamma=0.10, dispersion=1396.53, K=3
gamma=1.00, dispersion=1203.60, K=3
gamma=10.00, dispersion=1827.87, K=3
gamma=0.01, dispersion=658.62, K=4
gamma=0.10, dispersion=543.11, K=4
gamma=1.00, dispersion=672.15, K=4
gamma=10.00, dispersion=850.23, K=4
gamma=0.01, dispersion=328.41, K=5
gamma=0.10, dispersion=304.92, K=5
gamma=1.00, dispersion=264.48, K=5
gamma=10.00, dispersion=489.57, K=5

K=2
nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))

v_gamma = [1e-6,1e-5, 1e-4,.001, .01, .1, 1, 10, 100, 1e3, 1e4, 1e5]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        A = rbf_kernel(XX,XX,gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
K = 2
v_gamma = [50.0, 75.0, 100, 125, 150, 200, 250, 300, 400, 500, 700, 1000]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        A = rbf_kernel(XX,XX,gamma)
        y_pred = kernel_Kmeans_Clustering(K=A, n_clusters=K)
        mK[rr,cc] = len(np.unique(y_pred))
        dispersion[rr,cc] = compute_dispersion(XX, y_pred)
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

from sklearn.cluster import SpectralClustering

XX = blobs[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_gamma = [.01, .1, 1, 5]

dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[rr]
        gamma = v_gamma[cc]
        clustering = SpectralClustering(n_clusters=K,gamma=gamma).fit(XX)
        y_pred = clustering.labels_
        mK[rr,cc] = len(np.unique(y_pred))

        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

ff.tight_layout()

XX = skinny_blobs[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_gamma = [.01, .1, 1, 5]

dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[rr]
        gamma = v_gamma[cc]
        clustering = SpectralClustering(n_clusters=K,gamma=gamma).fit(XX)
        y_pred = clustering.labels_
        mK[rr,cc] = len(np.unique(y_pred))

        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
K = 3
v_gamma = [1e-6,1e-5, 5e-5, 1e-4, 5e-4, .001, .005, .01, .05, .1, .5, 1,]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        clustering = SpectralClustering(n_clusters=K,gamma=gamma).fit(XX)
        y_pred = clustering.labels_
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

XX = noisy_circles[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_gamma = [.01, .1, 1, 10]

dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[rr]
        gamma = v_gamma[cc]
        clustering = SpectralClustering(n_clusters=K,gamma=gamma).fit(XX)
        y_pred = clustering.labels_
        mK[rr,cc] = len(np.unique(y_pred))

        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
K = 2
v_gamma = [.001, .01, .05, .1, .2, .5, 1,2,5,10,20,50]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        clustering = SpectralClustering(n_clusters=K,gamma=gamma).fit(XX)
        y_pred = clustering.labels_
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

nrows=3
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
K = 2
v_gamma = [1, 2, 5, 7, 10, 20, 50, 70, 100, 200, 500, 750]
ig=0
dispersion = np.empty((len(v_K), len(v_gamma)))
mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):

        gamma = v_gamma[ig]
        ig +=1
        A = rbf_kernel(XX,XX,gamma)
        clustering = SpectralClustering(n_clusters=K,gamma=gamma).fit(XX)
        y_pred = clustering.labels_
        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title(' gamma={0:.1e}, K={1:d}'.format(gamma,K))

def div_kl(P, Q):
    """
    - be careful to detect elements in Q that are equal to 0. Assign them to 1e-6
    and re-scale Q to add up to 1.
    """
    minim = 1e-6
    idx_Q_0 = np.where(Q==0)[0]
    if len(idx_Q_0) > 0:
        Q[idx_Q_0] = minim
        sumQ = np.sum(Q)
        Q = Q/sumQ
    idx_P_0 = np.where(P==0)[0]
    if len(idx_P_0) > 0:
        P[idx_P_0] = minim
        sumP = np.sum(P)
        P = P/sumP
    return P.dot(np.log(P/Q))

def Learning_Prototypes_Clustering(PM, n_clusters=2):
    n = PM.shape[0]
    labels = -np.ones(n)
    Q = np.empty((n_clusters,n)) # to store prototypes
    """
    - initialize labels at random
    - initialize Q in agreement with the labels
    - Loop:
    - assign rows of PM to clusters (with Q_old recompute labels)
    - recompute prototypes (with the new labels, recompute Q)
    - check discrepancies between Q_old and Q or labels_old and labels
      and stop if convergence
    """
    idx_k = np.random.permutation(n)[:n_clusters]
    Q = PM[idx_k,:].copy()

    for kk in range(n_clusters):
        labels[idx_k[kk]] = kk
    for iter in range(10):
        Qold = Q.copy()
        labels_old = labels.copy()
        for ii in range(n):
            closest_prototype = -1
            div_to_centroid = 1e300
            for kk in range(n_clusters):
                div_to_q = div_kl(PM[ii,:], Qold[kk,:])
                if div_to_q < div_to_centroid:
                    closest_prototype = kk
                    div_to_centroid = div_to_q
            labels[ii] = closest_prototype
        diff_centroids = 0
        for kk in range(n_clusters):
            idx_members_cluster_k = np.where(labels==kk)[0]
            Q[kk,:] = np.mean(PM[idx_members_cluster_k,:],0)
            diff_centroids += div_kl(Q[kk,:], Qold[kk,:])
        if (diff_centroids < 1e-4):
            break
    return labels, Q

def compute_P_M(X, M, gamma = 1.0):
    n = X.shape[0]
    PM = np.empty((n,n))
    """
    - compute affinity matrix calling rbf_kernel and zeroing the diagonal
    - get P as the row-wise normalized affinith matrix (its rows sum up to one)
    - multiply P by itself M-1 times (notice P^2 means multiply P by P once)
    """
    A = rbf_kernel(X, X, gamma=gamma) - np.eye(n)
    sumA = A.sum(1)
    P = A / np.tile(sumA.reshape(n,1), (1,n))
    PM = P.dot(P) #P^2    P*P is not P^2, this is P**2
    for m in range(M-2):
        PM = P.dot(PM)
    return PM

from sklearn.metrics.pairwise import rbf_kernel

XX = blobs[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_M = [2,10,50,100]
gamma = 0.2


mK = np.empty((len(v_K), len(v_M)),dtype=int)
for rr in range(nrows):
  for cc in range(ncols):
    K = v_K[rr]
    M = v_M[cc]
    PM = compute_P_M(XX, M=M, gamma = gamma)
    labels_, Q = Learning_Prototypes_Clustering(PM, n_clusters=K)
    y_pred = labels_
    mK[rr,cc] = len(np.unique(y_pred))

    for k in range(K):
      idx_k = np.where(y_pred==k)[0]
      aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))


    aa[rr][cc].set_title('M={0:d}, gamma={1:.2f}, K={2:d}'.format(M,gamma,K))

    #aa[rr][cc].legend()
ff.tight_layout()

XX = skinny_blobs[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_M = [200,300,400,500]
gamma = 20

mK = np.empty((len(v_K), len(v_M)),dtype=int)
for rr in range(nrows):
    for cc in range(ncols):
        K = v_K[rr]
        M = v_M[cc]
        PM = compute_P_M(XX, M=M, gamma = gamma)
        labels_, Q = Learning_Prototypes_Clustering(PM, n_clusters=K)
        y_pred = labels_
        mK[rr,cc] = len(np.unique(y_pred))

        for k in range(K):
            idx_k = np.where(y_pred==k)[0]
            aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))

        aa[rr][cc].set_title('M={0:d}, gamma={1:.1e}, K={2:d}'.format(M,gamma,K))

    #aa[rr][cc].legend()
ff.tight_layout()

XX = noisy_circles[0].copy()
nrows=4
ncols=4
ff,aa = plt.subplots(nrows, ncols,figsize=(12,12))
v_K = [2, 3, 4, 5]
v_M = [2,10,50,100]
gamma = 50


mK = np.empty((len(v_K), len(v_gamma)),dtype=int)
for rr in range(nrows):
  for cc in range(ncols):
    K = v_K[rr]
    M = v_M[cc]
    PM = compute_P_M(XX, M=M, gamma = gamma)
    labels_, Q = Learning_Prototypes_Clustering(PM, n_clusters=K)
    y_pred = labels_
    mK[rr,cc] = len(np.unique(y_pred))
    for k in range(K):
      idx_k = np.where(y_pred==k)[0]
      aa[rr][cc].scatter(XX[idx_k,0], XX[idx_k,1], label='k={0:d}'.format(k))


    aa[rr][cc].set_title('M={0:d}, gamma={1:.2f}, K={2:d}'.format(M,gamma,K))

    #aa[rr][cc].legend()
ff.tight_layout()

Experimenting with Spectral Clustering¶

Evaluation of the quality of the clustering¶

Data sets¶

Three Blobs¶

Skinny Blobs¶

Concentric circunferences¶

Kernel KMeans¶

Blobs data set¶

Skinny Blobs data set¶

Concentric circumferences data¶

Spectral Clustering from sklearn¶

Three Blobs¶

Skinny Blobs¶

Concentric circunferences¶

Learning Prototypes¶

Blobs data set¶

Skinny Blobs¶

Concentric Circumferences¶