Algoritmo K-Means. Aspectos Básicos.

En esta práctica se familiarizará con una implementación del algoritmo K-Means en [scikit-learn](https://scikit-learn.org/), además de analizar su comportamiento al variar el valor de $k$ de acuerdo con los criterios de evaluación para algoritmos de agrupamiento.


**Instrucciones:**

- siga las indicaciones y comentarios en cada apartado.
<br></br>
- siempre que una función o algoritmo lo permita, establezca $random\_state=const$, donde $const$ es un valor constante de su preferencia, por ejemplo $1$. Esto para garantizar replicabilidad del experimento.
<br></br>
- incluya el código requerido entre los apartados:
   - \#\<code>
   - \#\</code>

In [None]:
#@title Utilidades
#@markdown Ejecute esta casilla para definir algunas funciones necesarias en la actividad.

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import numpy as np

def visualize_data(x, y, labels=None):

  if type(labels) == np.ndarray or type(labels) == list:
    labels = [str(e) for e in labels]

  fig = px.scatter(x=x, y=y, color=labels)


  fig.update_layout(height=300,
                    width=300,
                    showlegend=False,
                    title={'text': 'Datos',
                          'font': {'size':12},
                          'x': 0.5,
                          'xanchor': 'center'
                          }
                    )
  return fig


def visualize_clusters_k(data, models):
  rows=2
  cols=4

  keys = sorted(models.keys())

  fig = make_subplots(rows=rows, cols=cols, subplot_titles=[f'K={k}' for k in keys])

  for i, k in enumerate(keys):
    model = models[k]
    labels = np.unique(model.labels_)
    col = i%cols
    row = int((i-col) / cols)

    col+=1
    row+=1

    for label in labels:
      x = data['X1'][model.labels_==label]
      y = data['X2'][model.labels_==label]
      fig.add_trace(go.Scatter(x=x, y=y, mode='markers', name=f'K={k} - Clúster {label}'), row=row, col=col)


  fig.update_layout(height=600,
                    width=1200,
                    showlegend=False
                    )
  return fig


def visualize_metrics(evals):
  keys = sorted(evals)

  fig = go.Figure()

  for k in keys:
    fig.add_trace(go.Bar(x=[k], y=[evals[k]], text=f'{evals[k]:.3f}'))


  fig.update_layout(height=300,
                    width=600,
                    showlegend=False,
                    title={'text': 'Evaluaciones',
                          'font': {'size':12},
                          'x': 0.5,
                          'xanchor': 'center'
                          },
                    xaxis = {
                        'title':'K',
                        'tickmode': 'linear'
                        },
                    yaxis = {
                        'range':[min(evals.values())-0.1, max(evals.values())+0.1]
                        }

                    )
  return fig

### Carga de datos y análisis exploratorio.

**a)** El primer paso consiste en obtener los datos relacionados con la tarea dejándolos en el formato adecuado.

El fichero **aggregation-noclass.csv** contiene instancias artificiales representado puntos 〈x1,x2〉en un espacio bidimensional.

| X1 | X2|
| -- |-- |
| 15.55|28.65|
| ...|...|

En la siguiente casilla, incluya el código necesario para:

  **a.1)** leer el archivo **aggregation-noclass.csv** en un dataframe de pandas. La variable con este dataframe debe llamarse **data**.
<br><br/>
  **a.2)** visualizar los datos en un gráfico de dispersión. El código necesario ya se provee.
<br><br/>
**Sugerencia:** investigar cómo leer un archivo desde Google Colab utilizando [pandas](https://pandas.pydata.org/) y cómo visualizarlos utilizando la librería de nuestra preferencia.

In [None]:
# a.1 leer datos
#<code>


#</code>



# a.2 visualizar datos
fig = visualize_data(data['X1'], data['X2'])
fig.show()

**b)** Una vez leídos los datos, se aplicará el algoritmo K-Means para obtener los agrupamientos.

En la siguiente casilla, incluya el código necesario para:
<br><br/>
  **b.1)** aplicar la implementación de K-Means en scikit-learn con $k=2$. La variable con el modelo debe llamarse **model**.
<br><br/>
  **b.2)** imprimir el valor de los centroides.
<br><br/>
  **b.3)** visualizar los datos en un gráfico de dispersión, donde el color de cada punto estará determinado por el clúster al que pertenece. El código necesario ya se provee.
<br><br/>
**Sugerencia:** investigar los diferentes parámetros y atributos de la implementación utilizada del algoritmo K-Means.

In [None]:
# b.1 aplicar algoritmo
#<code>


#</code>



# b.2 imprimir centroides
#<code>


#</code>



# b.3 visualizar datos
fig = visualize_data(data['X1'], data['X2'], model.labels_)
fig.show()

**c)** En esta parte, se explorará el efecto que tiene $k$. En la siguiente casilla, incluya el código necesario para:
<br><br/>
**c.1)** aplicar K-Means para $k \in [2,9]$, conservando los diferentes modelos. Se debe obtener un modelo para cada valor de $k$. Los modelos deben guardarse en la variable **models** que es un diccionario donde la llave es $k$ y el valor es el modelo para ese valor de $k$.
<br><br/>
**c.2)** visualizar el particionamiento que produce cada modelo. El código necesario ya se provee.
<br><br/>
Empleando un criterio puramente visual y de acuerdo con las gráficas obtenidas ¿qué valor de $k$ considera más adecuado?

In [None]:
models = {}

# c.1 aplicar algoritmo
#<code>


#</code>



# c.2 visualizar datos
fig = visualize_clusters_k(data, models)
fig.show()

**d)** Seleccione algún criterio aplicable para determinar el valor de K que conduce al “mejor” particionamiento de los datos, tenga en cuenta que las instancias no tienen asociada ninguna clase.

En la siguiente casilla incluya el código necesario para:
<br><br/>
**d.1)** evaluar cada modelo aplicado en el apartado anterior. Las evaluaciones deben guardarse en la variable **evals** que es un diccionario donde la llave es $k$ y el valor es la métrica calculada ese valor de $k$.
<br><br/>
**d.2)** visualizar mediante un gráfico de barras los valores de la métrica para los diferentes $k$.
<br><br/>
¿Qué valor de K recomienda en este caso.? ¿Qué podría decirse sobre la estructura encontrada por el algoritmo K-Means?
<br><br/>
**Sugerencia**: investigar sobre el coeficiente Silhouette.

In [None]:
evals = {}

# d.1 evaluar métrica
#<code>


#</code>



# d.2 visualizar evaluaciones
fig = visualize_metrics(evals)
fig.show()