# Aprendizaje Automático.

## Árboles de Decisión. Aspectos Básicos.

En esta práctica se familiarizará con la implementación de árboles de decisión en  [scikit-learn](https://scikit-learn.org/) para resolver un problema de clasificación binaria utilizando datos sintéticos. Además, podrá observar cómo puede controlarse el tamaño del árbol sin afectar el desempeño en datos de prueba. 


**Instrucciones:**

- siga las indicaciones y comentarios en cada apartado.
<br></br>
- siempre que una función o algoritmo lo permita, establezca $random\_state=const$, donde $const$ es un valor constante de su preferencia, por ejemplo $1$. Esto para garantizar que se puede replicar experimento.
<br></br>
- incluya el código requerido entre los apartados:
   - \#\<code>
   - \#\</code>

### Instalación de librerías e importación de dependencias

Para comenzar, es preciso instalar e incluir las librerías necesarias. En este caso, el entorno de Colab incluye las necesarias.

Ejecute la siguiente casilla prestando atención a las explicaciones dadas en los comentarios.

In [None]:
# instalar imblearn

!pip install seaborn
!pip install imblearn==0.0

import pandas as pd
import seaborn as sns

from matplotlib import pyplot
from sklearn  import datasets, neural_network
import pr_utils


### Carga de datos y análisis exploratorio

**a)** En esta sub-tarea generaremos un conjunto de datos sintéticos donde cada instancia se representa como un vector bidimensional y corresponde a una de las dos clases {0, 1}. Investiga la función 

En la siguiente casilla incluya el código necesario para:

**a.1)** crear un conjunto de datos  utilizando la función [make_moons](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html) disponible en scikit-learn, establezca ruido igual a `0.4` y cantidad de instancias `300`. Cuide que la variable que contiene la representación de cada instancia se llame `X` y la variable que indica la clase se llame `Y`.


**a.2)** crear un dataframe de Pandas a partir de estos datos. El código necesario ya se provee.

**a.3)** visualizar los datos en un gráfico de dispersión usando la librería de su preferencia. El código necesario ya se provee utilizando [Seaborn](https://seaborn.pydata.org/).




In [None]:
# a.1 
#<code>


#</code>



# a.2
data = pd.DataFrame().from_dict({'X':X[:,0],
                                 'Y':X[:,1],
                                 'Class':Y})



# a.3
ax=sns.lmplot(x="X", y="Y", hue="Class", data=data, fit_reg=False, height=3, aspect=1)

### Obtención de datos de prueba.

**b)** Al evaluar un algoritmo de aprendizaje puede ser conveniente hacer con datos diferentes a los utilizados para su entrenamiento. En este apartado, crearemos dos particiones de los datos, una para entrenar y otra para evaluar. Se utilizará la función `train_test_split` disponible en la librería [scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

En la siguiente casilla, incluya el código necesario para:

  **b.1)** utilizar la función `train_test_split` para particionar `X` e `Y` en conjuntos de entrenamiento y prueba, en proporciones 80% y 20% respectivamente.


  - `XTr`: características que representan a las instancias en el conjunto de entrenamiento.
  - `XTe`: características que representan a las instancias en el conjunto de prueba.
  - `YTr`: clases de cada instancia en el conjunto de entrenamiento.
  - `YTe`: clases de cada instancia en el conjunto de prueba.

In [None]:
from sklearn import model_selection

# b.1 
#<code>


#</code>



# visualizar datos
xtrp = pd.DataFrame().from_dict({'X':XTr[:,0],
                                 'Y':XTr[:,1],
                                 'Class':YTr})
xtrp['Set'] = 'Tr'

xtep = pd.DataFrame().from_dict({'X':XTe[:,0],
                                 'Y':XTe[:,1],
                                 'Class':YTe})
xtep['Set'] = 'Te'

data = pd.concat([xtrp, xtep])
sns.lmplot(x="X", y="Y", hue="Class", data=data, col='Set', fit_reg=False, height=3, aspect=1)

### Entrenamiento Árbol de Decisión

**c)** Verificada la etapa de preparación de los datos, entrenaremos un árbol de decisión utilizando la implementación que provee [scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html).

En la siguiente casilla incluya el código necesario para:

**c.1)** crear una instancia de un árbol de decisión, configurado los hiperparámetros para no se realicen podas ni una detención temprana del algoritmo. Cuide que la variable se llame `clf`

**c.2)** entrenar el clasificador utilizando `XTr` y `YTr`.

**c.3)** utilizar el clasificador para predecir el conjunto de pruebas.

**c.4)** mostrar matriz de confusión, reporte de clasificación, visualizar superficie de decisión inducida por el clasificador, etc. El código necesario ya se provee.

In [None]:
from sklearn  import model_selection, datasets, tree, metrics

# c.1 
#<code>


#</code>



# c.2
#<code>


#</code>



# c.3
#<code>


#</code>



# c.4
print("Total Nodes:",clf.tree_.node_count)
print(metrics.confusion_matrix(YTe, YTePred))
print(metrics.classification_report(YTe, YTePred))
pr_utils.plot_decision_boundary(clf, XTr, YTr)

### Probando otros Hiperparámetros

**d.1)** Repita el inciso anterior, pero esta vez especificando que sólo se ramificará si se verifica una disminución de la impureza de al menos `0.01`.

Compare los resultados respecto a la matriz de confusión, precisión, etc. y el tamaño del árbol construido.

In [None]:
# d.1
#<code>


#</code>

### Consideraciones finales.

Obviamente el experimento realizado es muy sencillo como para extraer conclusiones generalizables a otros problemas. No obstante, ¿considera que al entrenar un árbol de decisión es conveniente hacer que este crezca lo más posible para mejorar los resultados?