# Preparaci√≥n de Datos. Integrando Datos en Formato Heterog√©neo

La etapa de **Preparaci√≥n de Datos** es crucial para garantizar que los datos de entrada sean adecuados, relevantes y de alta calidad para entrenar modelos de aprendizaje autom√°tico que produzcan resultados precisos y √∫tiles.


En la actividad comenzaremos a preparar los datos para una tarea de [an√°lisis de emociones](https://en.wikipedia.org/wiki/Emotion_classification) parte del [IberLEF 2024 EmoSpeech](https://sites.google.com/view/iberlef-2024/tasks?authuser=0).

**Instrucciones:**

- siga las indicaciones y comentarios en cada apartado.

- incluya el c√≥digo requerido entre los apartados:
   - \#\<code>
   - \#\</code>

### Instalaci√≥n de librer√≠as e importaci√≥n de dependencias.

Para comenzar, es preciso instalar e incluir las librer√≠as necesarias. En este caso, el entorno de Colab incluye las necesarias.

Ejecute la siguiente casilla prestando atenci√≥n a las explicaciones dadas en los comentarios.

In [1]:
# reset environment
%reset -f

# para cargar datos y realizar pre-procesamiento b√°sico
import os
import fnmatch
from os.path import isfile, join
import json
import pandas as pd

print('Done!')

Done!


### Obteniendo los datos

Para construir un mejor modelo, se explorar√° la integraci√≥n de varios conjuntos de datos relacionados con el problema. Esto se describen a continuaci√≥n:

- **[EmoEvent](https://aclanthology.org/2020.lrec-1.186.pdf)**: tweets anotados con las 6 emociones b√°sicas de Ekman, adem√°s de 'neutral u otras'.

  Se tienen tres archivos, `2020-emoevent-train.json`, `2020-emoevent-test.json` y `2020-emoevent-dev.json`. Se utilizar√°n los tres para entrenar los modelos.

  **Importante:** ver [T√©rminos y Condiciones](https://huggingface.co/datasets/fmplaza/EmoEvent) de uso de los datos.


- **[TASS 2020 Task 2](http://tass.sepln.org/2020/#tasks)**: tweets anotados de forma similar a EmoEvent.

  En este caso se cuentan con dos archivos `2020-tass-train.tsv` y `2020-tass-dev.tsv`. Ambos se utilizar√°n para entrenar.


  **Importante:** ver [T√©rminos y Condiciones](https://huggingface.co/datasets/fmplaza/EmoEvent) de uso de los datos.


- **[IberLEF 2024 EmoSPeech](https://codalab.lisn.upsaclay.fr/competitions/17647)**: transcripciones de los audios de varios canales de YouTube. Se tiene un fichero `2024-emospeech.csv` con todos los datos disponibles.

  **Importante:** ver [T√©rminos y Condiciones](https://codalab.lisn.upsaclay.fr/competitions/17647#learn_the_details-terms_and_conditions) de uso de los datos.


A partir de los datos descritos se desea:

- Dividir los datos de entrenamiento de EmoSPeech en dos conjuntos, de entrenamiento y prueba con un 80% y un 20% de los datos respectivamente.

- Obtener un conjunto de entrenamiento a partir de todos los datos disponibles excepto la porci√≥n de prueba de EmoSPeech.

- Guardar los datos generados como CSV, incluyendo s√≥lo los campos `id`, `text`, `emotion`.

**Notar que**: Los datos originales se encuentran en formatos diferentes a los utilizados en la actividad. Esta modificaci√≥n se ha realizado con el objetivo abordar el problema de fuentes de datos heterog√©neas.

### Procesando EmoEvent

Comenzaremos convirtiendo los datos de EmoEvent a CSV. Para esto:

- iteraremos por cada archivo JSON. Aunque s√≥lo sean 3, esto nos permitir√° tener una soluci√≥n adaptable a casos donde tengamos m√°s archivos.

- de cada archivo, extraeremos los datos que necesitemos, renombrando las campos sin es necesario.

- finalmente convertiremos los datos a un dataframe de [Pandas](https://pandas.pydata.org/).

**Notar que:** aunque es posible leer los archivos utilizando Pandas, lo haremos con las utilidades para trabajo con JSON que ofrece Python.


Ejecute las siguientes casillas prestando atenci√≥n a las explicaciones dadas en los comentarios. Complete el c√≥digo cuando se solicite.

In [2]:
# obtener lista de todos los archivos json dentro de la carpeta data
inpath = './data'
jsons  = [join(inpath, f) for f in os.listdir(inpath) if isfile(join(inpath, f)) and fnmatch.fnmatchcase(f, '*.json')]
print(jsons)

['./data/2020-emoevent-dev.json', './data/2020-emoevent-test.json', './data/2020-emoevent-train.json']


**a)** Una vez obtenida la lista de archivos json, se procesar√° cada uno para extraer los datos necesarios.

La siguiente casilla contiene casi todo el c√≥digo necesario para esta tarea. Incluya el restante para:

**a.1)** leer el contenido de un archivo JSON.
<br><br/>
**a.2)** obtener id, emotion y tweet para cada registro. Cuide que estos valores queden almacenados en variables con nombre `id`, `emotion` y `tweet` respectivamente.


In [3]:
# iterar para cada archivo json, leerlo utilizando la librer√≠a JSON de Python

# lista para guardar los registros transformados, contendr√° el contenido de todos los JSON
registros = []
for jsf in jsons:
    # abrir archivo json
    with open(jsf, encoding='UTF8') as json_file:

        # a.1 leer contenido del archivo JSON
        #<code>


#</code>
        
        # iterar por cada registro (ver estructura del archivo), extrayendo s√≥lo campos relevantes
        for item in data['data']:

            # a.2 obtener id, emotion y tweet de cada registro.
#<code>


#</code>

            # guardar el registro en la lista
            registros.append((id, emotion, tweet))

print(f'Se han procesado {len(registros)} registros')
print(f'El primer registro es {registros[0]}')

Se han procesado 8223 registros
El primer registro es ('d23cfa8a-dad1-45b6-90eb-b786cd21e7d3', 'sadness', 'Ya que es el #DiaDelLibro hablemos de #cultura aunque sea lo m√≠nimo m√≠nimo m√≠nimo m√≠nimo üò≠üò≠ Gracias moderador ! #DebateDecisivo')


**b)** Los datos le√≠dos se encuentra dentro de una lista registros. Esta contiene tuplas cada una con 3 elementos `id`, `emotion` y `tweet`

En la siguiente casilla, incluya el c√≥digo necesario para:

**b.1)** crear un dataframe de Pandas a partir de la lista con los registros. Cuide que las columnas se llamen `id`, `emotion` y `content` y aparezcan en ese orden.


In [4]:
# una vez obtenidos los datos relevantes de cada registro, convertir a dataframe de Pandas

# b.1
#<code>


#</code>

# mostramos los primeros registros
df_emoevent.head()

Unnamed: 0,id,emotion,content
0,d23cfa8a-dad1-45b6-90eb-b786cd21e7d3,sadness,Ya que es el #DiaDelLibro hablemos de #cultura...
1,5192574e-af5e-4ccb-aa1d-b801a9395b7f,others,‚ôªÔ∏èNos arrepentiremos por no hacer nada porque ...
2,86a2042d-4964-4e07-a02b-aa2953a86ced,anger,El Sr Trump cree las mentiras que sus subordin...
3,067c0c3e-459e-4b36-8223-22d8ce7f9cd9,joy,Pues como es el #DiaDelLibro con sus rosas y s...
4,5243fe33-bcea-4300-8f2e-b79e63557673,others,"USER dice que #EEUU dispondr√° un ""embargo tot..."


### Procesando TASS 2020

**c)**: El siguiente paso es convertir los archivos del dataset TASS 2020 a dataframes de Pandas. En este caso nos auxiliaremos de la propia librer√≠a para obtener un dataframe por cada archivo TSV.

En la siguiente casilla, incluya el c√≥digo necesario para:

  **c.1)** crear un dataframe de Pandas a partir del archivo `2020-tass-train.csv`. El dataframe debe nombrarse `df_tass_tr`.


In [5]:
# leer 2020-tass-train.tsv

# c.1
#<code>


#</code>

# en este caso es muy  sencillo, Pandas permite leer directamente un archivo TSV!

# mostramos los primeros registros
df_tass_tr.head()

Unnamed: 0,id,tweet,label
0,1,El Atl√©tico resignado a perder HASHTAG üòî http...,sadness
1,2,Leer proporciona una mejor visi√≥n del mundo ü§ì ...,joy
2,3,Amo a Arya Stark por encima de todas las cosas...,joy
3,4,Gracias HASHTAG es incre√≠ble que una ni√±a logr...,others
4,5,Solo siento que hayamos perdido 24 esca√±os de ...,sadness


Proceda de forma similar al caso anterior, esta vez para obtener un dataframe a partir de `2020-tass-dev.csv`. Cuide que la variable se nombre `df_tass_de`.

  **c.2)** crear un dataframe de Pandas a partir del archivo `2020-tass-train.csv`. El dataframe debe nombrarse df_tass_tr.

In [6]:
# leer 2020-tass-dev.tsv

# c.2
#<code>


#</code>

# mostramos los primeros registros
df_tass_de.head()

Unnamed: 0,id,tweet,label
0,1,-Spoiler- Nadie ha tenido el dilema de tener q...,others
1,2,Yo solo quiero saber donde esta HASHTAG? HASHT...,others
2,3,"La literatura nos hace m√°s emp√°ticos, dispuest...",joy
3,4,"Para mi, estas son las 4 mejores escenas de es...",surprise
4,5,Lo que acabo de ver es puro oro. Historia de l...,joy


Como hemos visto, los nombres de las columnas no coinciden con lo deseado (`id`, `emotion`, `content`), ni se encuentran en el orden indicado.

Ejecute la siguiente casilla para renombrar las columnas.

In [7]:
# renombrar
df_tass_tr.rename(columns={'tweet':'content', 'label ':'emotion'}, inplace=True)
df_tass_de.rename(columns={'tweet':'content', 'label ':'emotion'}, inplace=True)


# reordenar
df_tass_tr = df_tass_tr.reindex(columns=['id', 'emotion', 'content' ])
df_tass_de = df_tass_de.reindex(columns=['id', 'emotion', 'content' ])

# mostrar primeros registros
df_tass_de.head()

Unnamed: 0,id,emotion,content
0,1,others,-Spoiler- Nadie ha tenido el dilema de tener q...
1,2,others,Yo solo quiero saber donde esta HASHTAG? HASHT...
2,3,joy,"La literatura nos hace m√°s emp√°ticos, dispuest..."
3,4,surprise,"Para mi, estas son las 4 mejores escenas de es..."
4,5,joy,Lo que acabo de ver es puro oro. Historia de l...


### Procesando IberLEF 2024 EmoSPeech
Por √∫ltimo, procesaremos el archivo CSV de este dataset para obtener las particiones indicadas (80% para entrenamiento y 20% para pruebas)

Ejecute la siguiente casilla para leer los datos en un dataframe y renombrar las columnas.

In [8]:
# leer 2024-emospeech.csv
df_emo = pd.read_csv('./data/2024-emospeech.csv')

# renombramos las columnas
df_emo.rename(columns={'transcription':'content', 'label':'emotion'}, inplace=True)

# mostrar los primeros registros
df_emo.head()

Unnamed: 0,id,emotion,content
0,9591e23d-70123687.mp3,anger,Pedimos que se tiren de las orejas a quien las...
1,51057a09-6011210b.mp3,joy,Acertamos cuando estamos unidos. Unidos las in...
2,ad44e4d0-6f134610.mp3,neutral,"Al final no hay fronteras, estamos hablando de..."
3,baf9aa6b-c1afd717.mp3,neutral,"Luc√≠a, a partir de ahora cada comunidad improv..."
4,a21b649b-01bb1ea5.mp3,disgust,"Dicho de otra forma, el partido que tej√≠a un c..."


**d)** Una vez le√≠dos los datos, es necesario crear dos particiones seg√∫n se ha indicado. Se utilizar√° la funci√≥n `train_test_split` disponible en la librer√≠a [scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

En la siguiente casilla, incluya el c√≥digo necesario para:

  **d.1)** utilizar la funci√≥n `train_test_split` para particionar el dataframe df_emo en dos dataframes seg√∫n la proporci√≥n indicada. Cuide que tengan como nombre `df_emo_tr` y `df_emo_te` respectivamente.

In [9]:
from sklearn.model_selection import train_test_split

# d.1
#<code>


#</code>

# imprimimos algunas estad√≠sticas
print(f'Partici√≥n entrenamiento: {df_emo_tr.shape[0]} instancias.')
print(f'Partici√≥n de prueba: {df_emo_te.shape[0]} instancias.')

Partici√≥n entrenamiento: 2400 instancias.
Partici√≥n de prueba: 600 instancias.


### Creando conjunto de datos solicitados.

Por √∫ltimo, uniremos los dataframe con los que se crear√°n los conjuntos de:

- **entrenamiento extendido**: datos de EmoEvent, TASS y partici√≥n de entrenamiento de EmoSPeech.

- **entrenamiento**: porci√≥n de entramiento de EmoSPeech.

- **prueba**: partici√≥n de pruebas de EmoSPeech.

Ejecute la siguiente casilla para unir los dataframes.

In [10]:
# para crear el conjunto de entrenamiento extendido, mezclamos los dataframe correspondiente a cada conjunto
df_tr_ext = pd.concat([df_emoevent, df_tass_tr, df_tass_de, df_emo_tr])


# el conjunto de prueba ser√° df_emo_te
df_te = df_emo_te

# el conjunto de entrenamiento no extendido ser√° df_emo_tr
df_tr = df_emo_tr


# imprimimos algunas estad√≠sticas
print(f'EmoEvent: {df_emoevent.shape[0]} instancias.')
print(f'TASS Train: {df_tass_tr.shape[0]} instancias.')
print(f'TASS Development: {df_tass_de.shape[0]} instancias.')
print(f'EmoSPeech Entrenamiento: {df_emo_tr.shape[0]} instancias.')
print('=========================================')
print(f'Entrenamiento: {df_tr_ext.shape[0]} instancias.')

EmoEvent: 8223 instancias.
TASS Train: 5886 instancias.
TASS Development: 857 instancias.
EmoSPeech Entrenamiento: 2400 instancias.
Entrenamiento: 17366 instancias.


**e)** Por √∫ltimo, guardaremos los dos dataframes creados.

En la siguiente casilla, incluya el c√≥digo necesario para:

  **e.1)** guardar los datos de entrenamiento extendidos en un archivo CSV con nombre `2024-emospeech-train-ext.csv`. 

  **e.2)** guardar los datos de prueba en un archivo CSV con nombre `2024-emospeech-test.csv`. 

  **e.3)** guardar los datos de entranamiento de EmoSPeech en un archivo CSV con nombre `2024-emospeech-train.csv`. 

In [11]:

# e.1
#<code>


#</code>

# e.2
#<code>


#</code>


# e.3
#<code>


#</code>

### **Finalizada la actividad, habremos obtenido los conjuntos de entrenamiento y prueba con los que comenzaremos a resolver el problema.**

Podemos consultar algunas estad√≠sticas b√°sicas utilizando las propias funcionalidades de Colab y Pandas.