From 30ffe9bc12d9d0187128e1cefed0321defcc616b Mon Sep 17 00:00:00 2001 From: jmuquinche Date: Sun, 27 Jul 2025 03:21:15 -0500 Subject: [PATCH 1/4] Cambios realizados --- lessons/02_bag_of_words.ipynb | 1069 +++++++++++++++++++++++++-------- 1 file changed, 820 insertions(+), 249 deletions(-) diff --git a/lessons/02_bag_of_words.ipynb b/lessons/02_bag_of_words.ipynb index cbc9046..ab7d4ef 100644 --- a/lessons/02_bag_of_words.ipynb +++ b/lessons/02_bag_of_words.ipynb @@ -48,7 +48,7 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 152, "id": "9e4a3a0d-66f4-44e5-8dd6-5f441146014d", "metadata": { "scrolled": true, @@ -60,9 +60,17 @@ "# %pip install scikit-learn" ] }, + { + "cell_type": "markdown", + "id": "4d338823", + "metadata": {}, + "source": [ + "Se sugiere instalar el paquete scikit-learn" + ] + }, { "cell_type": "code", - "execution_count": null, + "execution_count": 153, "id": "21ed437f-9767-43b7-abc5-159aa4339a31", "metadata": {}, "outputs": [], @@ -73,9 +81,17 @@ "# !python -m spacy download en_core_web_sm" ] }, + { + "cell_type": "markdown", + "id": "aa02d204", + "metadata": {}, + "source": [ + "Se sugiere instalar las bibliotecas necesarias para procesamiento" + ] + }, { "cell_type": "code", - "execution_count": 1, + "execution_count": 154, "id": "f3862ffd-918f-4184-8c90-8a39a8a2a069", "metadata": {}, "outputs": [], @@ -87,9 +103,18 @@ "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "from string import punctuation\n", + "from sklearn.feature_extraction.text import TfidfVectorizer\n", "%matplotlib inline" ] }, + { + "cell_type": "markdown", + "id": "2798d7be", + "metadata": {}, + "source": [ + "Aqui se añadió la linea from sklearn.feature_extraction.text import TfidfVectorizer" + ] + }, { "cell_type": "markdown", "id": "852ea4a5-7c28-4557-acdd-afe8a97b7235", @@ -104,7 +129,7 @@ }, { "cell_type": "code", - "execution_count": 2, + "execution_count": 155, "id": "4190e351-97b7-4c5b-866e-07aa6cbd42c2", "metadata": {}, "outputs": [], @@ -114,9 +139,17 @@ "tweets = pd.read_csv(tweets_path, sep=',')" ] }, + { + "cell_type": "markdown", + "id": "e5c28444", + "metadata": {}, + "source": [ + "Este bloque de código carga un archivo CSV que contiene datos de tweets sobre aerolíneas y lo guarda en una tabla llamada tweets. Usa la librería pandas para leer el archivo desde una carpeta cercana y deja los datos listos para analizarlos o procesarlos dentro del programa." + ] + }, { "cell_type": "code", - "execution_count": 3, + "execution_count": 156, "id": "79acbaf2-6625-4abb-b50f-97ea54ba0d11", "metadata": {}, "outputs": [ @@ -290,7 +323,7 @@ "4 2015-02-24 11:14:45 -0800 NaN Pacific Time (US & Canada) " ] }, - "execution_count": 3, + "execution_count": 156, "metadata": {}, "output_type": "execute_result" } @@ -299,6 +332,14 @@ "tweets.head()" ] }, + { + "cell_type": "markdown", + "id": "ca589092", + "metadata": {}, + "source": [ + "tweets.head() muestra las primeras cinco filas del DataFrame tweets, lo que te permite ver una vista rápida de los datos para entender su contenido y estructura inicial." + ] + }, { "cell_type": "markdown", "id": "80232c78-ac41-4d74-a581-76c9dac3b8f6", @@ -316,7 +357,7 @@ }, { "cell_type": "code", - "execution_count": 4, + "execution_count": 157, "id": "a1faaf90-8c01-4d25-9468-90c01823f0d5", "metadata": {}, "outputs": [], @@ -324,6 +365,14 @@ "tweets = tweets[tweets['airline_sentiment'] != 'neutral'].reset_index(drop=True)" ] }, + { + "cell_type": "markdown", + "id": "33d67fe0", + "metadata": {}, + "source": [ + "La línea filtra los tweets para quitar los neutrales y actualiza el índice para que sea consecutivo.\n" + ] + }, { "cell_type": "markdown", "id": "7cb6b039-53e7-4afe-a9e0-b3522c12b2d7", @@ -334,7 +383,7 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": 158, "id": "438830e6-1064-47fe-b578-a1ca693a0ed0", "metadata": {}, "outputs": [ @@ -357,6 +406,14 @@ " print(tweets['text'].iloc[idx])" ] }, + { + "cell_type": "markdown", + "id": "de0bd4b3", + "metadata": {}, + "source": [ + "Ese código imprime los textos de los primeros cinco tweets del DataFrame tweets, mostrando uno por uno en la consola." + ] + }, { "cell_type": "markdown", "id": "0d6746f8-b29c-40d4-bef6-b4afd4cd6cc1", @@ -369,13 +426,13 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 159, "id": "01955158-6954-447a-acb6-2989d02a49c3", "metadata": {}, "outputs": [ { "data": { - "image/png": "", + "image/png": "", "text/plain": [ "
" ] @@ -392,6 +449,14 @@ " order=['positive', 'negative']);" ] }, + { + "cell_type": "markdown", + "id": "5d76a9a7", + "metadata": {}, + "source": [ + "Este fragmento de código crea un gráfico de barras que muestra la cantidad de tweets con sentimientos positivos y negativos en el DataFrame tweets. Usa la librería seaborn para contar cuántos tweets hay en cada categoría (positive y negative), pinta las barras de color azul (cornflowerblue) y las ordena primero los positivos y luego los negativos." + ] + }, { "cell_type": "markdown", "id": "eab45abf-adf4-4f5e-ae09-75f6c4fd50d1", @@ -404,7 +469,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": 160, "id": "428ddde7-af73-4eb6-92c9-041a1791ca59", "metadata": {}, "outputs": [ @@ -417,7 +482,7 @@ "Name: retweet_count, dtype: float64" ] }, - "execution_count": 7, + "execution_count": 160, "metadata": {}, "output_type": "execute_result" } @@ -427,6 +492,14 @@ "tweets.groupby('airline_sentiment')['retweet_count'].mean()" ] }, + { + "cell_type": "markdown", + "id": "c5a26928", + "metadata": {}, + "source": [ + "Calcula el promedio de retweets para cada sentimiento en los tweets." + ] + }, { "cell_type": "markdown", "id": "0d31f3bc-257c-48a8-86a0-fd0d7c3e8cb3", @@ -439,7 +512,7 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": 161, "id": "12aa9f2d-d655-494a-bb72-08ad973518f3", "metadata": {}, "outputs": [ @@ -519,7 +592,7 @@ "Virgin America 0.543544 0.456456" ] }, - "execution_count": 8, + "execution_count": 161, "metadata": {}, "output_type": "execute_result" } @@ -530,6 +603,14 @@ "proportions.unstack().sort_values('negative', ascending=False)" ] }, + { + "cell_type": "markdown", + "id": "22574bfb", + "metadata": {}, + "source": [ + "Este código calcula qué proporción de tweets de cada aerolínea son negativos y luego ordena las aerolíneas de mayor a menor según ese porcentaje, para ver cuál tiene más quejas." + ] + }, { "cell_type": "markdown", "id": "7042419e-9c41-40e7-8dbf-47bd1e2ad45a", @@ -581,7 +662,7 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 162, "id": "21738b02-9ab9-4a61-b41f-ff75888aa747", "metadata": { "tags": [] @@ -591,9 +672,17 @@ "from utils import placeholder" ] }, + { + "cell_type": "markdown", + "id": "a1375a7a", + "metadata": {}, + "source": [ + "Importa la función o variable placeholder desde el archivo utils para usarla en el código." + ] + }, { "cell_type": "code", - "execution_count": null, + "execution_count": 163, "id": "03569f0d-34ba-492d-aa1d-1dce9d34f792", "metadata": {}, "outputs": [], @@ -605,20 +694,28 @@ " '''Create a preprocess pipeline that cleans the tweet data.'''\n", " \n", " # Step 1: Lowercase\n", - " text = ...\n", + " text = text.lower()\n", "\n", " # Step 2: Replace patterns with placeholders\n", - " text = ...\n", + " text = placeholder(text)\n", "\n", " # Step 3: Remove extra whitespace characters\n", - " text = ...\n", + " text = text.strip()\n", "\n", " return text" ] }, + { + "cell_type": "markdown", + "id": "b3b44007", + "metadata": {}, + "source": [ + "Este fragmento de código define una función llamada preprocess que limpia un texto de tweet haciendo tres cosas: convierte todo a minúsculas, reemplaza ciertos patrones usando una función llamada placeholder, y elimina espacios extras al principio y final del texto. //En este fragmento de código se modifico" + ] + }, { "cell_type": "code", - "execution_count": 11, + "execution_count": 164, "id": "8990cefd-5d04-46ba-ada2-29978c28cfe8", "metadata": {}, "outputs": [ @@ -628,7 +725,7 @@ "text": [ "lol @justinbeiber and @BillGates are like soo 2000 #yesterday #amiright saw it on https://twitter.com #yolo\n", "==================================================\n", - "lol USER and USER are like soo DIGIT HASHTAG HASHTAG saw it on URL HASHTAG\n" + "lol USER and USER are like soo DIGIT HASHTAG HASHTAG saw it on URL HASHTAG\n" ] } ], @@ -643,9 +740,17 @@ "print(preprocess(example_tweet))" ] }, + { + "cell_type": "markdown", + "id": "26fa36ba", + "metadata": {}, + "source": [ + "Este fragmento de código crea un ejemplo de tweet, lo imprime tal cual, imprime una línea separadora de “=”, y luego imprime ese mismo tweet después de pasar por la función preprocess para mostrar cómo queda limpio y procesado." + ] + }, { "cell_type": "code", - "execution_count": 12, + "execution_count": 165, "id": "a5f7bb6a-f064-48cc-b650-12c4ef2fbb88", "metadata": { "scrolled": true @@ -654,15 +759,15 @@ { "data": { "text/plain": [ - "0 USER plus you've added commercials to the expe...\n", - "1 USER it's really aggressive to blast obnoxious...\n", - "2 USER and it's a really big bad thing about it\n", - "3 USER seriously would pay $ DIGIT a flight for ...\n", - "4 USER yes, nearly every time i fly vx this “ear...\n", + "0 USER plus you've added commercials to the exp...\n", + "1 USER it's really aggressive to blast obnoxiou...\n", + "2 USER and it's a really big bad thing about it\n", + "3 USER seriously would pay $ DIGIT a flight fo...\n", + "4 USER yes, nearly every time i fly vx this “ea...\n", "Name: text_processed, dtype: object" ] }, - "execution_count": 12, + "execution_count": 165, "metadata": {}, "output_type": "execute_result" } @@ -673,6 +778,14 @@ "tweets['text_processed'].head()" ] }, + { + "cell_type": "markdown", + "id": "1c179fa5", + "metadata": {}, + "source": [ + "Este código aplica la función preprocess a cada texto de la columna 'text' del DataFrame tweets, guarda el resultado en una nueva columna llamada 'text_processed', y luego muestra las primeras cinco filas de esa nueva columna." + ] + }, { "cell_type": "markdown", "id": "1576acc6-b305-492a-8fde-65b343cb779c", @@ -730,7 +843,7 @@ }, { "cell_type": "code", - "execution_count": 13, + "execution_count": 166, "id": "cd2adf56-ba93-459d-8cfa-16ce8dc9284b", "metadata": {}, "outputs": [], @@ -738,6 +851,14 @@ "from sklearn.feature_extraction.text import CountVectorizer" ] }, + { + "cell_type": "markdown", + "id": "5d87d7fc", + "metadata": {}, + "source": [ + "Ese fragmento importa la clase CountVectorizer de la biblioteca scikit-learn, que se usa para convertir texto en una matriz de conteos de palabras, facilitando el análisis de texto." + ] + }, { "cell_type": "markdown", "id": "4989781d-6b40-417a-be70-eeba05cd8a50", @@ -760,7 +881,7 @@ }, { "cell_type": "code", - "execution_count": 14, + "execution_count": 167, "id": "4da2bd3d-0460-4b5f-9b9e-02940db0d7ca", "metadata": {}, "outputs": [], @@ -772,6 +893,14 @@ " 'coffee time']" ] }, + { + "cell_type": "markdown", + "id": "4492aaa6", + "metadata": {}, + "source": [ + "Este código crea una lista llamada test que contiene cuatro textos cortos (documentos), que luego se pueden usar como ejemplo para procesar o analizar texto." + ] + }, { "cell_type": "markdown", "id": "dff7c1d3-fcee-4e20-b9a7-17306ebd5fc2", @@ -784,7 +913,7 @@ }, { "cell_type": "code", - "execution_count": 15, + "execution_count": 168, "id": "9de3fe6a-9abf-4e11-aad1-e54c891567bb", "metadata": {}, "outputs": [], @@ -793,6 +922,14 @@ "vectorizer = CountVectorizer()" ] }, + { + "cell_type": "markdown", + "id": "99ee6cf8", + "metadata": {}, + "source": [ + "Este código crea un objeto CountVectorizer, que se usa para transformar texto en una matriz que cuenta cuántas veces aparece cada palabra en un conjunto de documentos." + ] + }, { "cell_type": "markdown", "id": "1b5a7d0d-0bfc-4fb9-8e5f-e91e39797fb5", @@ -805,7 +942,7 @@ }, { "cell_type": "code", - "execution_count": 16, + "execution_count": 169, "id": "da1bbad4-bb1a-4b92-9096-6e17558b4a42", "metadata": {}, "outputs": [], @@ -814,6 +951,14 @@ "test_count = vectorizer.fit_transform(test)" ] }, + { + "cell_type": "markdown", + "id": "e0af3678", + "metadata": {}, + "source": [ + "Este código toma la lista de textos test, ajusta el CountVectorizer a esos datos y los transforma en una matriz donde se cuentan las palabras de cada texto, creando así una matriz de términos (DTM)." + ] + }, { "cell_type": "markdown", "id": "324d3b65-4e98-48bf-87d2-399457f4939c", @@ -826,18 +971,18 @@ }, { "cell_type": "code", - "execution_count": 17, + "execution_count": 170, "id": "cb044001-8eb2-4489-b025-2d8e2d4bfee2", "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "<4x8 sparse matrix of type ''\n", - "\twith 9 stored elements in Compressed Sparse Row format>" + "" ] }, - "execution_count": 17, + "execution_count": 170, "metadata": {}, "output_type": "execute_result" } @@ -846,6 +991,14 @@ "test_count" ] }, + { + "cell_type": "markdown", + "id": "85c8890a", + "metadata": {}, + "source": [ + "test_count es una matriz que contiene el conteo de palabras para cada texto de la lista test. Cada fila representa un texto y cada columna una palabra, mostrando cuántas veces aparece cada palabra en cada texto." + ] + }, { "cell_type": "markdown", "id": "f9817b09-a806-42c4-9436-822cc27a38b9", @@ -858,7 +1011,7 @@ }, { "cell_type": "code", - "execution_count": 18, + "execution_count": 171, "id": "bb03a238-87d8-40c9-b20e-66e7c9b6576b", "metadata": {}, "outputs": [ @@ -871,7 +1024,7 @@ " [0, 1, 0, 0, 0, 0, 0, 1]])" ] }, - "execution_count": 18, + "execution_count": 171, "metadata": {}, "output_type": "execute_result" } @@ -881,6 +1034,14 @@ "test_count.todense()" ] }, + { + "cell_type": "markdown", + "id": "738cae5a", + "metadata": {}, + "source": [ + "Ese código convierte la matriz dispersa test_count (que almacena los conteos de palabras de forma eficiente) en una matriz densa completa, mostrando todos los valores explícitamente, incluidos los ceros." + ] + }, { "cell_type": "markdown", "id": "28b58a63-d7f6-4b9f-aadf-4d4fc7341336", @@ -891,7 +1052,7 @@ }, { "cell_type": "code", - "execution_count": 19, + "execution_count": 172, "id": "714de5d3-e37d-4a19-9ade-3c6629e38d4e", "metadata": {}, "outputs": [ @@ -902,7 +1063,7 @@ " 'time'], dtype=object)" ] }, - "execution_count": 19, + "execution_count": 172, "metadata": {}, "output_type": "execute_result" } @@ -912,9 +1073,17 @@ "vectorizer.get_feature_names_out()" ] }, + { + "cell_type": "markdown", + "id": "ccf72d76", + "metadata": {}, + "source": [ + "Este código obtiene una lista con todas las palabras (términos) que el CountVectorizer encontró y usó para crear la matriz de conteos." + ] + }, { "cell_type": "code", - "execution_count": 20, + "execution_count": 173, "id": "6a7729a2-ca2e-4de7-8795-74dfedb7a4d5", "metadata": {}, "outputs": [], @@ -924,6 +1093,14 @@ " columns=vectorizer.get_feature_names_out())" ] }, + { + "cell_type": "markdown", + "id": "a03a4e9b", + "metadata": {}, + "source": [ + "Este código convierte la matriz de conteos de palabras (test_count) en una tabla (DataFrame) de pandas, usando las palabras como nombres de columnas, para facilitar la visualización y análisis de los datos." + ] + }, { "cell_type": "markdown", "id": "781da407-f394-40f2-9d45-1fac39f02047", @@ -934,7 +1111,7 @@ }, { "cell_type": "code", - "execution_count": 21, + "execution_count": 174, "id": "e41dd243-cd2e-43c3-80f8-5eaab6e64210", "metadata": {}, "outputs": [ @@ -1026,7 +1203,7 @@ "3 0 1 0 0 0 0 0 1" ] }, - "execution_count": 21, + "execution_count": 174, "metadata": {}, "output_type": "execute_result" } @@ -1035,6 +1212,14 @@ "test_dtm" ] }, + { + "cell_type": "markdown", + "id": "8dc28b51", + "metadata": {}, + "source": [ + "test_dtm guarda y muestra la tabla con los conteos de palabras para cada texto." + ] + }, { "cell_type": "markdown", "id": "d59a03b4-94fa-4fe7-8f5d-7280e31b9bc4", @@ -1053,7 +1238,7 @@ }, { "cell_type": "code", - "execution_count": 22, + "execution_count": 175, "id": "783e44a4-4a22-4290-b222-282b02c080dc", "metadata": {}, "outputs": [], @@ -1066,9 +1251,17 @@ " max_features=None)" ] }, + { + "cell_type": "markdown", + "id": "2ad12bc9", + "metadata": {}, + "source": [ + "Este código crea un objeto CountVectorizer que convierte texto a minúsculas y cuenta todas las palabras sin eliminar ninguna, incluyendo todas las que aparecen al menos en un documento y sin límite en la cantidad de palabras." + ] + }, { "cell_type": "code", - "execution_count": 23, + "execution_count": 176, "id": "f85e76ea-bc54-4775-bcda-432a03d2c96f", "metadata": { "scrolled": true @@ -1077,24 +1270,33 @@ { "data": { "text/plain": [ - "<11541x8751 sparse matrix of type ''\n", - "\twith 191139 stored elements in Compressed Sparse Row format>" + "" ] }, - "execution_count": 23, + "execution_count": 176, "metadata": {}, "output_type": "execute_result" } ], "source": [ + "\n", "# Fit and transform to create DTM\n", "counts = vectorizer.fit_transform(tweets['text_processed'])\n", "counts" ] }, + { + "cell_type": "markdown", + "id": "1085cde8", + "metadata": {}, + "source": [ + "Este código ajusta el CountVectorizer al texto procesado de los tweets y lo transforma en una matriz que cuenta cuántas veces aparece cada palabra en cada tweet, creando así una matriz de términos (DTM). Luego muestra esa matriz." + ] + }, { "cell_type": "code", - "execution_count": 24, + "execution_count": 177, "id": "87119057-c78c-4eb2-a9d6-3e9f44e4c22b", "metadata": {}, "outputs": [ @@ -1107,10 +1309,10 @@ " ...,\n", " [0, 0, 0, ..., 0, 0, 0],\n", " [0, 0, 0, ..., 0, 0, 0],\n", - " [0, 0, 0, ..., 0, 0, 0]])" + " [0, 0, 0, ..., 0, 0, 0]], shape=(11541, 8751))" ] }, - "execution_count": 24, + "execution_count": 177, "metadata": {}, "output_type": "execute_result" } @@ -1120,9 +1322,17 @@ "np.array(counts.todense())" ] }, + { + "cell_type": "markdown", + "id": "8b7d4161", + "metadata": {}, + "source": [ + "Ese código convierte la matriz dispersa counts (que guarda los conteos de palabras de forma eficiente) en una matriz densa de NumPy, donde todos los valores, incluidos los ceros, se almacenan explícitamente en memoria. Se advierte no usarlo si la memoria es limitada porque puede consumir mucho espacio." + ] + }, { "cell_type": "code", - "execution_count": 25, + "execution_count": 178, "id": "99322b85-1a15-46a5-bb80-bb5eaa6eeb7b", "metadata": {}, "outputs": [], @@ -1131,9 +1341,17 @@ "tokens = vectorizer.get_feature_names_out()" ] }, + { + "cell_type": "markdown", + "id": "52c97206", + "metadata": {}, + "source": [ + "Este código extrae y guarda en tokens la lista de palabras (términos) que el CountVectorizer identificó y usó para crear la matriz de conteos." + ] + }, { "cell_type": "code", - "execution_count": 26, + "execution_count": 179, "id": "43620587-3795-4434-8f1f-145c81b93706", "metadata": {}, "outputs": [ @@ -1155,6 +1373,14 @@ "print(first_dtm.shape)" ] }, + { + "cell_type": "markdown", + "id": "b7822b96", + "metadata": {}, + "source": [ + "Este código crea un DataFrame llamado first_dtm que contiene la matriz de términos con los conteos de palabras para cada tweet, usando los índices originales de los tweets y las palabras como columnas. Luego imprime las dimensiones de esa tabla (número de filas y columnas)." + ] + }, { "cell_type": "markdown", "id": "2dd257d5-4244-436c-afe7-5688232caf8f", @@ -1165,7 +1391,7 @@ }, { "cell_type": "code", - "execution_count": 27, + "execution_count": 180, "id": "bb3604ec-d909-4238-9a3f-67e7d4ae2ac5", "metadata": {}, "outputs": [ @@ -1357,7 +1583,7 @@ "[5 rows x 8751 columns]" ] }, - "execution_count": 27, + "execution_count": 180, "metadata": {}, "output_type": "execute_result" } @@ -1366,6 +1592,14 @@ "first_dtm.head()" ] }, + { + "cell_type": "markdown", + "id": "cc954b57", + "metadata": {}, + "source": [ + "first_dtm.head() muestra las primeras cinco filas del DataFrame first_dtm, para que puedas ver un resumen inicial de la matriz de conteos de palabras." + ] + }, { "cell_type": "markdown", "id": "095d34e2-52f8-4419-b4c7-ed20dbd5df89", @@ -1378,7 +1612,7 @@ }, { "cell_type": "code", - "execution_count": 28, + "execution_count": 181, "id": "f432154a-eae0-4723-a797-55f3cfdd71c4", "metadata": {}, "outputs": [ @@ -1398,7 +1632,7 @@ "dtype: int64" ] }, - "execution_count": 28, + "execution_count": 181, "metadata": {}, "output_type": "execute_result" } @@ -1408,29 +1642,37 @@ "first_dtm.sum().sort_values(ascending=False).head(10)" ] }, + { + "cell_type": "markdown", + "id": "28e85a62", + "metadata": {}, + "source": [ + "Este código suma la cantidad total de cada palabra en todos los tweets, ordena esas sumas de mayor a menor, y muestra las 10 palabras más frecuentes." + ] + }, { "cell_type": "code", - "execution_count": 29, + "execution_count": 182, "id": "26c7f1c9-dd66-49f2-b337-01253da551d2", "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "_exact_ 1\n", - "mightmismybrosgraduation 1\n", - "midterm 1\n", - "midnite 1\n", - "midland 1\n", - "michelle 1\n", - "michele 1\n", - "michael 1\n", - "mhtt 1\n", - "mgmt 1\n", + "abilities 1\n", + "aboout 1\n", + "abounds 1\n", + "abroad 1\n", + "absorb 1\n", + "absorber 1\n", + "absurdity 1\n", + "abundance 1\n", + "invitational 1\n", + "invite 1\n", "dtype: int64" ] }, - "execution_count": 29, + "execution_count": 182, "metadata": {}, "output_type": "execute_result" } @@ -1440,6 +1682,14 @@ "first_dtm.sum().sort_values(ascending=True).head(10)" ] }, + { + "cell_type": "markdown", + "id": "5120937c", + "metadata": {}, + "source": [ + "Este código suma la cantidad total de cada palabra en todos los tweets, las ordena de menor a mayor, y muestra las 10 palabras menos frecuentes." + ] + }, { "cell_type": "markdown", "id": "5d230f79-e752-4e32-93db-4f013287f8e2", @@ -1452,7 +1702,7 @@ }, { "cell_type": "code", - "execution_count": 30, + "execution_count": 183, "id": "efb8f4d8-4c88-4155-a6c5-c72a5b4e8bb8", "metadata": {}, "outputs": [ @@ -1493,12 +1743,12 @@ " 6\n", " \n", " \n", - " 10572\n", + " 557\n", " to\n", " 5\n", " \n", " \n", - " 8148\n", + " 10923\n", " the\n", " 5\n", " \n", @@ -1508,27 +1758,27 @@ " 5\n", " \n", " \n", - " 152\n", + " 11007\n", " to\n", " 5\n", " \n", " \n", - " 5005\n", + " 355\n", " to\n", " 5\n", " \n", " \n", - " 10923\n", - " the\n", + " 10572\n", + " to\n", " 5\n", " \n", " \n", - " 7750\n", - " to\n", + " 3126\n", + " lt\n", " 5\n", " \n", " \n", - " 355\n", + " 152\n", " to\n", " 5\n", " \n", @@ -1540,17 +1790,17 @@ " token number\n", "3127 lt 6\n", "918 worst 6\n", - "10572 to 5\n", - "8148 the 5\n", - "10742 to 5\n", - "152 to 5\n", - "5005 to 5\n", + "557 to 5\n", "10923 the 5\n", - "7750 to 5\n", - "355 to 5" + "10742 to 5\n", + "11007 to 5\n", + "355 to 5\n", + "10572 to 5\n", + "3126 lt 5\n", + "152 to 5" ] }, - "execution_count": 30, + "execution_count": 183, "metadata": {}, "output_type": "execute_result" } @@ -1570,6 +1820,14 @@ " & (counts['token']!='user')].sort_values('number', ascending=False).head(10)" ] }, + { + "cell_type": "markdown", + "id": "e18a3948", + "metadata": {}, + "source": [ + "Este código crea un DataFrame counts donde, para cada tweet, guarda la palabra que aparece más veces (token) y cuántas veces aparece esa palabra (number). Luego, filtra para eliminar palabras genéricas como \"digit\", \"hashtag\" y \"user\", y finalmente muestra los 10 tweets donde la palabra más frecuente aparece con mayor cantidad." + ] + }, { "cell_type": "markdown", "id": "7cdac4ef-6b9d-4aad-9b24-c70f6c2eb8f0", @@ -1582,7 +1840,7 @@ }, { "cell_type": "code", - "execution_count": 31, + "execution_count": 184, "id": "5e7cacd8-1fb3-4f0d-a744-4ee0994a089f", "metadata": {}, "outputs": [ @@ -1592,7 +1850,7 @@ "\"@united is the worst. Worst reservation policies. Worst costumer service. Worst worst worst. Congrats, @Delta you're not that bad!\"" ] }, - "execution_count": 31, + "execution_count": 184, "metadata": {}, "output_type": "execute_result" } @@ -1602,6 +1860,14 @@ "tweets.iloc[918]['text']" ] }, + { + "cell_type": "markdown", + "id": "b041dd04", + "metadata": {}, + "source": [ + "Este código accede al tweet número 918 (según el índice del DataFrame tweets) y muestra el contenido de su columna 'text', es decir, el texto original de ese tweet." + ] + }, { "cell_type": "markdown", "id": "3dba8e37-4880-4565-b6fc-7e7c96958f0f", @@ -1622,7 +1888,7 @@ }, { "cell_type": "code", - "execution_count": 32, + "execution_count": 185, "id": "37a0a93e-9dd8-43dc-a82c-06a24bf02bc9", "metadata": {}, "outputs": [], @@ -1635,9 +1901,17 @@ " max_features=None)" ] }, + { + "cell_type": "markdown", + "id": "4b0f87a7", + "metadata": {}, + "source": [ + "Este código crea un CountVectorizer con ajustes que limpian y filtran el texto: convierte todo a minúsculas, elimina palabras comunes en inglés, descarta las que aparecen en muy pocos o en casi todos los tweets, y se enfoca solo en las palabras más útiles para el análisis." + ] + }, { "cell_type": "code", - "execution_count": 33, + "execution_count": 186, "id": "b53e5ecf-7be3-4915-9d11-fd3edb913400", "metadata": {}, "outputs": [], @@ -1652,6 +1926,14 @@ " columns=tokens)" ] }, + { + "cell_type": "markdown", + "id": "46fe75b4", + "metadata": {}, + "source": [ + "Este código transforma los tweets ya procesados en una nueva matriz de conteos de palabras (DTM) usando el CountVectorizer con configuraciones personalizadas. Luego, crea un DataFrame llamado second_dtm que contiene esa matriz, con los tweets como filas y las palabras como columnas." + ] + }, { "cell_type": "markdown", "id": "6d2e66bc-2eaa-4642-8848-74459948084b", @@ -1662,7 +1944,7 @@ }, { "cell_type": "code", - "execution_count": 34, + "execution_count": 187, "id": "570fb598-fa81-4111-9e36-7172d8034713", "metadata": {}, "outputs": [ @@ -1680,9 +1962,17 @@ "print(second_dtm.shape)" ] }, + { + "cell_type": "markdown", + "id": "faa97d69", + "metadata": {}, + "source": [ + "Este código imprime las dimensiones (número de filas y columnas) de las dos matrices de términos (first_dtm y second_dtm), permitiendo comparar cuántos tweets y palabras contiene cada una." + ] + }, { "cell_type": "code", - "execution_count": 35, + "execution_count": 188, "id": "d8deabb2-20eb-4047-b592-48cb1564fd2a", "metadata": {}, "outputs": [ @@ -1874,7 +2164,7 @@ "[5 rows x 4471 columns]" ] }, - "execution_count": 35, + "execution_count": 188, "metadata": {}, "output_type": "execute_result" } @@ -1883,6 +2173,14 @@ "second_dtm.head()" ] }, + { + "cell_type": "markdown", + "id": "bf0490ad", + "metadata": {}, + "source": [ + "El código second_dtm.head() muestra las primeras cinco filas del DataFrame second_dtm, para visualizar un resumen inicial de los conteos de palabras por tweet después del procesamiento del texto." + ] + }, { "cell_type": "markdown", "id": "998fe2c3-ec90-4027-8c7f-417327a33a27", @@ -1893,7 +2191,7 @@ }, { "cell_type": "code", - "execution_count": 36, + "execution_count": 189, "id": "ffa7bf4e-640b-49bc-b64b-721140f67f76", "metadata": {}, "outputs": [ @@ -1913,7 +2211,7 @@ "dtype: int64" ] }, - "execution_count": 36, + "execution_count": 189, "metadata": {}, "output_type": "execute_result" } @@ -1922,6 +2220,14 @@ "second_dtm.sum().sort_values(ascending=False).head(10)" ] }, + { + "cell_type": "markdown", + "id": "b7dd1f24", + "metadata": {}, + "source": [ + "Este código suma cuántas veces aparece cada palabra en todos los tweets, ordena esas palabras de mayor a menor frecuencia y muestra las 10 más usadas en el DataFrame second_" + ] + }, { "cell_type": "markdown", "id": "3e8b5145-d505-4e36-9a39-a40d25d8ec6f", @@ -1945,7 +2251,7 @@ }, { "cell_type": "code", - "execution_count": 37, + "execution_count": 190, "id": "da610560-62c3-48ab-a1b2-25e0b589bc61", "metadata": {}, "outputs": [], @@ -1955,9 +2261,17 @@ "nlp = spacy.load('en_core_web_sm')" ] }, + { + "cell_type": "markdown", + "id": "4aed19fd", + "metadata": {}, + "source": [ + "Ese fragmento prepara spaCy para procesar texto en inglés, cargando un modelo pequeño que permite analizar y entender las palabras de forma más profunda, como encontrar la raíz de cada palabra, reconocer partes del habla, entre otras tareas de procesamiento de lenguaje natural.// se instala paquete " + ] + }, { "cell_type": "code", - "execution_count": null, + "execution_count": 191, "id": "98ead266-30f3-48ad-bc51-c1685487f000", "metadata": { "scrolled": true @@ -1969,14 +2283,14 @@ " '''Lemmatize the text input with spaCy annotations.'''\n", "\n", " # Step 1: Initialize an empty list to hold lemmas\n", - " lemma = ...\n", + " lemma = []\n", "\n", " # Step 2: Apply the nlp pipeline to input text\n", - " doc = ...\n", + " doc = nlp(text)\n", "\n", " # Step 3: Iterate over tokens in the text to get the token lemma\n", " for token in doc:\n", - " lemma.append(...)\n", + " lemma.append(token.lemma_)\n", "\n", " # Step 4: Join lemmas together into a single string\n", " text_lemma = ' '.join(lemma)\n", @@ -1984,6 +2298,14 @@ " return text_lemma" ] }, + { + "cell_type": "markdown", + "id": "434025a5", + "metadata": {}, + "source": [ + "Este código define una función llamada lemmatize_text que usa spaCy para transformar un texto dado en su forma base o raíz (lematización). La función procesa el texto, extrae la raíz de cada palabra y luego junta esas raíces en un nuevo texto, facilitando el análisis más preciso del lenguaje." + ] + }, { "cell_type": "markdown", "id": "cf36aab6-35dd-42a2-9b38-b7c432f021c6", @@ -1994,7 +2316,7 @@ }, { "cell_type": "code", - "execution_count": 39, + "execution_count": 192, "id": "742e82bb-5c42-4fa8-9101-5a0ea908db25", "metadata": {}, "outputs": [ @@ -2002,9 +2324,9 @@ "name": "stdout", "output_type": "stream", "text": [ - "USER wow this just blew my mind\n", + "USER wow this just blew my mind\n", "==================================================\n", - "USER wow this just blow my mind\n" + "USER wow this just blow my mind\n" ] } ], @@ -2015,6 +2337,14 @@ "print(lemmatize_text(tweets.iloc[33]['text_processed']))" ] }, + { + "cell_type": "markdown", + "id": "3a0f2285", + "metadata": {}, + "source": [ + "Este código toma el texto procesado del tweet número 33, lo imprime, luego imprime una línea de separación, y después muestra el mismo tweet pero con las palabras convertidas a su forma base usando la función de lematización lemmatize_text. Así puedes comparar el texto original procesado con su versión lematizada." + ] + }, { "cell_type": "markdown", "id": "bbeda987-dc32-4979-b158-c24be7d1a420", @@ -2025,7 +2355,7 @@ }, { "cell_type": "code", - "execution_count": 40, + "execution_count": 193, "id": "1ac128d2-1be5-4ef5-bb50-5b8d44ef8ee9", "metadata": {}, "outputs": [], @@ -2034,6 +2364,14 @@ "tweets['text_lemmatized'] = tweets['text_processed'].apply(lambda x: lemmatize_text(x))" ] }, + { + "cell_type": "markdown", + "id": "094fbff7", + "metadata": {}, + "source": [ + "Este código crea una nueva columna llamada 'text_lemmatized' en el DataFrame tweets, donde cada tweet ya procesado (text_processed) se transforma aplicando la función lemmatize_text para convertir las palabras a su forma base o raíz." + ] + }, { "cell_type": "markdown", "id": "2c02aad6-4e71-4afc-80cf-31d4f39498b2", @@ -2044,7 +2382,7 @@ }, { "cell_type": "code", - "execution_count": 41, + "execution_count": 194, "id": "5f49d790-3c9d-4dc1-a5c9-72c306630412", "metadata": {}, "outputs": [ @@ -2215,7 +2553,7 @@ " \n", " \n", "\n", - "

5 rows × 3553 columns

\n", + "

5 rows × 3570 columns

\n", "" ], "text/plain": [ @@ -2233,10 +2571,10 @@ "3 0 0 0 0 0 0 0 0 0 0 \n", "4 0 0 0 0 0 0 0 0 0 0 \n", "\n", - "[5 rows x 3553 columns]" + "[5 rows x 3570 columns]" ] }, - "execution_count": 41, + "execution_count": 194, "metadata": {}, "output_type": "execute_result" } @@ -2260,9 +2598,17 @@ "third_dtm.head()" ] }, + { + "cell_type": "markdown", + "id": "1537bfb3", + "metadata": {}, + "source": [ + "Este código crea un nuevo CountVectorizer configurado para procesar texto en minúsculas, eliminar palabras comunes en inglés y filtrar palabras poco frecuentes o demasiado comunes. Luego, aplica este vectorizador al texto lematizado de los tweets para generar una matriz de conteos de palabras (DTM). Finalmente, convierte esta matriz en un DataFrame llamado third_dtm con los tweets como filas y las palabras como columnas, y muestra las primeras cinco filas." + ] + }, { "cell_type": "code", - "execution_count": 42, + "execution_count": 195, "id": "9859eb04-dbd2-4fa0-9798-65ed7496c297", "metadata": {}, "outputs": [ @@ -2272,7 +2618,7 @@ "text": [ "(11541, 8751)\n", "(11541, 4471)\n", - "(11541, 3553)\n" + "(11541, 3570)\n" ] } ], @@ -2283,6 +2629,14 @@ "print(third_dtm.shape)" ] }, + { + "cell_type": "markdown", + "id": "c3ae5a40", + "metadata": {}, + "source": [ + "Este código imprime las dimensiones (número de filas y columnas) de las tres matrices de términos (first_dtm, second_dtm y third_dtm), para comparar cuántos tweets y palabras contiene cada una tras diferentes etapas de procesamiento." + ] + }, { "cell_type": "markdown", "id": "fa94c8ac-e4f4-4b76-afdb-1d4af54a3eee", @@ -2293,7 +2647,7 @@ }, { "cell_type": "code", - "execution_count": 43, + "execution_count": 196, "id": "5745ca29-97ed-4fe1-81db-7e402c8da674", "metadata": {}, "outputs": [ @@ -2301,19 +2655,19 @@ "data": { "text/plain": [ "digit 6927\n", - "flight 4043\n", + "flight 3952\n", "hashtag 2633\n", "thank 1455\n", "hour 1134\n", - "cancel 948\n", - "delay 937\n", - "service 937\n", + "cancel 954\n", + "service 939\n", + "delay 933\n", "customer 902\n", - "time 856\n", + "time 858\n", "dtype: int64" ] }, - "execution_count": 43, + "execution_count": 196, "metadata": {}, "output_type": "execute_result" } @@ -2323,9 +2677,17 @@ "third_dtm.sum().sort_values(ascending=False).head(10)" ] }, + { + "cell_type": "markdown", + "id": "d7cce274", + "metadata": {}, + "source": [ + "Este fragmento de código suma la cantidad total de apariciones de cada palabra en la matriz third_dtm, ordena las palabras de mayor a menor frecuencia y muestra las 10 palabras más comunes en el texto lematizado." + ] + }, { "cell_type": "code", - "execution_count": 44, + "execution_count": 197, "id": "16c63e6a-50c3-448a-9a56-a1d193cd6680", "metadata": {}, "outputs": [ @@ -2345,7 +2707,7 @@ "dtype: int64" ] }, - "execution_count": 44, + "execution_count": 197, "metadata": {}, "output_type": "execute_result" } @@ -2355,6 +2717,14 @@ "second_dtm.sum().sort_values(ascending=False).head(10)" ] }, + { + "cell_type": "markdown", + "id": "0ff2d3a5", + "metadata": {}, + "source": [ + "Este código suma cuántas veces aparece cada palabra en la matriz second_dtm, ordena esas palabras de mayor a menor frecuencia y muestra las 10 más frecuentes, para comparar con las palabras más comunes en la versión lematizada (third_dtm)." + ] + }, { "cell_type": "markdown", "id": "38363398-fdf5-456b-ae3d-cae9d5294140", @@ -2377,7 +2747,7 @@ }, { "cell_type": "code", - "execution_count": 45, + "execution_count": 198, "id": "f5e32d8a-c42d-475f-aab4-21eca8b1aee8", "metadata": {}, "outputs": [], @@ -2385,9 +2755,17 @@ "from sklearn.feature_extraction.text import TfidfVectorizer" ] }, + { + "cell_type": "markdown", + "id": "f5304756", + "metadata": {}, + "source": [ + "Este código importa la clase TfidfVectorizer de la biblioteca scikit-learn, que se utiliza para convertir texto en una matriz numérica basada en la frecuencia y relevancia de las palabras, destacando términos importantes en lugar de solo contar apariciones." + ] + }, { "cell_type": "code", - "execution_count": 46, + "execution_count": 199, "id": "d23916c1-5693-456c-b71d-6d9d78d1e2e4", "metadata": {}, "outputs": [], @@ -2400,20 +2778,28 @@ " max_features=None)" ] }, + { + "cell_type": "markdown", + "id": "f79825c8", + "metadata": {}, + "source": [ + "Este código crea un objeto TfidfVectorizer que transformará textos en vectores numéricos usando la técnica TF-IDF, que resalta palabras importantes ignorando las muy comunes o muy raras. Además, convierte todo a minúsculas, elimina palabras comunes en inglés y solo considera palabras que aparecen en al menos 2 documentos pero no en más del 95%." + ] + }, { "cell_type": "code", - "execution_count": 47, + "execution_count": 200, "id": "7af5b342-ab18-4766-9561-e38e50cd1e9b", "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "<11541x3553 sparse matrix of type ''\n", - "\twith 88287 stored elements in Compressed Sparse Row format>" + "" ] }, - "execution_count": 47, + "execution_count": 200, "metadata": {}, "output_type": "execute_result" } @@ -2426,7 +2812,7 @@ }, { "cell_type": "code", - "execution_count": 48, + "execution_count": 201, "id": "55e509c8-5402-4be0-9143-0e448fff7066", "metadata": {}, "outputs": [ @@ -2597,7 +2983,7 @@ " \n", " \n", "\n", - "

5 rows × 3553 columns

\n", + "

5 rows × 3570 columns

\n", "" ], "text/plain": [ @@ -2615,10 +3001,10 @@ "3 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n", "4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n", "\n", - "[5 rows x 3553 columns]" + "[5 rows x 3570 columns]" ] }, - "execution_count": 48, + "execution_count": 201, "metadata": {}, "output_type": "execute_result" } @@ -2631,6 +3017,14 @@ "tfidf.head()" ] }, + { + "cell_type": "markdown", + "id": "78165e7d", + "metadata": {}, + "source": [ + "Este código convierte la matriz TF-IDF dispersa (tf_dtm) en un DataFrame de pandas con filas que representan tweets y columnas que representan palabras, usando las palabras extraídas por el vectorizador como nombres de columnas. Luego muestra las primeras cinco filas del DataFrame para visualizarlo." + ] + }, { "cell_type": "markdown", "id": "45ba13ea-c429-4ff1-a9a2-abf27c4d0888", @@ -2657,7 +3051,7 @@ }, { "cell_type": "code", - "execution_count": 49, + "execution_count": 202, "id": "995b511a-d448-4cfb-a6a0-22a465efd8a8", "metadata": {}, "outputs": [ @@ -2675,10 +3069,10 @@ "zone 3177\n", "zoom 3920\n", "zurich 10622\n", - "Length: 3553, dtype: int64" + "Length: 3570, dtype: int64" ] }, - "execution_count": 49, + "execution_count": 202, "metadata": {}, "output_type": "execute_result" } @@ -2688,6 +3082,14 @@ "tfidf.idxmax()" ] }, + { + "cell_type": "markdown", + "id": "d2988eb8", + "metadata": {}, + "source": [ + "Este código obtiene, para cada columna (es decir, para cada palabra), el índice del documento (por ejemplo, el tweet) donde esa palabra tiene el valor TF-IDF más alto, es decir, donde la palabra es más relevante o destacada según esa métrica." + ] + }, { "cell_type": "markdown", "id": "fccc0249-7c68-42ee-8290-ff41715e346b", @@ -2698,17 +3100,17 @@ }, { "cell_type": "code", - "execution_count": 50, + "execution_count": 203, "id": "09b222fb-ad8c-4767-a974-dd261370a06e", "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "918" + "np.int64(918)" ] }, - "execution_count": 50, + "execution_count": 203, "metadata": {}, "output_type": "execute_result" } @@ -2717,6 +3119,14 @@ "tfidf.idxmax()['worst']" ] }, + { + "cell_type": "markdown", + "id": "31d66d35", + "metadata": {}, + "source": [ + "Este código busca en el DataFrame tfidf la columna llamada 'worst' y devuelve el índice (por ejemplo, el número de tweet) del documento donde la palabra \"worst\" tiene el valor TF-IDF más alto, es decir, donde esta palabra es más relevante o destacada." + ] + }, { "cell_type": "markdown", "id": "955a48bc-dc93-481b-ba49-29876fc577fb", @@ -2727,17 +3137,17 @@ }, { "cell_type": "code", - "execution_count": 51, + "execution_count": 204, "id": "079ee0e0-476f-4236-ba8a-615ba7a0efe8", "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "\"USER is the worst. worst reservation policies. worst costumer service. worst worst worst. congrats, USER you're not that bad!\"" + "\"USER is the worst. worst reservation policies. worst costumer service. worst worst worst. congrats, USER you're not that bad!\"" ] }, - "execution_count": 51, + "execution_count": 204, "metadata": {}, "output_type": "execute_result" } @@ -2746,6 +3156,14 @@ "tweets['text_processed'].iloc[918]" ] }, + { + "cell_type": "markdown", + "id": "5d347c53", + "metadata": {}, + "source": [ + "Este código accede al tweet número 918 (usando la posición en la tabla) y muestra el texto que ha sido procesado o limpiado, que está guardado en la columna 'text_processed' del DataFrame tweets. Es decir, te muestra el contenido del tweet ya preparado para análisis." + ] + }, { "cell_type": "markdown", "id": "9dd06bbc-e2fc-49e4-9354-efdaca5cfbd3", @@ -2756,17 +3174,17 @@ }, { "cell_type": "code", - "execution_count": 52, + "execution_count": 205, "id": "f809df1a-1178-4272-a415-42edb20173b2", "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "5945" + "np.int64(5945)" ] }, - "execution_count": 52, + "execution_count": 205, "metadata": {}, "output_type": "execute_result" } @@ -2775,19 +3193,27 @@ "tfidf.idxmax()['cancel']" ] }, + { + "cell_type": "markdown", + "id": "a3276cd9", + "metadata": {}, + "source": [ + "Este código obtiene el índice del documento (por ejemplo, el número de tweet) donde la palabra \"cancel\" tiene el valor TF-IDF más alto en el DataFrame tfidf. En otras palabras, identifica el tweet donde \"cancel\" es más relevante según la puntuación TF-IDF." + ] + }, { "cell_type": "code", - "execution_count": 53, + "execution_count": 206, "id": "8093b6a7-54ca-468a-9376-b3c0be0b6f9b", "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "'USER cancelled flighted 😢'" + "'USER cancelled flighted 😢'" ] }, - "execution_count": 53, + "execution_count": 206, "metadata": {}, "output_type": "execute_result" } @@ -2796,6 +3222,14 @@ "tweets['text_processed'].iloc[5945]" ] }, + { + "cell_type": "markdown", + "id": "c1bbfb6a", + "metadata": {}, + "source": [ + "Este código muestra el texto procesado (limpio y preparado para análisis) del tweet que está en la posición 5945 dentro del DataFrame tweets, es decir, te da el contenido del tweet número 5945 ya transformado y listo para trabajar con él." + ] + }, { "cell_type": "markdown", "id": "163dcecd-dc8c-43a9-952d-5bc84a307b07", @@ -2820,34 +3254,61 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 207, "id": "2bfbf838-9ff6-48b8-ad5d-5e75304fe060", "metadata": {}, "outputs": [], "source": [ "# Complete the boolean masks \n", - "positive_index = tweets[...].index\n", - "negative_index = tweets[...].index" + "positive_index = tweets[tweets['airline_sentiment'] == 'positive'].index\n", + "negative_index = tweets[tweets['airline_sentiment'] == 'negative'].index" + ] + }, + { + "cell_type": "markdown", + "id": "4c3871f3", + "metadata": {}, + "source": [ + "El código obtiene los índices de los tweets con sentimiento positivo y negativo para poder analizarlos por separado." ] }, { "cell_type": "code", - "execution_count": null, + "execution_count": 208, "id": "8c67ea1f-de9e-49a9-94f2-a3351446e364", "metadata": {}, "outputs": [], "source": [ "# Complete the following two lines\n", - "pos = tfidf.loc[...].mean().sort_values(...).head(...)\n", - "neg = tfidf.loc[...].mean().sort_values(...).head(...)" + "pos = tfidf.loc[positive_index].mean().sort_values(ascending=False).head(10)\n", + "neg = tfidf.loc[negative_index].mean().sort_values(ascending=False).head(10)" + ] + }, + { + "cell_type": "markdown", + "id": "2bf0892c", + "metadata": {}, + "source": [ + "Este código calcula los 10 términos con mayor promedio de TF-IDF en los tweets positivos y negativos, respectivamente, para identificar las palabras más representativas de cada sentimiento." ] }, { "cell_type": "code", - "execution_count": null, + "execution_count": 209, "id": "f1e29043-8c78-4e41-81d2-b4552030b457", "metadata": {}, - "outputs": [], + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], "source": [ "pos.plot(kind='barh', \n", " xlim=(0, 0.18),\n", @@ -2855,12 +3316,31 @@ " title='Top 10 terms with the highest mean tf-idf values for positive tweets');" ] }, + { + "cell_type": "markdown", + "id": "6a71a593", + "metadata": {}, + "source": [ + "Este código crea un gráfico de barras horizontales que muestra las 10 palabras con los valores promedio más altos de TF-IDF en los tweets positivos, con color azul y un título descriptivo." + ] + }, { "cell_type": "code", - "execution_count": null, + "execution_count": 210, "id": "e8b25940-2372-4755-818e-f75e4d23daf9", "metadata": {}, - "outputs": [], + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], "source": [ "neg.plot(kind='barh', \n", " xlim=(0, 0.18),\n", @@ -2868,6 +3348,14 @@ " title='Top 10 terms with the highest mean tf-idf values for negative tweets');" ] }, + { + "cell_type": "markdown", + "id": "8416b750", + "metadata": {}, + "source": [ + "Este código genera un gráfico de barras horizontales que muestra las 10 palabras con los valores promedio más altos de TF-IDF en los tweets negativos, usando color salmón oscuro y con un título que explica qué representa el gráfico." + ] + }, { "cell_type": "markdown", "id": "77bca876-9649-46f3-bd4f-f9f68fea649a", @@ -2904,7 +3392,7 @@ }, { "cell_type": "code", - "execution_count": 55, + "execution_count": 211, "id": "33413d63-87eb-489f-b374-3cfeaa51cf3c", "metadata": {}, "outputs": [], @@ -2913,6 +3401,14 @@ "from sklearn.model_selection import train_test_split" ] }, + { + "cell_type": "markdown", + "id": "148212bb", + "metadata": {}, + "source": [ + "Este código importa dos funciones de scikit-learn: una para crear un modelo de regresión logística con validación cruzada y otra para dividir los datos en conjuntos de entrenamiento y prueba." + ] + }, { "cell_type": "markdown", "id": "ee87ff74-3fbb-472a-b795-6f4d18fab215", @@ -2923,7 +3419,7 @@ }, { "cell_type": "code", - "execution_count": 56, + "execution_count": 212, "id": "64cec8b9-14d9-4897-9c02-cc89fcf7b3c6", "metadata": {}, "outputs": [], @@ -2934,6 +3430,17 @@ "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15)" ] }, + { + "cell_type": "markdown", + "id": "a397527a", + "metadata": {}, + "source": [ + "Este fragmento divide los datos en dos partes:\n", + "las características (X), que son las representaciones tf-idf de los textos,\n", + "y las etiquetas (y), que son los sentimientos de los tweets.\n", + "Luego separa esos datos en conjuntos de entrenamiento (85%) y prueba (15%) para poder entrenar y evaluar un modelo." + ] + }, { "cell_type": "markdown", "id": "066771d8-2f31-4646-9a1b-6d2b1b9b208c", @@ -2944,7 +3451,7 @@ }, { "cell_type": "code", - "execution_count": 57, + "execution_count": 213, "id": "d46de0b2-af00-4a1d-b4cd-31b96ce545d1", "metadata": {}, "outputs": [], @@ -2961,6 +3468,14 @@ " return model" ] }, + { + "cell_type": "markdown", + "id": "82bfdf3d", + "metadata": {}, + "source": [ + "Esta función crea y entrena un modelo de regresión logística usando validación cruzada (5 pliegues) para encontrar la mejor regularización (penalización L1). También ajusta pesos para balancear clases desiguales y fija una semilla para reproducibilidad. Finalmente, devuelve el modelo entrenado listo para hacer predicciones." + ] + }, { "cell_type": "markdown", "id": "124aa7ea-1bc1-43e2-beeb-0ba2da9b2df9", @@ -2971,7 +3486,7 @@ }, { "cell_type": "code", - "execution_count": 58, + "execution_count": 214, "id": "773963bd-6603-4fad-884b-09ce60afab18", "metadata": {}, "outputs": [], @@ -2980,9 +3495,17 @@ "model = fit_logistic_regression(X_train, y_train)" ] }, + { + "cell_type": "markdown", + "id": "56afb93e", + "metadata": {}, + "source": [ + "Este código usa la función fit_logistic_regression para entrenar un modelo de regresión logística con los datos de entrenamiento X_train (características) y y_train (etiquetas). El resultado es un modelo ajustado listo para hacer predicciones." + ] + }, { "cell_type": "code", - "execution_count": 59, + "execution_count": 215, "id": "e10d06c1-d884-45d4-a03d-dd5d40bf70aa", "metadata": {}, "outputs": [ @@ -2990,8 +3513,8 @@ "name": "stdout", "output_type": "stream", "text": [ - "Training accuracy: 0.9455601998164951\n", - "Test accuracy: 0.894919168591224\n" + "Training accuracy: 0.9453563054337853\n", + "Test accuracy: 0.9001154734411085\n" ] } ], @@ -3001,6 +3524,14 @@ "print(f\"Test accuracy: {model.score(X_test, y_test)}\")" ] }, + { + "cell_type": "markdown", + "id": "cecb6bba", + "metadata": {}, + "source": [ + "Este código calcula y muestra qué tan bien funciona el modelo de regresión logística que entrenaste, tanto con los datos usados para entrenarlo (precisión de entrenamiento) como con datos nuevos que no vio antes (precisión de prueba). Básicamente, mide qué porcentaje de predicciones fueron correctas en ambos casos." + ] + }, { "cell_type": "markdown", "id": "d4e186c5-1719-4deb-bdb4-614a9980f058", @@ -3021,7 +3552,7 @@ }, { "cell_type": "code", - "execution_count": 60, + "execution_count": 216, "id": "6dcb6ef1-13b3-437e-813c-7118911847a4", "metadata": {}, "outputs": [], @@ -3038,9 +3569,17 @@ "importance['coefs'] = coefs" ] }, + { + "cell_type": "markdown", + "id": "4cfa1dbd", + "metadata": {}, + "source": [ + "Este código extrae los coeficientes (pesos) que el modelo de regresión logística asignó a cada palabra (token) para medir su importancia en la predicción, y luego crea un DataFrame que relaciona cada palabra con su coeficiente correspondiente. Esto ayuda a entender qué palabras influyen más en el modelo para clasificar los tweets." + ] + }, { "cell_type": "code", - "execution_count": 61, + "execution_count": 217, "id": "3e63814e-9c0d-4f7a-a5e0-72cca2758d71", "metadata": {}, "outputs": [ @@ -3071,74 +3610,74 @@ " \n", " \n", " \n", - " 2724\n", + " 2735\n", " rude\n", - " -11.138668\n", + " -12.334903\n", " \n", " \n", - " 2784\n", - " screw\n", - " -9.962456\n", - " \n", - " \n", - " 2727\n", + " 2738\n", " ruin\n", - " -9.849836\n", + " -10.453660\n", " \n", " \n", - " 1505\n", - " hour\n", - " -9.282416\n", + " 2798\n", + " screw\n", + " -9.371486\n", " \n", " \n", - " 389\n", - " break\n", - " -7.949487\n", + " 1881\n", + " luggage\n", + " -9.292221\n", " \n", " \n", - " 2280\n", - " pay\n", - " -7.823908\n", + " 1521\n", + " hrs\n", + " -9.009768\n", " \n", " \n", - " 458\n", + " 460\n", " cancel\n", - " -7.534084\n", + " -8.624062\n", " \n", " \n", - " 264\n", - " bad\n", - " -7.357206\n", + " 1477\n", + " hold\n", + " -8.388975\n", " \n", " \n", - " 1872\n", - " luggage\n", - " -7.093317\n", + " 2288\n", + " pay\n", + " -7.929667\n", + " \n", + " \n", + " 2957\n", + " solution\n", + " -7.130466\n", " \n", " \n", - " 3034\n", - " strand\n", - " -7.046890\n", + " 1513\n", + " hour\n", + " -7.046743\n", " \n", " \n", "\n", "" ], "text/plain": [ - " token coefs\n", - "2724 rude -11.138668\n", - "2784 screw -9.962456\n", - "2727 ruin -9.849836\n", - "1505 hour -9.282416\n", - "389 break -7.949487\n", - "2280 pay -7.823908\n", - "458 cancel -7.534084\n", - "264 bad -7.357206\n", - "1872 luggage -7.093317\n", - "3034 strand -7.046890" + " token coefs\n", + "2735 rude -12.334903\n", + "2738 ruin -10.453660\n", + "2798 screw -9.371486\n", + "1881 luggage -9.292221\n", + "1521 hrs -9.009768\n", + "460 cancel -8.624062\n", + "1477 hold -8.388975\n", + "2288 pay -7.929667\n", + "2957 solution -7.130466\n", + "1513 hour -7.046743" ] }, - "execution_count": 61, + "execution_count": 217, "metadata": {}, "output_type": "execute_result" } @@ -3149,9 +3688,17 @@ "neg_coef" ] }, + { + "cell_type": "markdown", + "id": "107f0687", + "metadata": {}, + "source": [ + "Este código ordena las palabras (tokens) según sus coeficientes de menor a mayor, es decir, identifica las 10 palabras con los coeficientes más negativos, que son las que más están asociadas con la clase negativa (por ejemplo, tweets negativos). Luego muestra esas 10 palabras junto con sus coeficientes." + ] + }, { "cell_type": "code", - "execution_count": 62, + "execution_count": 218, "id": "0d596bf7-753c-40cd-ac52-4a37163650ae", "metadata": {}, "outputs": [ @@ -3182,54 +3729,54 @@ " \n", " \n", " \n", - " 3165\n", - " thankful\n", - " 8.002975\n", - " \n", - " \n", - " 1091\n", - " exceptional\n", - " 8.136278\n", + " 1870\n", + " love\n", + " 8.631161\n", " \n", " \n", - " 1563\n", - " impressed\n", - " 8.501364\n", + " 3229\n", + " toiletry\n", + " 8.873157\n", " \n", " \n", - " 648\n", - " compliment\n", - " 8.981360\n", + " 3180\n", + " thankful\n", + " 9.097905\n", " \n", " \n", - " 1373\n", + " 1380\n", " great\n", - " 9.080558\n", + " 9.261755\n", " \n", " \n", - " 3498\n", - " wonderful\n", - " 9.401606\n", + " 617\n", + " comfortable\n", + " 9.401676\n", " \n", " \n", - " 1089\n", + " 1097\n", " excellent\n", - " 10.147230\n", + " 9.824084\n", " \n", " \n", " 250\n", " awesome\n", - " 10.315909\n", + " 10.116441\n", " \n", " \n", - " 1746\n", + " 3515\n", + " wonderful\n", + " 10.439532\n", + " \n", + " \n", + " 1753\n", " kudo\n", - " 11.623828\n", + " 10.536451\n", " \n", " \n", - " 3164\n", + " 3179\n", " thank\n", - " 16.027534\n", + " 16.807753\n", " \n", " \n", "\n", @@ -3237,19 +3784,19 @@ ], "text/plain": [ " token coefs\n", - "3165 thankful 8.002975\n", - "1091 exceptional 8.136278\n", - "1563 impressed 8.501364\n", - "648 compliment 8.981360\n", - "1373 great 9.080558\n", - "3498 wonderful 9.401606\n", - "1089 excellent 10.147230\n", - "250 awesome 10.315909\n", - "1746 kudo 11.623828\n", - "3164 thank 16.027534" + "1870 love 8.631161\n", + "3229 toiletry 8.873157\n", + "3180 thankful 9.097905\n", + "1380 great 9.261755\n", + "617 comfortable 9.401676\n", + "1097 excellent 9.824084\n", + "250 awesome 10.116441\n", + "3515 wonderful 10.439532\n", + "1753 kudo 10.536451\n", + "3179 thank 16.807753" ] }, - "execution_count": 62, + "execution_count": 218, "metadata": {}, "output_type": "execute_result" } @@ -3260,6 +3807,14 @@ "pos_coef " ] }, + { + "cell_type": "markdown", + "id": "886d7d94", + "metadata": {}, + "source": [ + "Este código obtiene las 10 palabras (tokens) con los coeficientes más altos (positivos) del modelo, es decir, las palabras que más están asociadas con la clase positiva (por ejemplo, tweets positivos). Primero ordena el DataFrame por coeficientes de menor a mayor y luego toma las últimas 10 filas para mostrar las palabras con coeficientes más grandes y su importancia." + ] + }, { "cell_type": "markdown", "id": "7b3b7893-caa0-4281-98f0-92c9e7b31953", @@ -3270,13 +3825,13 @@ }, { "cell_type": "code", - "execution_count": 63, + "execution_count": 219, "id": "17b1223b-e5c1-4992-bb7e-0a99651c3729", "metadata": {}, "outputs": [ { "data": { - "image/png": "", + "image/png": "", "text/plain": [ "
" ] @@ -3295,15 +3850,23 @@ " title='Top 10 tokens with highest coeffient values');" ] }, + { + "cell_type": "markdown", + "id": "66bc9491", + "metadata": {}, + "source": [ + "Este código crea un gráfico de barras horizontal que muestra las 10 palabras (tokens) con los coeficientes más altos (más positivas) del modelo de regresión logística. Ordena esas palabras de mayor a menor coeficiente y las grafica para visualizar cuáles son las más importantes o influyentes para predecir la clase positiva. El color de las barras es azul y el gráfico tiene un título descriptivo." + ] + }, { "cell_type": "code", - "execution_count": 64, + "execution_count": 220, "id": "159e00c6-8a9f-484f-aea2-853fd5512083", "metadata": {}, "outputs": [ { "data": { - "image/png": "", + "image/png": "", "text/plain": [ "
" ] @@ -3321,6 +3884,14 @@ " title='Top 10 tokens with lowest coeffient values');" ] }, + { + "cell_type": "markdown", + "id": "7f43b0c3", + "metadata": {}, + "source": [ + "Muestra un gráfico con las 10 palabras más relacionadas con sentimientos negativos según el modelo." + ] + }, { "cell_type": "markdown", "id": "2eed48ea-fd35-4585-9b98-90456aaee447", @@ -3350,7 +3921,7 @@ ], "metadata": { "kernelspec": { - "display_name": "Python 3 (ipykernel)", + "display_name": "Python 3", "language": "python", "name": "python3" }, @@ -3364,7 +3935,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.11.4" + "version": "3.13.5" } }, "nbformat": 4, From 112ba9e6d7735d14edd69bf5fd5f84ddb698641b Mon Sep 17 00:00:00 2001 From: jbonilla1234 Date: Tue, 29 Jul 2025 11:36:21 -0500 Subject: [PATCH 2/4] =?UTF-8?q?Ejercicio=201=20literal=20b=2001=5Fpreproce?= =?UTF-8?q?ssing.ipynb=20comentarios=20=20de=20los=20pasos=20de=20c=C3=B3d?= =?UTF-8?q?igo=20del=20notebook?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- lessons/01_preprocessing.ipynb | 603 ++++++++++++++++++++++++++++++++- 1 file changed, 600 insertions(+), 3 deletions(-) diff --git a/lessons/01_preprocessing.ipynb b/lessons/01_preprocessing.ipynb index de33786..f107411 100644 --- a/lessons/01_preprocessing.ipynb +++ b/lessons/01_preprocessing.ipynb @@ -47,6 +47,14 @@ "# !python -m spacy download en_core_web_sm" ] }, + { + "cell_type": "markdown", + "id": "ae6e35fa", + "metadata": {}, + "source": [ + "Las siguientes líneas contienen el instalador de los paquetes y el modelo, se tiene que descomentar acorde a lo que necesitemos realizar." + ] + }, { "cell_type": "markdown", "id": "df5b8f8e-4e69-426e-a202-ec48b325e89a", @@ -117,6 +125,14 @@ "tweets = pd.read_csv(csv_path, sep=',')" ] }, + { + "cell_type": "markdown", + "id": "c86ecb46", + "metadata": {}, + "source": [ + "Este fragmento de código utiliza la biblioteca pandas para cargar un archivo CSV que contiene datos y lee el archivo CSV especificando que las columnas están separadas por comas." + ] + }, { "cell_type": "code", "execution_count": 2, @@ -303,6 +319,14 @@ "tweets.head()" ] }, + { + "cell_type": "markdown", + "id": "a12ac653", + "metadata": {}, + "source": [ + "Este método muestra las primeras cinco filas." + ] + }, { "cell_type": "markdown", "id": "ae3b339f-45cf-465d-931c-05f9096fd510", @@ -347,6 +371,14 @@ "print(tweets['text'].iloc[2])" ] }, + { + "cell_type": "markdown", + "id": "f5f83e26", + "metadata": {}, + "source": [ + "Selecciona la columna llamada text, que contiene el contenido de los tweets, accede a las filas 0,1,2 y muestra el contenido de esos tweets en la consola." + ] + }, { "cell_type": "markdown", "id": "8adc05fa-ad30-4402-ab56-086bcb09a166", @@ -391,6 +423,14 @@ "print(first_example)" ] }, + { + "cell_type": "markdown", + "id": "7a2796bc", + "metadata": {}, + "source": [ + "Accede al texto del tweet ubicado en la fila 108, específicamente en la columna text y muestra el contenido del tweet número 108 en la consola." + ] + }, { "cell_type": "code", "execution_count": 5, @@ -422,6 +462,18 @@ "print(first_example.upper())" ] }, + { + "cell_type": "markdown", + "id": "bc305d5d", + "metadata": {}, + "source": [ + "* Verifica si todos los caracteres alfabéticos del texto están en minúsculas\n", + "* Imprime una línea de 50 signos de igual (=) para separar visualmente las salidas y mejorar la legibilidad.\n", + "* Convierte todo el texto a minúsculas, incluyendo letras, dejando intactos los demás caracteres.\n", + "* Imprime una línea de 50 signos de igual (=) para separar visualmente las salidas y mejorar la legibilidad.\n", + "* Convierte todo el texto a mayúsculas.\n" + ] + }, { "cell_type": "markdown", "id": "7bf0d8c8-bd6c-47ef-b305-09ac61d07d4d", @@ -454,6 +506,17 @@ " file.close()" ] }, + { + "cell_type": "markdown", + "id": "94766721", + "metadata": {}, + "source": [ + "* Guarda la ruta del archivo de texto (poem_wordsworth.txt) en la variable text_path.\n", + "* Abre el archivo en modo lectura ('r') usando un context manager (with), que garantiza que el archivo se cierre automáticamente cuando terminamos de trabajar con él.\n", + "* Lee todo el contenido del archivo y lo guarda en la variable text como una cadena de texto.\n", + "* Cierra el archivo manualmente." + ] + }, { "cell_type": "markdown", "id": "7a693dd9-9706-40b3-863f-f568020245f7", @@ -464,7 +527,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": null, "id": "7e78a75a-8e15-4bcb-a416-783aa7f60ef3", "metadata": {}, "outputs": [ @@ -483,6 +546,14 @@ "text" ] }, + { + "cell_type": "markdown", + "id": "dad2acb4", + "metadata": {}, + "source": [ + "Se imprime el contenido completo de la variable text, es decir, el texto completo del archivo que se cargo." + ] + }, { "cell_type": "markdown", "id": "47cce993-c315-4aaa-87fe-149de8607f65", @@ -542,6 +613,14 @@ "text.splitlines()" ] }, + { + "cell_type": "markdown", + "id": "86801932", + "metadata": {}, + "source": [ + "Toma la cadena de texto completa almacenada en text, la divide en una lista, separando el texto en cada salto de línea." + ] + }, { "cell_type": "markdown", "id": "44d3825b-0857-44e1-bf6a-d8c7a9032704", @@ -573,6 +652,14 @@ "second_example" ] }, + { + "cell_type": "markdown", + "id": "fffba8f4", + "metadata": {}, + "source": [ + "Accede al tweet ubicado en la fila número 5 dentro de la columna text del DataFrame tweets y guarda ese tweet en la variable second_example." + ] + }, { "cell_type": "markdown", "id": "aef55865-36fd-4c06-a765-530cf3b53096", @@ -605,6 +692,14 @@ "second_example.strip()" ] }, + { + "cell_type": "markdown", + "id": "bf864ab6", + "metadata": {}, + "source": [ + ".strip() Elimina los espacios en blanco solo al inicio y al final de una cadena de texto." + ] + }, { "cell_type": "markdown", "id": "b99b80b4-804f-460f-a2d5-adbd654902b3", @@ -623,6 +718,14 @@ "import re" ] }, + { + "cell_type": "markdown", + "id": "2ba3cf4d", + "metadata": {}, + "source": [ + "Importa la libreria re, que es el módulo de expresiones regulares en Python y permite buscar, reemplazar, extraer o dividir texto basándose en patrones complejos." + ] + }, { "cell_type": "markdown", "id": "d5f08d20-ba81-4e48-9e2a-5728148005b3", @@ -648,6 +751,14 @@ "blankspace_pattern = r'\\s+'" ] }, + { + "cell_type": "markdown", + "id": "9ecfef22", + "metadata": {}, + "source": [ + "Define un patrón de expresión regular y lo guarda en la variable blankspace_pattern." + ] + }, { "cell_type": "markdown", "id": "cc075c2e-1a1d-4393-a3ea-8ad7c118364b", @@ -667,6 +778,14 @@ "blankspace_repl = ' '" ] }, + { + "cell_type": "markdown", + "id": "ae7ba98a", + "metadata": {}, + "source": [ + "Define la cadena de reemplazo que se usará junto con la expresión regular que se escribio antes." + ] + }, { "cell_type": "markdown", "id": "bc12e3d1-728a-429b-9c83-4dcc88590bc4", @@ -697,6 +816,14 @@ "print(clean_text)" ] }, + { + "cell_type": "markdown", + "id": "f989d972", + "metadata": {}, + "source": [ + "Realiza una limpieza de espacios en blanco en el texto del tweet almacenado en second_example." + ] + }, { "cell_type": "markdown", "id": "a895fbe3-a034-4124-94af-72a528913c51", @@ -737,6 +864,17 @@ "print(punctuation)" ] }, + { + "cell_type": "markdown", + "id": "50bcb8da", + "metadata": {}, + "source": [ + "from string import punctuation\n", + "Importa la constante punctuation del módulo estándar string\n", + "print(punctuation)\n", + "Imprime la cadena completa de signos de puntuación." + ] + }, { "cell_type": "markdown", "id": "91119c9e-431c-42cb-afea-f7e607698929", @@ -767,6 +905,19 @@ " return text_no_punct" ] }, + { + "cell_type": "markdown", + "id": "a99e9490", + "metadata": {}, + "source": [ + "* Recibe una cadena text como entrada.\n", + "* Recorre cada carácter del texto.\n", + "* Verifica si ese carácter no está en punctuation (la lista de signos de puntuación importada de string).\n", + "* Si no es un signo de puntuación, lo añade a una lista llamada no_punct.\n", + "* Une todos esos caracteres nuevamente en una cadena sin puntuación (text_no_punct).\n", + "* Devuelve el texto limpio." + ] + }, { "cell_type": "markdown", "id": "d4fc768b-c2dd-4386-8212-483c4485e4be", @@ -777,7 +928,7 @@ }, { "cell_type": "code", - "execution_count": 17, + "execution_count": null, "id": "7596c465-3d85-4b72-a853-f2151bcd91df", "metadata": {}, "outputs": [ @@ -810,6 +961,16 @@ "remove_punct(third_example)" ] }, + { + "cell_type": "markdown", + "id": "0a22808a", + "metadata": {}, + "source": [ + "* Accede al tweet número 20 (índice base 0, por lo que es el tweet 21) y lo guarda en third_example.\n", + "* Imprime el texto original del tweet.\n", + "* Imprime una línea de separación visual (==================================================)." + ] + }, { "cell_type": "markdown", "id": "853a4b83-f503-4405-aedd-66bbc088e3e7", @@ -818,9 +979,15 @@ "Let's give it a try with another tweet. What have you noticed?" ] }, + { + "cell_type": "markdown", + "id": "d1abd898", + "metadata": {}, + "source": [] + }, { "cell_type": "code", - "execution_count": 18, + "execution_count": null, "id": "5b3c2f60-fc92-4326-bad6-5ad04be50476", "metadata": {}, "outputs": [ @@ -852,6 +1019,16 @@ "remove_punct(tweets['text'][100])" ] }, + { + "cell_type": "markdown", + "id": "ddf6fca9", + "metadata": {}, + "source": [ + "* Imprime el tweet número 100 del DataFrame tweets (índice 100 → tweet 101).\n", + "* Muestra una línea separadora para mayor claridad visual.\n", + "* Aplica la función remove_punct() al texto del tweet, eliminando todos los signos de puntuación." + ] + }, { "cell_type": "markdown", "id": "1af02ce5-b674-4cb4-8e08-7d7416963f9c", @@ -860,6 +1037,20 @@ "What about the following example?" ] }, + { + "cell_type": "markdown", + "id": "e300aa82", + "metadata": {}, + "source": [] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "782b9230", + "metadata": {}, + "outputs": [], + "source": [] + }, { "cell_type": "code", "execution_count": 19, @@ -885,6 +1076,14 @@ "remove_punct(contraction_text)" ] }, + { + "cell_type": "markdown", + "id": "7a0b5ef9", + "metadata": {}, + "source": [ + "Eliminará todos los signos de puntuación, incluyendo las comillas de contraction_text;" + ] + }, { "cell_type": "markdown", "id": "62574c66-db3f-4500-9c3b-cea2f3eb2a30", @@ -945,6 +1144,23 @@ "print(challenge1)" ] }, + { + "cell_type": "markdown", + "id": "e47adf41", + "metadata": {}, + "source": [ + "* Define la ruta al archivo example1.txt y la guarda en la variable challenge1_path.\n", + "* Abre el archivo en modo lectura ('r') usando un contexto with, que asegura que el archivo se cierre automáticamente al finalizar.\n", + "* Lee todo el contenido del archivo y lo almacena en la variable challenge1 como una cadena de texto.\n", + "* Muestra el contenido completo del archivo en la consola." + ] + }, + { + "cell_type": "markdown", + "id": "1721100a", + "metadata": {}, + "source": [] + }, { "cell_type": "code", "execution_count": 21, @@ -968,6 +1184,16 @@ " return text" ] }, + { + "cell_type": "markdown", + "id": "18a34412", + "metadata": {}, + "source": [ + "Paso 1: Convierte todo el texto a minúsculas.\n", + "Paso 2: Llama a la función remove_punct para eliminar los signos de puntuación.\n", + "Paso 3: Usa una expresión regular para reemplazar cualquier secuencia de espacios por un solo espacio, y luego .strip() para eliminar espacios al inicio y final." + ] + }, { "cell_type": "code", "execution_count": 22, @@ -1027,6 +1253,14 @@ "print(url_tweet)" ] }, + { + "cell_type": "markdown", + "id": "779b5d92", + "metadata": {}, + "source": [ + "Accede al tweet número 13 de la columna 'text' del DataFrame tweets, guarda ese texto en la variable url_tweet y lo imprime para que puedas verlo." + ] + }, { "cell_type": "code", "execution_count": 24, @@ -1051,6 +1285,16 @@ "re.sub(url_pattern, url_repl, url_tweet)" ] }, + { + "cell_type": "markdown", + "id": "97b27226", + "metadata": {}, + "source": [ + "* Define un patrón regex en url_pattern para detectar URLs en el texto, que puede incluir direcciones que comienzan con http, https o ftp.\n", + "* Define la cadena url_repl que usará para reemplazar las URLs encontradas por el texto \"URL\".\n", + "* Usa re.sub() para buscar y reemplazar todas las URLs en url_tweet por \"URL\"." + ] + }, { "cell_type": "code", "execution_count": 25, @@ -1075,6 +1319,16 @@ "re.sub(hashtag_pattern, hashtag_repl, url_tweet)" ] }, + { + "cell_type": "markdown", + "id": "e22dfec6", + "metadata": {}, + "source": [ + "* hashtag_pattern almacena un patrón de expresión regular que busca hashtags en el texto.\n", + "* hashtag_repl = 'HASHTAG' define el texto con el que reemplazaremos cada hashtag detectado.\n", + "* re.sub() reemplaza todos los hashtags en url_tweet por \"HASHTAG\"." + ] + }, { "cell_type": "markdown", "id": "71d68d49-4923-49c0-9113-b844dc7546b9", @@ -1109,6 +1363,14 @@ "import nltk" ] }, + { + "cell_type": "markdown", + "id": "834c477d", + "metadata": {}, + "source": [ + "Esta importando la biblioteca nltk, una de las librerías de Python para procesamiento de lenguaje natural (NLP)." + ] + }, { "cell_type": "code", "execution_count": 27, @@ -1122,6 +1384,16 @@ "# nltk.download('punkt')" ] }, + { + "cell_type": "markdown", + "id": "471f0ac8", + "metadata": {}, + "source": [ + "* wordnet: Descarga el corpus WordNet, una base de datos léxica grande para inglés, usada para lematización, sinónimos, y relaciones semánticas.\n", + "* stopwords: Descarga listas de palabras muy comunes (como \"the\", \"is\", \"and\") que a menudo se eliminan porque aportan poco significado.\n", + "* punkt: Descarga el modelo necesario para la tokenización dividir texto en oraciones o palabras." + ] + }, { "cell_type": "markdown", "id": "6e79b699-c3a5-489f-9b3c-95653aba34d6", @@ -1153,6 +1425,16 @@ "print(text)" ] }, + { + "cell_type": "markdown", + "id": "0d40f665", + "metadata": {}, + "source": [ + "* Importar word_tokenize: Esta función de nltk divide un texto en una lista de palabras o tokens, manejando adecuadamente signos de puntuación y caracteres especiales.\n", + "* Seleccionar tweet: Asigna a la variable text el tweet en la fila 7 de la columna 'text'.\n", + "* Imprimir el tweet: Muestra el contenido del tweet para que puedas verlo." + ] + }, { "cell_type": "code", "execution_count": 29, @@ -1193,6 +1475,17 @@ "nltk_tokens" ] }, + { + "cell_type": "markdown", + "id": "58db5ffc", + "metadata": {}, + "source": [ + "* Aplica la función word_tokenize de NLTK al texto guardado en la variable text.\n", + "* word_tokenize divide el texto en una lista de tokens.\n", + "* La lista resultante se guarda en la variable nltk_tokens.\n", + "* La última línea muestra la lista de tokens generada." + ] + }, { "cell_type": "markdown", "id": "80ead039-7721-4b22-8590-0d7824631675", @@ -1228,6 +1521,15 @@ "from nltk.corpus import stopwords" ] }, + { + "cell_type": "markdown", + "id": "5b810c65", + "metadata": {}, + "source": [ + "Importa el conjunto de \"stopwords\" desde el módulo nltk.corpus.\n", + "Los stopwords son palabras muy comunes en un idioma (como “the”, “and”, “is” en inglés) que normalmente se eliminan en el análisis de texto porque no aportan significado relevante para tareas como clasificación, resumen o búsqueda." + ] + }, { "cell_type": "markdown", "id": "dee971a1-1189-4cb6-8317-4836f54c3ae2", @@ -1259,6 +1561,17 @@ "stop[:10]" ] }, + { + "cell_type": "markdown", + "id": "aa6e0f00", + "metadata": {}, + "source": [ + "* stopwords.words('english')\n", + " Carga una lista de palabras vacías (stopwords) en inglés desde la biblioteca NLTK.\n", + "* stop[:10]\n", + " Muestra las primeras 10 palabras de esa lista." + ] + }, { "cell_type": "markdown", "id": "4c3ec908-de6c-42c5-a370-f1b1df0032b3", @@ -1303,6 +1616,21 @@ "nlp = spacy.load('en_core_web_sm')" ] }, + { + "cell_type": "markdown", + "id": "15bd5e8c", + "metadata": {}, + "source": [ + "import spacy\n", + "Importa la biblioteca spaCy, una herramienta avanzada y muy rápida para procesamiento de lenguaje natural (NLP) en Python.\n", + "\n", + "spacy.load('en_core_web_sm')\n", + "Carga un modelo de lenguaje en inglés llamado en_core_web_sm, que es una versión ligera entrenada por spaCy.\n", + "\n", + "nlp = ...\n", + "Guarda el modelo cargado en la variable nlp, que luego puedes usar para analizar textos." + ] + }, { "cell_type": "markdown", "id": "57d669c3-2f5a-41b6-893b-ea1d438b3a48", @@ -1335,6 +1663,14 @@ "nlp.pipe_names" ] }, + { + "cell_type": "markdown", + "id": "5e615922", + "metadata": {}, + "source": [ + "Es un atributo del modelo de spaCy (nlp) que devuelve una lista con los nombres de los componentes activos en el pipeline de procesamiento." + ] + }, { "cell_type": "markdown", "id": "d1e37f91-d174-4101-bfc6-2859cb0fe5cc", @@ -1354,6 +1690,21 @@ "doc = nlp(tweets['text'][7])" ] }, + { + "cell_type": "markdown", + "id": "9ade311c", + "metadata": {}, + "source": [ + "tweets['text'][7]\n", + "Accede al séptimo tweet del conjunto de datos.\n", + "\n", + "nlp(...)\n", + "Pasa ese texto al modelo de spaCy que ya cargaste con en_core_web_sm. Esto activa el pipeline completo de procesamiento de lenguaje natural.\n", + "\n", + "doc = ...\n", + "Guarda el resultado en la variable doc, que es un objeto especial de spaCy que contiene mucha información estructurada sobre el texto." + ] + }, { "cell_type": "markdown", "id": "54325d60-5c5c-488d-baf2-7eed4de2c031", @@ -1417,6 +1768,14 @@ "spacy_tokens" ] }, + { + "cell_type": "markdown", + "id": "0fde4e8a", + "metadata": {}, + "source": [ + "Está creando una lista con todas las palabras del tweet que fueron procesadas por spaCy, tal como aparecen en el texto original." + ] + }, { "cell_type": "code", "execution_count": 36, @@ -1456,6 +1815,14 @@ "nltk_tokens" ] }, + { + "cell_type": "markdown", + "id": "7ac154df", + "metadata": {}, + "source": [ + "Muestra el contenido de una variable que ya fue creada anteriormente." + ] + }, { "cell_type": "markdown", "id": "a0ace59e-40e0-42b3-9f2b-d30ac94dccab", @@ -1505,6 +1872,14 @@ "spacy_stops" ] }, + { + "cell_type": "markdown", + "id": "f191e65f", + "metadata": {}, + "source": [ + "Crea una lista llamada spacy_stops que contiene valores booleanos True o False para cada palabra del texto procesado, indicando si esa palabra es una stopword o no." + ] + }, { "cell_type": "markdown", "id": "3b6548b6-7e89-4f42-b8cb-bf7c93b34eb4", @@ -1540,6 +1915,16 @@ " # YOUR CODE HERE" ] }, + { + "cell_type": "markdown", + "id": "d331ecfb", + "metadata": {}, + "source": [ + "Busca eliminar las stopwords de un texto usando NLTK.\n", + "* raw_text: es el texto original que quieres limpiar.\n", + "* stopword: es una lista de palabras que consideras irrelevantes." + ] + }, { "cell_type": "code", "execution_count": null, @@ -1556,6 +1941,14 @@ " # YOUR CODE HERE" ] }, + { + "cell_type": "markdown", + "id": "5a84bcae", + "metadata": {}, + "source": [ + "Es otra plantilla de función, esta vez utilizando spaCy en lugar de NLTK. Su objetivo es: eliminar las stopwords (palabras vacías/comunes) de un texto usando la librería spaCy." + ] + }, { "cell_type": "code", "execution_count": null, @@ -1566,6 +1959,14 @@ "# remove_stopword_nltk(text, stop)" ] }, + { + "cell_type": "markdown", + "id": "2fe97ff0", + "metadata": {}, + "source": [ + "Llama a una función que definió anteriormente con el nombre remove_stopword_nltk." + ] + }, { "cell_type": "code", "execution_count": null, @@ -1576,6 +1977,14 @@ "# remove_stopword_spacy(text)" ] }, + { + "cell_type": "markdown", + "id": "68dd65c4", + "metadata": {}, + "source": [ + "Llama a la función remove_stopword_spacy que recibe un texto (text) y devuelve una lista de tokens, usando la librería spaCy para identificar esas stopwords." + ] + }, { "cell_type": "markdown", "id": "d3a6b1ec-87cc-4a08-a5dd-0210a9c56f0b", @@ -1622,6 +2031,19 @@ " print(f\"{token.text:<24} | {token.lemma_:<24} | {token.pos_:<12} | {spacy.explain(token.pos_):<12} | {token.like_url:<12} |\")" ] }, + { + "cell_type": "markdown", + "id": "72cb4074", + "metadata": {}, + "source": [ + "Imprime información detallada de cada palabra (token) del texto procesado por spaCy (doc), mostrando:\n", + "* token.text: La palabra original tal cual aparece en el texto.\n", + "* token.lemma_: El lema o forma base de la palabra (ejemplo: “running” → “run”).\n", + "* token.pos_: La categoría gramatical en forma abreviada.\n", + "* spacy.explain(token.pos_): Una explicación legible en inglés de la categoría gramatical.\n", + "* token.like_url: Valor booleano True o False que indica si spaCy detecta que el token parece una URL." + ] + }, { "cell_type": "markdown", "id": "17388e0c-88b6-4cd9-8d2b-adb7f10b5330", @@ -1655,6 +2077,19 @@ "print(tweet_airport)" ] }, + { + "cell_type": "markdown", + "id": "6afc44d0", + "metadata": {}, + "source": [ + "Accede a dos tweets específicos en el DataFrame tweets:\n", + "* El tweet en la fila 8273, almacenado en tweet_city.\n", + "* El tweet en la fila 502, almacenado en tweet_airport.\n", + "* Imprime el tweet de tweet_city.\n", + "* Imprime una línea separadora compuesta por 50 signos = para visualmente separar las salidas.\n", + "* Imprime el tweet de tweet_airport." + ] + }, { "cell_type": "markdown", "id": "013990a5-5e07-4a45-9427-fcd33840d3b8", @@ -1688,6 +2123,21 @@ " print(f\"{ent.text:<15} | {ent.start_char:<10} | {ent.end_char:<10} | {ent.label_:<10}\")" ] }, + { + "cell_type": "markdown", + "id": "6c62dea8", + "metadata": {}, + "source": [ + "Procesa el texto de tweet_city con el modelo nlp de spaCy, guardando el resultado en doc_city. Esto analiza el texto y extrae información lingüística, incluyendo las entidades nombradas.\n", + "* Itera sobre las entidades encontradas en el texto (doc_city.ents). Cada entidad es una frase o palabra que representa algo importante, como nombres de personas, lugares, organizaciones, fechas, etc.\n", + "\n", + "Para cada entidad ent, imprime:\n", + "* ent.text: El texto exacto de la entidad encontrada.\n", + "* ent.start_char: La posición donde inicia la entidad en el texto original.\n", + "* ent.end_char: La posición donde termina la entidad en el texto.\n", + "* ent.label_: El tipo o categoría de la entidad por ejemplo, GPE para lugar geopolítico, ORG para organización, PERSON para persona, etc." + ] + }, { "cell_type": "markdown", "id": "7b933ed0-7018-450c-b0a6-fb76cb6d5be9", @@ -1748,6 +2198,18 @@ "displacy.render(doc_city, style='ent', jupyter=True)" ] }, + { + "cell_type": "markdown", + "id": "6faeaf7a", + "metadata": {}, + "source": [ + "Importa displacy, que es el visualizador para mostrar análisis de texto.\n", + "\n", + "* Usa displacy.render para mostrar gráficamente las entidades nombradas (personas, lugares, organizaciones, fechas, etc.) detectadas en el objeto doc_city.\n", + "* El parámetro style='ent' indica que queremos visualizar las entidades nombradas.\n", + "* jupyter=True hace que la visualización se muestre dentro de un cuaderno Jupyter en lugar de abrirse en una ventana externa." + ] + }, { "cell_type": "markdown", "id": "f5d7953b-04a1-46d0-817a-db29edd8c83b", @@ -1779,6 +2241,21 @@ " print(f\"{ent.text:<15} | {ent.start_char:<10} | {ent.end_char:<10} | {ent.label_:<10}\")" ] }, + { + "cell_type": "markdown", + "id": "5b99cb6d", + "metadata": {}, + "source": [ + "Procesa el texto tweet_airport con el modelo spaCy para obtener un objeto doc_airport que contiene análisis lingüístico, incluyendo entidades nombradas.\n", + "Itera sobre las entidades encontradas en doc_airport.ents. Cada entidad es una palabra o frase reconocida como entidad significativa (nombres propios, lugares, organizaciones, códigos, fechas, etc.).\n", + "\n", + "Por cada entidad ent, imprime una fila con:\n", + "* ent.text: el texto exacto de la entidad.\n", + "* ent.start_char: la posición de inicio (índice de carácter) en el texto.\n", + "* ent.end_char: la posición final.\n", + "* ent.label_: la etiqueta o tipo de entidad." + ] + }, { "cell_type": "markdown", "id": "1df38472-3193-44c5-9b2f-e311ce9d42e0", @@ -1826,6 +2303,14 @@ "displacy.render(doc_airport, style='ent', jupyter=True)" ] }, + { + "cell_type": "markdown", + "id": "c2669fb2", + "metadata": {}, + "source": [ + "Muestra visualmente las entidades nombradas detectadas en el texto procesado con spaCy." + ] + }, { "cell_type": "markdown", "id": "467d6f28-effc-4fe1-90e9-47c89dc5492d", @@ -1868,6 +2353,14 @@ "tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')" ] }, + { + "cell_type": "markdown", + "id": "dfdd6de5", + "metadata": {}, + "source": [ + "Carga e inicializa el tokenizador BERT desde el modelo preentrenado bert-base-uncased, que es una versión común de BERT." + ] + }, { "cell_type": "markdown", "id": "128cfb38-274e-4d75-9d14-8744020fe49c", @@ -1907,6 +2400,16 @@ "print(f\"Number of tokens: {len(tokens)}\")" ] }, + { + "cell_type": "markdown", + "id": "eab69f2a", + "metadata": {}, + "source": [ + "Selecciona el tweet que está en la fila 194 de la columna 'text' del DataFrame tweets.\n", + "Muestra el contenido del tweet en consola y luego imprime una línea de separación (50 signos =).\n", + "Convierte el texto en una lista de tokens compatibles con el modelo BERT.\n" + ] + }, { "cell_type": "markdown", "id": "bc4f780e-207c-4d3d-b1b6-063c6d118945", @@ -1944,6 +2447,22 @@ "print(f\"Token 2074 is: {tokenizer.decode([2074])}\")" ] }, + { + "cell_type": "markdown", + "id": "11ab9c1c", + "metadata": {}, + "source": [ + "tokenizer.vocab['just']\n", + "\n", + "* Busca el ID numérico que BERT le asigna al token \"just\".\n", + "* En los modelos de lenguaje, cada palabra es convertida a un número entero (token ID) para que el modelo pueda trabajar con ella.\n", + "\n", + "tokenizer.decode([2074])\n", + "\n", + "* Convierte el ID 2074 de nuevo en su representación textual (token).\n", + "* Sirve para interpretar qué palabra representa ese número dentro del vocabulario de BERT." + ] + }, { "cell_type": "markdown", "id": "2b9fd13d-f26e-480c-b43e-2b5fbc4898cd", @@ -1974,6 +2493,25 @@ "print(f\"Input IDs of text: {input_ids}\")" ] }, + { + "cell_type": "markdown", + "id": "66c47a8f", + "metadata": {}, + "source": [ + "tokenizer.convert_tokens_to_ids(tokens)\n", + "\n", + "* Toma una lista de tokens y los convierte en una lista de números enteros, que representan cada token en el vocabulario de BERT.\n", + "* Cada número corresponde a una posición en el vocabulario preentrenado.\n", + "\n", + "print(f\"Number of input IDs: {len(input_ids)}\")\n", + "\n", + "* Muestra cuántos IDs fueron generados.\n", + "\n", + "print(f\"Input IDs of text: {input_ids}\")\n", + "\n", + "* Muestra los números exactos que representan cada token del texto original." + ] + }, { "cell_type": "markdown", "id": "f25a1a14-a6db-414b-a1a8-c6be73c81a15", @@ -2014,6 +2552,25 @@ "print(f\"IDs from tokenizer: {input_ids_from_tokenizer}\")" ] }, + { + "cell_type": "markdown", + "id": "80d2dba0", + "metadata": {}, + "source": [ + "tokenizer(text)['input_ids']\n", + "* Usa el tokenizador de BERT para tokenizar y codificar el texto directamente.\n", + "Internamente, el tokenizer() no solo divide el texto en tokens, sino que también:\n", + " * Añade los tokens especiales [CLS] y [SEP].\n", + " * Convierte los tokens en IDs numéricos.\n", + " * Luego, accede a la clave 'input_ids' para obtener solo los IDs.\n", + "\n", + "print(f\"Number of input IDs: {len(input_ids_from_tokenizer)}\")\n", + "* Imprime cuántos IDs fueron generados, incluyendo los tokens especiales.\n", + "\n", + "print(f\"IDs from tokenizer: {input_ids_from_tokenizer}\")\n", + "* Muestra la lista completa de IDs que representa el texto original." + ] + }, { "cell_type": "markdown", "id": "bb6ea98e-7374-488a-a804-46cab166125c", @@ -2045,6 +2602,18 @@ "print(f\"The 102nd token: {tokenizer.convert_ids_to_tokens(102)}\")" ] }, + { + "cell_type": "markdown", + "id": "b6e12db5", + "metadata": {}, + "source": [ + "Este código convierte los IDs de entrada a sus tokens de texto equivalentes usando el tokenizador de BERT.\n", + "ID 101\n", + "* Token especial que marca el inicio de una secuencia de entrada en BERT.\n", + "ID 102\n", + "* Token especial que separa frases o marca el final de una secuencia." + ] + }, { "cell_type": "markdown", "id": "b16d4e10-e96c-432a-a6c9-2c992d00fcde", @@ -2079,6 +2648,14 @@ " return print(tokens)" ] }, + { + "cell_type": "markdown", + "id": "fa6abbb5", + "metadata": {}, + "source": [ + "Este código define una función llamada get_tokens que tokeniza una cadena de texto usando el tokenizador BERT y luego imprime los tokens resultantes." + ] + }, { "cell_type": "code", "execution_count": 51, @@ -2112,6 +2689,26 @@ "# YOUR EXAMPLE" ] }, + { + "cell_type": "markdown", + "id": "9d15f1d9", + "metadata": {}, + "source": [ + "Este bloque de código está usando la función get_tokens para mostrar cómo el tokenizador maneja diferentes tipos de palabras o casos.\n", + "\n", + "get_tokens('dlab')\n", + "* Muestra cómo el tokenizador divide o reconoce esa palabra.\n", + "\n", + "get_tokens('covid')\n", + "* Observa si el tokenizador la reconoce como token único o la divide en subpartes.\n", + "\n", + "get_tokens('huggable')\n", + "* Muestra si la palabra se divide en partes como \"hug\" + \"gable\" o algo similar.\n", + "\n", + "get_tokens('378')\n", + "* Observa cómo el tokenizador trata números." + ] + }, { "cell_type": "markdown", "id": "4acb7cb9-6e60-4e0a-8cc6-21d57237e835", From 648d00120e57bacd1c9311fb7ac59a92dfb1a7ae Mon Sep 17 00:00:00 2001 From: jmuquinche Date: Tue, 29 Jul 2025 12:08:57 -0500 Subject: [PATCH 3/4] Se realizan cambios --- lessons/02_bag_of_words.ipynb | 16 ++++++++++++++-- 1 file changed, 14 insertions(+), 2 deletions(-) diff --git a/lessons/02_bag_of_words.ipynb b/lessons/02_bag_of_words.ipynb index ab7d4ef..8bf1ace 100644 --- a/lessons/02_bag_of_words.ipynb +++ b/lessons/02_bag_of_words.ipynb @@ -86,7 +86,11 @@ "id": "aa02d204", "metadata": {}, "source": [ - "Se sugiere instalar las bibliotecas necesarias para procesamiento" + "Se sugiere instalar las bibliotecas necesarias para procesamiento: - %pip install NLTK: instala NLTK (Natural Language Toolkit), una biblioteca muy usada para tareas básicas de NLP como tokenización, stemming, y análisis léxico.\n", + "\n", + " - %pip install spaCy: instala spaCy, otra biblioteca potente y eficiente para NLP, especialmente útil para tareas como análisis gramatical, reconocimiento de entidades y dependencias sintácticas.\n", + "\n", + " - !python -m spacy download en_core_web_sm: descarga un modelo preentrenado de spaCy llamado \"en_core_web_sm\", que permite analizar texto en inglés (tokenización, lematización, entidades, etc.)." ] }, { @@ -112,7 +116,15 @@ "id": "2798d7be", "metadata": {}, "source": [ - "Aqui se añadió la linea from sklearn.feature_extraction.text import TfidfVectorizer" + "Aqui se añadió la linea from sklearn.feature_extraction.text import TfidfVectorizer Todo este bloque prepara tu entorno para:\n", + "\n", + "- Procesar texto (re, string, TfidfVectorizer)\n", + "\n", + "- Analizar datos (numpy, pandas)\n", + "\n", + "- Visualizar resultados (matplotlib, seaborn)\n", + "\n", + "- Mostrar gráficos directamente en el notebook (%matplotlib inline)" ] }, { From 210cf1f91afa326b5390a1ff264bfaa86cf5ff3e Mon Sep 17 00:00:00 2001 From: jmuquinche Date: Tue, 29 Jul 2025 12:26:59 -0500 Subject: [PATCH 4/4] Se realizan cambios --- lessons/02_bag_of_words.ipynb | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/lessons/02_bag_of_words.ipynb b/lessons/02_bag_of_words.ipynb index 8bf1ace..29f6042 100644 --- a/lessons/02_bag_of_words.ipynb +++ b/lessons/02_bag_of_words.ipynb @@ -65,7 +65,7 @@ "id": "4d338823", "metadata": {}, "source": [ - "Se sugiere instalar el paquete scikit-learn" + "Se sugiere instalar el paquete scikit-learn// %pip install scikit-learn instala la biblioteca scikit-learn, que sirve para aplicar algoritmos de aprendizaje automático en Python, y se usa dentro de entornos como Jupyter Notebook." ] }, {