Este proyecto contiene notebooks de introducción y práctica con PySpark y Spark SQL, diseñados para ser utilizados en Google Colab.
- Puedes abrir cualquier notebook directamente en Google Colab pulsando el botón Open in Colab que aparece al principio de cada archivo.
- Los notebooks están preparados para ejecutarse en el entorno de Colab, incluyendo la instalación de dependencias necesarias.
- pyspark_basic_commands.ipynb: Introducción a los comandos básicos de PySpark.
- sparksql_renfe.ipynb: Ejercicios y ejemplos usando Spark SQL con datos de Renfe.
- pyspark_renfe.ipynb: Ejercicios prácticos de PySpark con datos de Renfe.
- Los archivos que comienzan por
template_
(por ejemplo,template_pyspark_basic_commands.ipynb
) contienen los mismos ejercicios que sus equivalentes sintemplate_
, pero sin la solución. Están pensados para que los estudiantes los resuelvan por su cuenta.
- No es necesario instalar nada en local. Solo necesitas una cuenta de Google y acceder a Colab.
- Si prefieres ejecutar los notebooks en local, asegúrate de tener instalado Python 3, PySpark y Jupyter Notebook.
- Cada notebook incluye instrucciones y celdas de código listas para ejecutar.
- Si tienes problemas con la instalación de dependencias en Colab, reinicia el entorno de ejecución y vuelve a ejecutar las celdas iniciales.
Si te gusta este contenido, puedes ver más en mi perfil de LinkedIn. Divulgo sobre Data, IA y SaaS! 😄