¡Bienvenido a mi portafolio de proyectos de ingeniería de datos! Este repositorio contiene una colección de pipelines y sistemas de datos que demuestran mis habilidades en la construcción de soluciones de datos robustas, escalables y automatizadas.
- Directorio:
./unified_data_lake_project/
Este proyecto implementa una plataforma de datos completa que ingiere datos de dos fuentes distintas: un flujo de eventos en tiempo real (simulado desde una API de criptomonedas) y cargas batch de archivos CSV históricos. Ambos flujos de datos se procesan y se integran en una única tabla Delta Lake, creando una fuente de verdad unificada y permitiendo análisis completos.
La idempotencia se garantiza en el pipeline batch mediante operaciones MERGE
, y todo el entorno es reproducible y se gestiona con Docker.
- Procesamiento: Apache Spark (Structured Streaming y Batch)
- Almacenamiento: Delta Lake sobre un Data Lake (simulado en disco local)
- Mensajería/Streaming: Apache Kafka
- Orquestación: Apache Airflow
- Contenerización: Docker & Docker Compose
- Directorio:
./youtube_trends_pipeline/
Este proyecto implementa un pipeline de datos siguiendo el paradigma ELT (Extract, Load, Transform). El sistema extrae datos sobre las tendencias de YouTube, los carga en un Data Warehouse (PostgreSQL) y luego utiliza dbt (Data Build Tool) para ejecutar transformaciones SQL modelando los datos crudos en tablas analíticas limpias y listas para el consumo (por ejemplo, para un dashboard de BI).
El pipeline está completamente orquestado con Apache Airflow.
- Transformación: dbt (Data Build Tool)
- Orquestación: Apache Airflow
- Data Warehouse: PostgreSQL
- Contenerización: Docker & Docker Compose
- CI/CD: GitHub Actions (para linting de Python)
- Directorio:
./social_sentiment_pipeline/
Sistema completo de ingeniería de datos que captura, procesa y analiza sentimientos de redes sociales en tiempo real. El pipeline ingesta tweets usando la API de Twitter, aplica modelos de Machine Learning para análisis de sentimientos, y proporciona dashboards en tiempo real con métricas y alertas automáticas.
Este proyecto demuestra competencias avanzadas en streaming de datos, ML en producción, y arquitecturas event-driven para casos de uso de monitoreo de marca y análisis de tendencias sociales.
- Ingesta: Twitter API v2 + Python Producer
- Streaming: Apache Kafka + Spark Structured Streaming
- ML: Transformers (BERT/RoBERTa) para análisis de sentimientos
- Almacenamiento: ClickHouse (OLAP optimizado)
- Orquestación: Apache Airflow
- Visualización: Grafana + Dashboards en tiempo real
- Contenerización: Docker & Docker Compose
- Tiempo Real: Procesamiento de tweets en ventanas de segundos
- ML Avanzado: Modelos pre-entrenados de última generación
- Analytics Rápidos: ClickHouse optimizado para consultas analíticas
- Monitoreo: Dashboards con métricas de sentimiento, engagement y trending topics
- Alertas: Notificaciones automáticas por anomalías de sentimiento
- Directorio:
./security_logs_pipeline/
Sistema completo de Security Information and Event Management (SIEM) que procesa logs de seguridad en tiempo real, detecta amenazas usando Machine Learning, y genera alertas automáticas para respuesta rápida a incidentes. El pipeline combina ingeniería de datos con ciberseguridad para crear una solución robusta de monitoreo de seguridad.
Este proyecto demuestra competencias críticas en detección de amenazas, análisis forense, y cumplimiento de normativas de seguridad (PCI-DSS, HIPAA, SOX, GDPR).
- Colección: Filebeat + Logstash (ELK Stack)
- Streaming: Apache Kafka + Apache Storm
- Machine Learning: Scikit-learn + Isolation Forest + LSTM
- SIEM: Elasticsearch + Kibana + Wazuh
- Alertas: ElastAlert + Slack/Email/PagerDuty
- Orquestación: Apache Airflow
- Infraestructura: Docker Compose + Kubernetes ready
- Detección en Tiempo Real: Procesamiento con latencia < 30 segundos
- ML para Seguridad: Isolation Forest y análisis de anomalías
- Alertas Inteligentes: Reducción de falsos positivos con correlación
- Compliance: Cumplimiento automático de normativas de seguridad
- Investigación Forense: Herramientas avanzadas para análisis de incidentes
- Escalabilidad: Arquitectura distribuida para alto volumen de logs
- Detección de Intrusiones: Análisis de logs de firewall y IDS/IPS
- Monitoreo Web: Detección de ataques SQL injection, XSS, CSRF
- Análisis de Autenticación: Detección de ataques de fuerza bruta
- Comportamiento Anómalo: Identificación de actividad sospechosa de usuarios