
Ingeniero de Datos
- Bogotá DC
- Permanente
- Tiempo completo
- Diseño y Desarrollo de Pipelines de Datos (ETL/ELT)
- Diseñar, construir e implementar soluciones de ingesta de datos robustas y escalables desde diversas fuentes (bases de datos relacionales, NoSQL, APIs, logs, archivos CSV/JSON) hacia un Data Lake en AWS (S3).
- Desarrollar y optimizar procesos ETL/ELT utilizando servicios de AWS como AWS Glue (PySpark/Scala), AWS Lambda, AWS Data Pipeline o Apache Airflow (gestionado en EC2 o EKS) para la orquestación de flujos de trabajo.
- Implementar estrategias de Change Data Capture (CDC) desde bases de datos operacionales para mantener los datos del Data Lake actualizados.
- Gestión y Optimización de Data Lake/Warehouse en AWS:
- Programación: Dominio avanzado de Python (indispensable) para scripting y desarrollo de ETL. Conocimientos de Scala o Java son un plus.
- Bases de Datos: Experiencia sólida en SQL y bases de datos relacionales (PostgreSQL, MySQL, SQL Server, Oracle).
- Data Warehousing: Comprensión de conceptos de Data Warehousing, modelado dimensional (Star/Snowflake Schema) y técnicas de optimización.
- Big Data: Familiaridad con conceptos y herramientas de procesamiento distribuido (Spark).
- Conocimientos enAWS (Indispensables):
- Almacenamiento: Experiencia práctica con Amazon S3 (diseño, políticas, optimización).
- ETL/Procesamiento: Conocimiento y experiencia en al menos dos de los siguientes:
- AWS Glue (ETL con PySpark/Scala).
- AWS Lambda (para funciones de procesamiento de eventos).
- Amazon EMR (Spark, Hive, Presto).
- Data Warehousing/Querying: Experiencia con Amazon Redshift y/o Amazon Athena.
- Orquestación: Familiaridad con AWS Step Functions, AWS Data Pipeline o Apache Airflow (en EC2/EKS).
- Bases de Datos: Experiencia con Amazon RDS y/o Amazon DynamoDB.
- Monitoreo/Seguridad: Conocimientos básicos de AWS CloudWatch, IAM, y VPC.
- Conocimiento en Python, Scala, bash u otros lenguajes de scripting.