Objetivo del puesto
Diseñar, desarrollar, testear, implementar y mantener pipelines de datos eficientes, seguros y escalables en la nube. Será responsable de la ingestión, transformación, procesamiento y disponibilidad de datos mediante procesos ETL/ELT, apoyando proyectos analíticos, de inteligencia artificial y machine learning.
Responsabilidades del puesto
- Diseñar, desarrollar y mantener pipelines de datos batch y/o streaming utilizando AWS, Python, Spark y SQL.
- Implementar procesos ETL/ELT para la ingestión, limpieza, transformación y carga de datos desde múltiples fuentes.
- Desarrollar y orquestar flujos de datos utilizando servicios de AWS como S3, Glue, Lambda, Step Functions y SageMaker.
- Colaborar con equipos de Data Science para preparar datasets y habilitar el entrenamiento y despliegue de modelos de ML.
- Optimizar el rendimiento, la escalabilidad y los costos de los pipelines y la infraestructura de datos.
- Escribir código siguiendo buenas prácticas internacionales de desarrollo y estándares de calidad.
- Considerar y cumplir durante el ciclo de desarrollo todas las políticas de seguridad de la información.
- Documentar adecuadamente las soluciones, pipelines y procesos de datos para facilitar el mantenimiento y la transferencia de conocimientos.
- Identificar, analizar y resolver incidencias, errores o fallas técnicas en los flujos de datos, reportando las acciones tomadas
- Coordinar con otros equipos para facilitar integraciones y mejorar la experiencia del usuario.
Requisitos
Experiencia mínima de 1 año con AWS
Experiencia mínima de 3 años con Python.
Control de versiones con Git,GitHub y Gitlab.
Conocimiento en privacidad de datos (minimizar, anonimizar)
Uso de asistentes de código.