Для внедряемого проекта "Системы исполнения моделей", позволяющего реализовать и внедрить:
1. Новую технологическую платформу для исполнения моделей машинного обучения.
2. Возможность использования моделей машинного обучения в стратегиях принятия решений.
3. Повышение лимитов интенсивности использования моделей машинного обучения за счет возможностей промышленного масштабирования нового технологического стека СИМ.
Обязанности:
- Системное администрирование стендов проекта (Kubernetes/Cassandra/Kafka/Minio/Airflow/MLflow)
- Управление конфигурациями сред с использованием Ansible, своевременное обновление версий ПО, мониторинг, восстановление после сбоев, планирование изменений,
- предупреждение и решение инцидентов;
- Разработка и развитие автоматизации внутренних сервисов и задач администрирования;
- Активное взаимодействие с командами разработчиков и тестировщиков.
Требования:
- Описание конфигураций и правка ролей/плейбуков в Аnsible;
- Уверенное понимание работы Kubernetes (k8s) изнутри, опыт самостоятельного разворачивания и обновления в закрытом контуре, способность решать нестандартные задачи;
- Опыт разработки или правки helm-чартов;
- Опыт работы с Cassandra (разворачивание, администрирование);
- Haproxy;
- Istio;
- Jenkins;
- PostgreSQL;
- Kafka;
- Minio;
- Опыт работы с системами мониторинга и логирования Telegraf/Prometheus/Fluent-bit/Grafana/Kibana.
Будет плюсом опыт работы с:
- Apache Hadoop (Spark)
- Seldon
- Longhorn
Что предлагаем мы:
- Работа удаленно;
- ДМС со стоматологией;
- Компенсация курсов и конференций;
- Вся необходимая техника для комфортной работы;
- Мерч для позитивного настроения;
- Поддержка hr 24/7 в любых вопросах;
- Карьерный и профессиональный рост.