WikiProf2026 год

Вопросы для собеседования DevOps-инженера

Вопросы для собеседования DevOps-инженера
Статью проверил эксперт — Павел Царенок

Статью проверил эксперт — Павел Царенок

Сеошник, маркетолог, копирайтер с опытом 10+ лет.

Основатель проекта WikiProf.


Делаю SEO с головой и только в белую, помогаю людям найти свою профессию и призвание через WikiProf и не только. 

По вопросам сотрудничества — @Pawel_Tsaranok

Базовые концепции DevOps

Linux и администрирование

Сети и протоколы

Docker и контейнеризация

Kubernetes

CI/CD

IaC (Terraform/Ansible)

Облака и инфраструктура

Мониторинг и логирование

Безопасность

Надежность

Практические сценарии

Soft skills и процессы

Middle–Senior уровень

Дополнительные 10 вопросов для собеседования DevOps

Краткие итоги

DevOps-специалист отвечает за стабильность, автоматизацию и масштабируемость инфраструктуры. На собеседованиях проверяют не только знание инструментов, но и понимание принципов, архитектуры и практических сценариев. Ниже – подборка из 70 типовых вопросов для собеседования DevOps-специалиста с примерными ответами.

Базовые концепции DevOps

1. Что такое DevOps?
DevOps – это набор практик и культурных принципов, которые сокращают разрыв между разработкой и эксплуатацией. На практике это означает: автоматизация сборки/деплоя, единые стандарты, прозрачность метрик, совместная ответственность за релизы и стабильность. DevOps – не “должность”, а способ организовать поставку изменений быстро и безопасно.

2. Основная цель DevOps?
Сократить время от изменения кода до продакшена (lead time), увеличив частоту релизов без ухудшения стабильности. Если говорить метриками: ускорить deployment frequency, сократить change failure rate и MTTR, удерживая качество.

3. Чем DevOps отличается от SysAdmin?
SysAdmin часто фокусируется на поддержке и администрировании. DevOps – на воспроизводимости и автоматизации: инфраструктура как код, CI/CD, наблюдаемость, системный подход к релизам. Плюс DevOps тесно взаимодействует с разработкой и влияет на архитектурные решения.

4. Что такое CI/CD?
CI (continuous integration) – частая интеграция кода в общий репозиторий с автоматическими тестами/линтингом/сборкой. CD – автоматическая доставка: либо continuous delivery (готовность к релизу кнопкой), либо continuous deployment (автовыкат в прод). Важно: CD не равно “катим без контроля”, там всё держится на тестах, этапах, approvals и наблюдаемости.

5. Какие проблемы решает DevOps?
Ручные деплои и человеческие ошибки, долгие релизы, нестабильные окружения, “работает у меня”, отсутствие видимости (метрик/логов), конфликт интересов Dev vs Ops. В итоге – ускорение разработки при снижении риска инцидентов.

Linux и администрирование

6. Как посмотреть нагрузку на систему?
top/htop показывают процессы, CPU/RAM. uptime – load average (важно понимать: load ≠ CPU, это “очередь” задач, включая I/O). vmstat помогает увидеть I/O wait, swap. iostat – дисковую подсистему. На собесе круто: “смотрю CPU steal в облаке, iowait, run queue и память (RSS, page cache)”.

7. Что такое inode?
Это запись файловой системы с метаданными: права, владелец, размер, ссылки, указатели на блоки. Имя файла хранится в каталоге, а inode – отдельно. Поэтому можно “закончить inode” при наличии свободного места – типичная проблема на маленьких файлах.

8. Hard link vs soft link?
Hard link – ещё одно имя того же inode; файл “существует”, пока есть ссылки. Soft link (symlink) – файл-ссылка на путь; если цель удалена – будет “битая” ссылка. Hard link обычно не работает через разные FS и для директорий.

9. Как найти процесс по порту?
ss -lntp | grep :443 или lsof -i :443. Затем PID → ps -fp PID. Для исходящих соединений – ss -antp. Хорошо упомянуть, что на контейнерах и в k8s бывает NAT, и порт виден на ноде иначе.

10. Что такое systemd?
Система инициализации и менеджер сервисов: unit-файлы, зависимости, рестарты, таймеры, journald. Важно: можно настроить Restart=alwaysLimitNOFILEExecStartPre, health-логика через watchdog.

Сети и протоколы

11. TCP vs UDP?
TCP гарантирует порядок и доставку (ACK, ретрансляции), подходит для веба и API. UDP не гарантирует доставку/порядок, зато ниже задержки – полезно для стриминга, VoIP, игр, DNS. На собесе: “если приложению нужна надёжность – реализуем поверх UDP (QUIC) или берём TCP”.

12. Что такое DNS?
Система именования. Клиент спрашивает резолвер → тот получает записи (A/AAAA/CNAME/MX/TXT/NS) с TTL. Важны кеш и propagation. Частые проблемы: неправильный TTL, split-horizon, stale cache, NXDOMAIN из-за DNSSEC/делегации.

13. Что такое NAT?
Трансляция адресов (и иногда портов). SNAT – когда внутренний трафик выходит наружу с публичного IP. DNAT – когда входящий трафик перенаправляется на внутренний адрес. Минусы: усложняет трассировку, ломает end-to-end, влияет на P2P. 

14. Как работает HTTPS?
HTTP поверх TLS. В TLS handshake клиент проверяет сертификат (цепочка CA), согласуют шифры, устанавливают ключи, затем данные шифруются. Важно: SNI, ALPN (HTTP/2), OCSP stapling. Частый кейс: истёкший сертификат/неверная цепочка.

15. Что такое load balancer?
Компонент распределения трафика между бэкендами. Бывает L4 (TCP/UDP) и L7 (HTTP). Поддерживает health checks, sticky sessions, TLS termination, rate limiting. В k8s роль могут играть Service/Ingress + внешний LB.

Docker и контейнеризация

16. Что такое контейнер?
Изоляция на уровне ОС через namespaces (процессы, сеть, FS) и cgroups (ресурсы). Контейнер использует ядро хоста, поэтому быстрее VM. Но важно: это не “полная безопасность”, нужен hardening.

17. Контейнер vs VM?
VM – отдельная ОС, лучше изоляция, тяжелее. Контейнер – лёгкий, быстрый старт, идеально для микросервисов. Часто используют вместе: контейнеры внутри VM в облаке.

18. Что такое Dockerfile?
Сценарий сборки образа: FROMRUNCOPYENTRYPOINT. Хорошие практики: фиксировать версии, использовать multi-stage, минимизировать слои, не хранить секреты в образе, использовать non-root.

19. Что такое image?
Набор read-only слоёв. Контейнер добавляет write-layer сверху. Поэтому данные контейнера исчезают при пересоздании – для данных нужны volume/база/объектное хранилище.

20. Как уменьшить размер образа?
alpine/slim (с осторожностью), multi-stage (builder → runtime), очистка кешей (apt-get clean, remove /var/lib/apt/lists), не тянуть лишнее, .dockerignore. И не забыть про безопасность: slim-образ часто проще сканировать.

Kubernetes

21. Что такое Kubernetes?
Платформа оркестрации: планирует поды на ноды, следит за состоянием, масштабирует, обновляет. Дает declarative model: “я хочу 3 реплики”, кластер поддерживает.

22. Что такое Pod?
Одна или несколько контейнерных задач с общей сетью и томами. Обычно один контейнер = один pod, но бывают sidecar (логгер, proxy).

23. Deployment vs StatefulSet?
Deployment – stateless: реплики взаимозаменяемы. StatefulSet – стабильные идентификаторы, порядок запуска/обновления, обычно с PVC, подходит для БД/очередей.

24. Что такое Service?
Стабильная точка доступа к подам. Type ClusterIP/NodePort/LoadBalancer. Селектор связывает Service с подами. Внутри – kube-proxy/iptables/ipvs.

25. ConfigMap и Secret?
ConfigMap – конфиги (не секретные). Secret – чувствительные данные, но по умолчанию это base64, не шифрование. Лучше включать encryption-at-rest и/или использовать внешние Secret Manager.

CI/CD

26. Что такое pipeline?
Цепочка этапов: build → test → security scan → package → deploy → smoke tests. Хороший pipeline умеет “быстро падать” (fail fast), кэшировать зависимости, разделять окружения (dev/stage/prod).

27. Инструменты CI?
GitHub Actions, GitLab CI, Jenkins, CircleCI. Важно не название, а принципы: repeatable builds, gated deploy, artifacts, approvals, secrets management.

28. Blue-green deployment?
Есть две среды: blue (текущая) и green (новая). Выкатываем green, прогоняем проверки, затем переключаем трафик. 
Плюс – быстрый rollback. 
Минус – удвоение ресурсов.

29. Canary release?
Постепенный выкат: 1% → 10% → 50% → 100%. Следим за метриками (ошибки, latency). 
Плюс – риск ограничен. 
Минус – сложнее мониторинг и управление версиями.

30. Где хранить секреты в CI?
В защищённых переменных CI, Vault/Secret Manager, OIDC/short-lived tokens. Никогда не коммитить в репо и не печатать в логах. Для k8s – external secrets, sealed secrets, vault injector.

IaC (Terraform/Ansible)

31. Что такое IaC?
Управление инфраструктурой как кодом: изменения через pull request, ревью, историю, повторяемость. Это снижает дрейф и ускоряет создание окружений.

32. Инструменты IaC?
Terraform – provisioning ресурсов (cloud, сети, DB). Ansible – конфигурация и orchestration на ОС/сервисах. Часто Terraform создаёт ресурсы, а Ansible “докручивает”.

33. Разница Ansible vs Terraform?
Terraform декларативный и хранит state, ориентирован на “ресурсы”. Ansible чаще императивный (хотя идемпотентный), ориентирован на “действия/конфиг”. На практике их комбинируют.

34. Что такое Terraform state?
Файл состояния соответствия “ресурс в облаке ↔ ресурс в коде”. Без него Terraform не понимает, что создано. Поэтому state нужно защищать и блокировать (lock) для избежания гонок.

35. Как хранить state?
Удалённо: S3 + DynamoDB lock, или аналоги в облаке. Права доступа строго ограничить. Версионирование включить. Секреты в state – проблема: лучше использовать внешние секреты.

Облака и инфраструктура

36. IaaS, PaaS, SaaS?
IaaS – вы управляете VM/сетями. PaaS – платформа (managed DB, k8s), меньше операционки. SaaS – готовое ПО (почта, CRM). Чем выше уровень, тем меньше контроля, но меньше поддержки.

37. Что такое VPC/VNet?
Логическая сеть в облаке: подсети, маршруты, security groups. Правильная сегментация (public/private) – база безопасности.

38. Что такое autoscaling?
Автоскейлинг увеличивает/уменьшает ресурсы по метрикам. В k8s есть HPA (pods) и Cluster Autoscaler (ноды). Важно: настроить лимиты и правильные метрики.

39. Availability zone?
Изолированные дата-центры внутри региона. Для HA размещают ресурсы минимум в двух AZ, иначе отказ AZ = простой.

40. Cloud-native?
Подход, где приложение рассчитано на масштабирование и отказоустойчивость: контейнеры, stateless, внешние зависимости, наблюдаемость, immutable deployments.

Мониторинг и логирование

41. Что такое мониторинг?
Сбор метрик и их анализ для понимания состояния системы. Цель – обнаружить отклонения и предотвратить инциденты, а не просто “рисовать графики”.

42. Примеры метрик?
RED (rate, errors, duration) для сервисов, USE (utilization, saturation, errors) для ресурсов. Для API: rps, p95 latency, 5xx rate.

43. Алертинг?
Уведомления по условиям. Хорошие алерты: actionable, с приоритетом и контекстом. Плохие: “шум” без действий.

44. Логи vs метрики vs трейсы?
Логи – события, метрики – числа во времени, трейсы – путь запроса по сервисам. В микросервисах часто без tracing тяжело найти источник p95 задержек.

45. Инструменты?
Prometheus+Grafana, ELK/Opensearch, Loki, Jaeger/Tempo. Главное – единые labels, корреляция request-id, централизованный сбор.

Безопасность

46. Least privilege?
Права выдаются минимально необходимые. Это снижает ущерб при компрометации. Реализация: RBAC, отдельные роли, временные доступы.

47. Secrets rotation?
Регулярная смена секретов и ключей. В идеале – автоматическая ротация, short-lived токены, аудит использования.

48. Как защитить Docker?
Non-root, read-only FS, drop capabilities, seccomp/apparmor, ограничение ресурсов, сканирование образов, подписанные образы. И контроль registry.

49. Firewall?
Сетевые правила allow/deny. В облаках это security groups/NACL. В k8s – network policies. Важно: default deny и явные разрешения.

50. Zero Trust?
Не доверяем по умолчанию ни сети, ни устройству. Проверка identity, mTLS, сегментация, постоянная валидация запросов.

Надежность

51. SLA/SLO/SLI?
SLI – метрика (например, % успешных запросов). SLO – целевое значение (99.9%). SLA – контрактная гарантия и последствия. В DevOps важно управлять через SLO.

52. Single point of failure?
Компонент, отказ которого ломает сервис: одна БД без реплики, один LB, один AZ. Убирают через дублирование и распределение.

53. Как повысить отказоустойчивость?
Репликация, многозонность, health checks, circuit breaker, очереди, graceful degradation, автоматический rollback. И обязательно тестировать отказ.

54. Backup?
Резервные копии данных и/или конфигураций. Важно: бэкап без восстановления – не бэкап. Нужны регулярные restore-тесты.

55. RPO/RTO и частота backup?
RPO – допустимая потеря данных, RTO – время восстановления. Частота бэкапа определяется RPO: если RPO 15 минут – нужны частые snapshots/лог-архивы.

Практические сценарии

56. Что делать, если сервис упал ночью?
Сначала стабилизировать: понять масштаб, при необходимости откат/перезапуск. Затем диагностика: метрики (CPU/RAM/latency), логи, последние деплои, зависимости (DB/queue). После – postmortem и задачи на предотвращение.

57. Как диагностировать медленный API?
Смотрю p95/p99 latency, error rate, время в БД, очередь, сеть, GC, throttling. Добавляю tracing, определяю где задержка: приложение, БД, внешний сервис или LB.

58. Как уменьшить downtime при релизе?
Rolling update с readiness/liveness probes, blue-green, canary. Обязательно: миграции БД совместимые (expand/contract), feature flags.

59. Что делать при утечке секретов?
Немедленно отозвать/ротация, ограничить доступ, определить scope (где использовался), проверить логи на злоупотребления, обновить pipeline, чтобы больше не утекало. Затем – расследование и улучшения.

60. Как документировать инфраструктуру?
README в репозитории IaC, диаграммы (C4), runbooks, инструкции для инцидентов, описание SLO/алертов. Документация должна быть живой частью процесса (PR-обновления).

Soft skills и процессы

61. Почему DevOps – культура?
Инструменты не решают проблему без совместной ответственности и процессов. Если Dev “кидает” релиз, а Ops “запрещает”, никакой CI не спасёт.

62. Как работать с разработчиками?
Через общие цели (SLO, скорость релизов), удобные пайплайны, хорошие среды, прозрачные алерты. Обсуждать архитектуру вместе, а не “после факта”.

63. Скорость или стабильность?
Нужен баланс. Стабильность измеряется error rate/latency, скорость – lead time и deployment frequency. Через SLO и error budget можно регулировать темп релизов.

64. Отношение к дежурствам?
Дежурства – часть ответственности за прод. Важно: уменьшать частоту инцидентов через автоматизацию, улучшение алертов и postmortem, иначе выгорание.

65. Что делать, если нет документации?
Начать с минимального: как деплоить, как откатить, где логи/метрики, контакты. Далее – runbooks по типовым инцидентам.

Middle–Senior уровень

66. Как масштабировать stateful-приложение?
Вынос состояния (DB/redis), репликация/шардинг, горизонтальное масштабирование чтения, правильное хранилище (PVC/CSI), careful updates (StatefulSet). Часто важнее выбрать managed DB, чем “таскать БД в k8s”.

67. Как снизить cloud-costs?
Rightsizing, выключение неиспользуемого, autoscaling, spot/preemptible, оптимизация storage и egress, reserved instances. Также – наблюдаемость затрат по тегам и бюджетам.

68. Как проверить надёжность?
Chaos engineering: отключение нод, задержки сети, падение зависимостей. Но обязательно контролируемо: на стейдже или малым канареечным процентом, с метриками.

69. Как выбрать стек DevOps?
От задач: размер команды, требования безопасности, регуляторика, зрелость. Лучше брать стандартные и поддерживаемые решения, чем “зоопарк”. Важно: стоимость владения.

70. Главная ошибка начинающих DevOps на ваш взгляд?
Учить инструменты без понимания систем: сети, Linux, архитектуры, SRE-подхода. Вторая ошибка – недооценка наблюдаемости и безопасности.

Дополнительные 10 вопросов для собеседования DevOps

71. Как вы управляете конфигурациями между разными окружениями (dev / stage / prod)?
Обычно используется принцип config separation: код и конфигурации разделены. Конфигурации хранятся в ConfigMap/Secrets (в Kubernetes), переменных окружения или внешних Secret Manager. Для IaC применяются разные variables/overlays, а изменения проходят через pull request, чтобы избежать ручных правок.

72. Что такое idempotency и почему она важна в DevOps?
Idempotency означает, что повторное выполнение операции даёт тот же результат. Это критично для Ansible, Terraform и CI/CD: повторный запуск не должен ломать систему. Идемпотентность снижает риски при автоматизации и восстановлении после сбоев.

73. Как вы определяете, что алерт действительно нужен?
Алерт должен быть actionable: по нему должно быть понятно, что делать. Хороший алерт указывает на нарушение SLO или деградацию пользовательского опыта. Если алерт не требует действий – это метрика, а не алерт, и он создаёт шум.

74. Что такое error budget и как вы его используете?
Error budget – допустимый уровень ошибок, вычисляемый из SLO. Если бюджет не исчерпан, команда может чаще релизить. Если исчерпан — фокус смещается на стабильность. Это инструмент баланса между скоростью и надежностью.

75. Как вы подходите к миграциям базы данных при CI/CD? 
Используется подход backward-compatible migrations: сначала расширение схемы, затем деплой приложения, потом удаление старых полей. Миграции автоматизируются, но не выполняются “вслепую” без тестирования на stage.

76. Как понять, что проблема в приложении, а не в инфраструктуре?
Сравниваются метрики разных уровней: если инфраструктура стабильна (CPU, RAM, сеть), но растёт latency и ошибки – вероятно, проблема в коде. Distributed tracing помогает быстро локализовать источник.

77. Как вы работаете с техническим долгом в DevOps? 
Технический долг фиксируется как задачи: устаревшие образы, небезопасные конфиги, ручные операции. Его нельзя “закрыть сразу”, но он должен быть видимым и планируемым, иначе страдает стабильность.

78. Что вы делаете, если разработчики игнорируют требования инфраструктуры? 
DevOps не “запрещает”, а объясняет последствия: влияние на SLO, стоимость, безопасность. Лучший подход — автоматические ограничения (policies, checks в CI), а не ручной контроль.

79. Как вы оцениваете зрелость DevOps в компании?
По метрикам: частота релизов, MTTR, change failure rate, степень автоматизации, наличие мониторинга и postmortem. Если всё держится на “ручном герое” — зрелость низкая, даже при наличии CI/CD.

80. Что бы вы улучшили в DevOps-процессах в первую очередь? 
Обычно это наблюдаемость и автоматизация рутинных операций. Без метрик и логов невозможно принимать решения, а без автоматизации команда быстро упирается в масштаб.

Краткие итоги

Вопросы для собеседования DevOps охватывают широкий круг тем: от базовых принципов работы Linux и сетей до контейнеризации, CI/CD, Kubernetes, облачной инфраструктуры и обеспечения надежности систем. Успешное прохождение интервью требует не столько заучивания инструментов, сколько понимания архитектуры, причинно-следственных связей и практических сценариев работы с продакшен-системами.

Подготовка к собеседованию DevOps должна строиться системно: важно уметь объяснять свои решения, приводить примеры из практики и показывать понимание процессов, а не только терминов. Такой подход позволяет уверенно отвечать на вопросы для собеседования DevOps и демонстрировать зрелое инженерное мышление, которое ценится работодателями при оценке специалистов любого уровня.

Комментарии:

Похожие статьи:

50 вопросов на собеседование QA-инжинера с примерами ответов

50 вопросов на собеседование QA-инжинера с примерами ответов

Статью проверил эксперт — Павел Царенок

Статью проверил эксперт — Павел Царенок

70 вопросов для Frontend разработчика на собеседование

70 вопросов для Frontend разработчика на собеседование

Проверил эксперт — Павел Царенок

Проверил эксперт — Павел Царенок

Топ профессий для людей с хорошим английским

Топ профессий для людей с хорошим английским

Статью подготовил эксперт — Павел Царенок

Статью подготовил эксперт — Павел Царенок

Что справшивать у работодателя на собеседовании: 50 вопросов и ответов

Что справшивать у работодателя на собеседовании: 50 вопросов и ответов

Проверил эксперт — Павел Царенок

Проверил эксперт — Павел Царенок

120 вопросов с примерами ответов для собеседования на дизайнеров: веб, графический, UX/UI

120 вопросов с примерами ответов для собеседования на дизайнеров: веб, графический, UX/UI

Список вопросов подготовил Павел Царенок

Список вопросов подготовил Павел Царенок

Уроки графического дизайна бесплатно: каналы, на которые стоит подписаться начинающему дизайнеру

Уроки графического дизайна бесплатно: каналы, на которые стоит подписаться начинающему дизайнеру

Топ каналов собрал эксперт Павел Царенок

Топ каналов собрал эксперт Павел Царенок