AI для DevOps - Bekhan.org

## AI для DevOps AI-инструменты для DevOps помогают автоматизировать рутинные задачи: диагностику проблем в кластерах, создание инфраструктуры из описания на человеческом языке, настройку CI/CD пайплайнов. Вместо того чтобы копаться в логах или писать сотни строк конфигов, ты говоришь AI что нужно — он делает. --- ### Зачем нужен AI в DevOps? Представь: ты DevOps-инженер. Ночью падает продакшн. Ты открываешь Kubernetes — там 50 подов, 20 из них в статусе `CrashLoopBackOff`. Нужно понять какой под виноват, почему упал, как починить. Это 2 часа копания в логах и YAML-файлах. Или другой сценарий: разработчик просит "подними мне базу данных PostgreSQL с репликацией в AWS". Ты садишься писать Terraform — 200 строк HCL-кода, потом тестируешь, потом фиксишь ошибки. ``` Без AI: ┌─────────────────────────────────────────────────────────┐ │ Проблема в кластере │ │ ↓ │ │ kubectl describe pod (20 раз) │ │ ↓ │ │ kubectl logs (для каждого пода) │ │ ↓ │ │ Гуглишь ошибку │ │ ↓ │ │ Stack Overflow │ │ ↓ │ │ Пробуешь фикс → не работает → повторяешь │ │ │ │ Итого: 2-3 часа │ └─────────────────────────────────────────────────────────┘ С AI: ┌─────────────────────────────────────────────────────────┐ │ Проблема в кластере │ │ ↓ │ │ k8sgpt analyze --explain │ │ ↓ │ │ "Pod nginx-abc123 падает из-за OOMKilled. │ │ Увеличьте memory limit до 512Mi" │ │ ↓ │ │ Применяешь фикс │ │ │ │ Итого: 5 минут │ └─────────────────────────────────────────────────────────┘ ``` --- ### K8sGPT **Сайт:** https://k8sgpt.ai **Что это?** CLI-инструмент, который сканирует Kubernetes-кластер и объясняет проблемы человеческим языком. **В каком виде поставляется?** CLI-утилита + Kubernetes-оператор (можно запустить внутри кластера для постоянного мониторинга). **Цена?** Open-source (CNCF Sandbox проект). Бесплатно. **Проблема, которую решает:** Под упал. Ты видишь статус `CrashLoopBackOff`, но причина непонятна. Нужно смотреть describe, логи, events — и всё равно не ясно что делать. K8sGPT сам анализирует и говорит: "Контейнер убит из-за нехватки памяти. Увеличь limit." **Как работает:** K8sGPT — как опытный SRE-коллега, который смотрит на твой кластер и сразу говорит что не так. ``` ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ Kubernetes │ ──▶ │ K8sGPT │ ──▶ │ OpenAI / │ │ Cluster │ │ Analyzers │ │ Ollama │ └──────────────┘ └──────────────┘ └──────────────┘ │ │ │ │ ▼ │ │ ┌──────────────┐ │ └──────────▶│ Результат: │◀─────────────┘ │ проблема + │ │ решение │ └──────────────┘ ``` **Пример:** ```bash # Установка brew install k8sgpt # Добавить OpenAI провайдер k8sgpt auth add --backend openai --model gpt-4 # Анализ кластера с объяснением k8sgpt analyze --explain # Результат: # Pod default/nginx-7d9fc9c85-abc123: # - Error: CrashLoopBackOff # - Root cause: Container exceeded memory limit (256Mi) # - Solution: Increase memory limit in deployment spec to 512Mi ``` **Фишки:** - Поддерживает 15+ AI-провайдеров (OpenAI, Ollama, Azure, Google, Amazon Bedrock) - Можно запустить как оператор внутри кластера для постоянного мониторинга - Интеграция с Trivy для анализа CVE-уязвимостей - Работает с MCP (Model Context Protocol) для интеграции с Claude Desktop --- ### Kubiya **Сайт:** https://www.kubiya.ai **Что это?** Платформа AI-агентов для автоматизации DevOps-задач через Slack, Teams или веб-интерфейс. **В каком виде поставляется?** SaaS-платформа с self-hosted опцией. Интеграция через Slack/Teams. **Цена?** Enterprise-продукт. Цена по запросу. Есть в AWS Marketplace. **Проблема, которую решает:** Разработчик пишет в Slack: "Мне нужен новый namespace в Kubernetes с квотами". Ты делаешь это вручную — 15 минут. С Kubiya разработчик пишет запрос прямо в Slack, AI создаёт namespace, применяет политики, и отвечает "Готово" — всё за 30 секунд. **Как работает:** Kubiya — как AI-помощник, который сидит в твоём Slack и умеет нажимать кнопки в твоей инфраструктуре. ``` ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ Slack / │ ──▶ │ Kubiya │ ──▶ │ Terraform │ │ Teams │ │ Agent │ │ Kubernetes │ │ │ │ │ │ GitHub │ └──────────────┘ └──────────────┘ └──────────────┘ │ │ │ │ ▼ │ │ ┌──────────────┐ │ └───────────│ "Namespace │◀─────────────┘ │ dev-team-3 │ │ создан" │ └──────────────┘ ``` **Пример:** ``` # В Slack: @Kubiya создай namespace "dev-team-frontend" с лимитом 4 CPU и 8Gi памяти # Kubiya: ✓ Создан namespace dev-team-frontend ✓ Применены ResourceQuota: cpu=4, memory=8Gi ✓ Добавлены NetworkPolicies по стандарту компании ✓ Настроен RBAC для группы frontend-devs Namespace готов к использованию. ``` **Фишки:** - Контекстная память — помнит твою инфраструктуру и прошлые запросы - Role-based access control — разные права для разных команд - Интеграция с Jira, ServiceNow для approval-воркфлоу - Признан Gartner Cool Vendor и получил награду Intellyx Digital Innovator 2025 --- ### Pulumi AI **Сайт:** https://www.pulumi.com **Что это?** AI-ассистент, который генерирует Infrastructure as Code из описания на человеческом языке. **В каком виде поставляется?** Веб-интерфейс + CLI + Pulumi Cloud с AI-агентом Neo. **Цена?** Pulumi AI бесплатен. Pulumi Cloud — от $0 (Individual) до Enterprise. **Проблема, которую решает:** Тебе нужно развернуть "S3 бакет с версионированием и шифрованием + CloudFront для раздачи статики". Писать это на Terraform — 100+ строк HCL. С Pulumi AI ты описываешь словами, получаешь готовый код на Python/TypeScript/Go. **Как работает:** Pulumi AI — как переводчик с человеческого языка на язык облачной инфраструктуры. ``` ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ "Создай S3 │ ──▶ │ Pulumi AI │ ──▶ │ TypeScript/ │ │ с CDN для │ │ / Neo │ │ Python/Go │ │ статики" │ │ │ │ код │ └──────────────┘ └──────────────┘ └──────────────┘ │ ▼ ┌──────────────┐ │ pulumi up │ │ ↓ │ │ AWS/Azure/ │ │ GCP ресурсы │ └──────────────┘ ``` **Пример:** ``` # Запрос в Pulumi AI: "Create an S3 bucket with versioning enabled, server-side encryption, and CloudFront distribution for serving static website content" # Результат (TypeScript): import * as pulumi from "@pulumi/pulumi"; import * as aws from "@pulumi/aws"; const bucket = new aws.s3.Bucket("website", { versioning: { enabled: true }, serverSideEncryptionConfiguration: { rule: { applyServerSideEncryptionByDefault: { sseAlgorithm: "AES256" } } } }); const cdn = new aws.cloudfront.Distribution("cdn", { origins: [{ domainName: bucket.bucketRegionalDomainName, originId: bucket.id }], // ... остальная конфигурация }); ``` **Фишки:** - Pulumi Neo — AI-агент, который не только генерирует, но и деплоит инфраструктуру - Поддержка 120+ провайдеров (AWS, Azure, GCP, Kubernetes и др.) - Код на настоящих языках программирования (не HCL) — легче тестировать и переиспользовать - Более 200,000 запросов обработано с момента запуска - Используется Supabase (43,000+ баз данных в день) --- ### Spacelift **Сайт:** https://spacelift.io **Что это?** Платформа оркестрации IaC с AI-функциями для анализа ошибок и создания инфраструктуры из естественного языка. **В каком виде поставляется?** SaaS-платформа. **Цена?** По количеству параллельных запусков. Free tier + платные планы. **Проблема, которую решает:** Terraform apply упал с ошибкой на 500 строк. Нужно понять что пошло не так. Saturnhead AI в Spacelift читает логи и говорит: "Ошибка в строке 142 — у вас нет прав на создание IAM роли. Добавьте policy iam:CreateRole." **Как работает:** Spacelift — как CI/CD платформа специально для инфраструктуры, с AI-помощником который объясняет ошибки. ``` ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ Git Push │ ──▶ │ Spacelift │ ──▶ │ Terraform │ │ (Terraform) │ │ Pipeline │ │ Apply │ └──────────────┘ └──────────────┘ └──────────────┘ │ Ошибка? │ ▼ ┌──────────────┐ │ Saturnhead │ │ AI анализ: │ │ "Причина: X │ │ Решение: Y" │ └──────────────┘ ``` **Пример:** ``` # Spacelift Intent (естественный язык): "Создай VPC в eu-west-1 с тремя приватными подсетями" # Результат: Spacelift Intent создаёт инфраструктуру напрямую, без генерации HCL-кода, используя те же Terraform-провайдеры под капотом. # Saturnhead AI (анализ ошибки): Run failed at step "terraform apply" Analysis: - Error: AccessDenied on aws_iam_role.lambda_exec - Root cause: IAM policy missing iam:CreateRole permission - Suggested fix: Add the following to your IAM policy: { "Effect": "Allow", "Action": "iam:CreateRole", "Resource": "*" } ``` **Фишки:** - Spacelift Intent — создание инфраструктуры из естественного языка без написания HCL (октябрь 2025) - Saturnhead AI — анализирует упавшие запуски и объясняет причины - Поддержка Terraform, OpenTofu, Pulumi, CloudFormation, Terragrunt - OPA/Rego политики для governance - Drift detection — находит расхождения между кодом и реальной инфраструктурой - Клиенты: Redfin, Duolingo, Moody's --- ### Harness AI **Сайт:** https://www.harness.io **Что это?** AI-платформа для CI/CD, которая автоматизирует создание пайплайнов, анализ ошибок и даже исправление кода. **В каком виде поставляется?** SaaS-платформа + self-managed опция. **Цена?** Free tier + платные планы (Team, Enterprise). **Проблема, которую решает:** Билд упал. Логи на 10,000 строк. Нужно найти где именно ошибка и как починить. Harness AI читает логи, находит причину и предлагает фикс. Или ещё круче: ты говоришь "Создай пайплайн для деплоя в Kubernetes с канареечным релизом" — и он создаёт. **Как работает:** Harness AI — как умный CI/CD, который не просто запускает пайплайны, но и понимает что происходит внутри. ``` ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ Git Push │ ──▶ │ Harness │ ──▶ │ Build + │ │ │ │ Pipeline │ │ Test + │ │ │ │ │ │ Deploy │ └──────────────┘ └──────────────┘ └──────────────┘ │ Ошибка? │ ▼ ┌──────────────────────────┐ │ Harness AI: │ │ 1. Анализ логов │ │ 2. Поиск root cause │ │ 3. Автофикс (если можно)│ └──────────────────────────┘ ``` **Пример:** ``` # Создание пайплайна через естественный язык: "Создай CI/CD пайплайн для Node.js приложения: - Билд в Docker - Тесты с coverage \> 80% - Деплой в EKS с canary 10% → 50% → 100%" # Harness AI создаёт полный пайплайн с: - Build stage (Docker build, push to ECR) - Test stage (npm test, coverage gate) - Deploy stage (EKS canary deployment) # AI Autofix (когда билд падает): Build failed: npm ERR! peer dep missing: react@^18.0.0 Harness AI fix: - Detected: peer dependency conflict - Auto-generated PR with package.json update - Tests passed on fix branch - Ready for merge ``` **Фишки:** - Software Delivery Knowledge Graph — понимает связи между кодом, людьми, пайплайнами и инцидентами - Test Intelligence — ускоряет тесты на 80%, запуская только нужные - AI Autofix — автоматически исправляет упавшие билды - Создание OPA-политик из естественного языка - 80% software failures происходят после написания кода — Harness фокусируется именно на этом --- ### Когда какой выбрать | Задача | Инструмент | |--------|------------| | Диагностика проблем в Kubernetes | K8sGPT | | Автоматизация DevOps через Slack/Teams | Kubiya | | Генерация IaC из описания (код на Python/TS) | Pulumi AI | | CI/CD для Terraform с анализом ошибок | Spacelift | | Умный CI/CD с автофиксом билдов | Harness AI | | Бесплатный open-source инструмент | K8sGPT | | Enterprise с approval-воркфлоу | Kubiya или Harness | | Создание инфраструктуры без кода вообще | Spacelift Intent | --- ### Источники - [K8sGPT Official](https://k8sgpt.ai) - [K8sGPT GitHub](https://github.com/k8sgpt-ai/k8sgpt) - [Kubiya Platform](https://www.kubiya.ai) - [Pulumi](https://www.pulumi.com) - [Pulumi Neo Launch](https://www.infoq.com/news/2025/09/pulumi-neo/) - [Spacelift](https://spacelift.io) - [Spacelift Intent Announcement](https://www.prnewswire.com/news-releases/spacelift-unveils-first-codeless-natural-language-infrastructure-provisioning-model--no-hcl-or-terraform-required-302578338.html) - [Harness](https://www.harness.io) - [Harness AI Announcements](https://www.harness.io/blog/unscripted-2025-announcements)