{
  "intro": "«Ковчег» — вендор-независимый технологический радар по прикладному AI: каталог моделей, инструментов, техник и инфраструктуры для команд, которые строят продакшн-системы на LLM и агентах. Мы не привязаны ни к одному поставщику и берём «каждой твари по паре» — рядом ставим проприетарные и открытые решения, managed-сервисы и self-hosted, зрелые дефолты и многообещающих новичков. Каждая позиция отнесена к одному из четырёх квадрантов (Модели, Инструменты, Техники, Инфраструктура) и одному из четырёх колец зрелости. Цель — дать инженеру быстрый, честный ориентир: что уже можно ставить в основу, что стоит пилотировать, за чем наблюдать, а от чего лучше держаться подальше.",
  "methodology": "Кольцо отражает не «качество» само по себе, а степень готовности технологии к ответственному внедрению: насколько она проверена на реальной нагрузке, предсказуема в эксплуатации, стабильна по API и совместима со стандартами. Мы оцениваем зрелость и поддержку, доступность (open-weight/open-source против managed), результаты на воспроизводимых бенчмарках, операционную стоимость и наличие живой экосистемы. Радар сознательно вендор-нейтрален: соседние позиции в одном кольце — это альтернативы для сравнения, а не рейтинг «лучше/хуже». Размещение отражает состояние индустрии на дату ревизии и пересматривается по мере выхода релизов, смены статусов (GA, maintenance, архивация) и накопления продакшн-опыта; устаревшие или свёрнутые проекты переводятся в Hold, а дозревшие — повышаются в кольце.",
  "title": "Ковчег",
  "tagline": "Каждой задаче — по паре проверенных инструментов.",
  "ring_defs": [
    {
      "ring": "Adopt",
      "def": "Зрелый дефолт. Технология проверена на реальной нагрузке, предсказуема в эксплуатации и имеет устоявшийся API — можно уверенно закладывать в продакшн и новые проекты."
    },
    {
      "ring": "Trial",
      "def": "Готова к пилотам. Производственно жизнеспособна и даёт ощутимую отдачу, но требует вложений во внедрение, тюнинга под конкретный профиль или ещё накапливает зрелость — обкатывайте на ограниченных задачах с хорошими evals, прежде чем делать дефолтом."
    },
    {
      "ring": "Assess",
      "def": "Стоит присматриваться. Перспективное направление со стремительно созревающей экосистемой или свежим релизом; управляемость, безопасность и паттерны эксплуатации ещё формируются — изучайте на изолированных сценариях и через opt-in, не доверяя ему критичный продакшн."
    },
    {
      "ring": "Hold",
      "def": "Воздержаться. Зависший, свёрнутый или вытесненный преемником вариант. Для новых систем выбирать нецелесообразно; существующие развёртывания — сопровождать и планомерно мигрировать."
    }
  ],
  "quadrants": [
    {
      "quadrant": "Модели",
      "entries": [
        {
          "name": "Claude Opus 4.8 (Anthropic)",
          "ring": "Adopt",
          "description": "Флагманская проприетарная модель Anthropic (релиз 28.05.2026), лидер агентного кодинга (SWE-Bench Pro 69.2%, SWE-bench Verified 88.6%) и computer use. Стабильный API, режим Fast втрое дешевле, чем у Opus 4.7.",
          "rationale": "Зрелый предсказуемый дефолт для продакшн-агентов и кодинга — проверена на реальной нагрузке, бенчмарках и ценах."
        },
        {
          "name": "OpenAI GPT-5.5",
          "ring": "Adopt",
          "description": "Текущая флагманская модель OpenAI (релиз в API 24.04.2026) с вариантами Thinking/Pro/Instant; сильна в коде, исследовании, анализе данных и работе с документами. Instant — дефолтная модель ChatGPT.",
          "rationale": "Универсальный широко доступный рабочий конь с богатой экосистемой инструментов и tooling."
        },
        {
          "name": "Gemini 3.5 Flash (Google DeepMind)",
          "ring": "Trial",
          "description": "Mid-tier модель Google (релиз 19.05.2026 на I/O): Pro-уровень рассуждений при Flash-латентности. Обгоняет Gemini 3.1 Pro на Terminal-Bench 2.1 (76.2% vs 70.3%), MCP Atlas (83.6% vs 78.2%) и GDPval-AA. Gemini 3.5 Pro пока только во внутреннем/Vertex-preview.",
          "rationale": "Свежий релиз с сильными агентными бенчмарками и низкой латентностью — стоит обкатать на пилотах, прежде чем делать дефолтом."
        },
        {
          "name": "DeepSeek V4 (open-weight)",
          "ring": "Trial",
          "description": "Открытая MoE-модель под MIT (релиз 24.04.2026): V4-Pro 1.6T/49B активных, V4-Flash 284B/13B, контекст 1M, sparse-attention DSA. V4-Pro-Max берёт 80.6% на SWE-bench Verified — топ среди open-weights, наравне с Gemini 3.1 Pro.",
          "rationale": "Frontier-уровень с открытыми весами, self-hosting и низкой ценой — оправдывает пилот там, где важны приватность и контроль над стоимостью."
        },
        {
          "name": "Kimi K2.6 (Moonshot AI)",
          "ring": "Assess",
          "description": "Открытая 1T MoE-модель (32B активных, 384 эксперта, контекст 262K) под Modified MIT; #4 в Artificial Analysis Intelligence Index и текущий лидер среди open-weights. Ставит GPT-5.5 на SWE-Bench Pro (58.6%), лидирует на Humanity's Last Exam с инструментами; ~на 80% дешевле фронтира.",
          "rationale": "Лучший open-weight для агентного tool use на сегодня, но всё ещё за тройкой проприетарных лидеров — стоит присматриваться, а не закладывать в продакшн."
        },
        {
          "name": "Llama 4 Behemoth (Meta)",
          "ring": "Hold",
          "description": "Teacher-модель Meta на ~2T параметров (288B активных, 16 экспертов), так и не вышедшая публично из-за проблем с MoE-роутингом и chunked-attention на 2T-масштабе. К середине 2026 веса не выпущены, формальной отмены нет — существует только как внутренний артефакт для дистилляции Scout/Maverick.",
          "rationale": "Зависший, так и не выпущенный релиз — не закладывайте его в планы, пока Meta не предъявит работающие веса."
        }
      ]
    },
    {
      "quadrant": "Инструменты",
      "entries": [
        {
          "name": "Claude Agent SDK",
          "ring": "Adopt",
          "description": "Библиотека Anthropic (Python и TypeScript) для построения продакшн-агентов поверх того же харнесса, что и Claude Code: агентный цикл с tool-use, управление контекстом, субагенты, персистентные сессии, нативный MCP-клиент, встроенные file/bash/web-инструменты и опциональный human-in-the-loop. Переименована из Claude Code SDK в сентябре 2025; стала дефолтным способом встраивать Claude в долгоживущие tool-using процессы.",
          "rationale": "Зрелый, активно поддерживаемый вендором SDK с доказанной продакшн-эксплуатацией и быстрым ростом adoption — низкий риск для внедрения."
        },
        {
          "name": "Model Context Protocol (MCP)",
          "ring": "Adopt",
          "description": "Открытый стандарт подключения LLM к внешним инструментам и данным, переданный Anthropic в Agentic AI Foundation под эгидой Linux Foundation (анонс 9 декабря 2025; учредители-контрибьюторы — Anthropic, Block и OpenAI). К 2026 — фактический отраслевой интерфейс интеграции: 10 000+ серверов, первоклассная поддержка в Claude, ChatGPT, Cursor, Gemini, Microsoft Copilot и VS Code.",
          "rationale": "Кросс-вендорная стандартизация и нейтральное управление де-факто сделали MCP обязательным фундаментом агентных интеграций."
        },
        {
          "name": "Vercel AI SDK 6",
          "ring": "Adopt",
          "description": "Ведущий TypeScript-тулкит для AI-приложений и агентов с провайдер-нейтральным API, first-class абстракцией Agent (интерфейс + реализация ToolLoopAgent), полной поддержкой MCP, tool-execution approval и DevTools. Более 20 млн загрузок в месяц, интеграция с React/Next.js/Vue/Svelte/Node.",
          "rationale": "Зрелая, широко принятая провайдер-нейтральная библиотека с устоявшимся API — стандартный выбор для агентов и LLM-фич в TypeScript-стеке."
        },
        {
          "name": "LangGraph",
          "ring": "Trial",
          "description": "Низкоуровневый оркестратор и рантайм для долгоживущих stateful-агентов: durable execution с возобновлением после сбоев, чекпойнтинг, time-travel debugging, human-in-the-loop, кратко- и долгосрочная память. Достиг v1.0 GA в октябре 2025; используется в продакшене Klarna, LinkedIn, Uber, Replit, Elastic и др.",
          "rationale": "Мощный и продакшн-проверенный, но низкоуровневый и требующий значительных вложений — оправдан в пилотах сложных агентных систем, а не как дефолт."
        },
        {
          "name": "OpenAI Agents SDK",
          "ring": "Trial",
          "description": "Первопартийный SDK OpenAI для агентных систем: model-native харнесс для работы с файлами и инструментами плюс нативное sandbox-исполнение (E2B, Modal, Daytona, Cloudflare, Vercel, Blaxel, Runloop). Крупное обновление с харнессом и песочницами вышло 15 апреля 2026, на старте в первую очередь на Python (TypeScript — позже).",
          "rationale": "Активно развивается и хорошо подходит для продакшена, но ключевые возможности новые и Python-first — стоит обкатать на ограниченных задачах."
        },
        {
          "name": "Microsoft Agent Framework",
          "ring": "Assess",
          "description": "Унифицированный SDK для .NET и Python, объединивший простые агентные абстракции AutoGen и enterprise-возможности Semantic Kernel: middleware, телеметрия, память, граф-ориентированные workflow, паттерны оркестрации и нативная MCP + A2A совместимость. GA 1.0 вышел 3 апреля 2026.",
          "rationale": "Стратегически важная консолидация Microsoft, но релиз очень свежий — требует оценки зрелости и путей миграции прежде, чем доверять продакшену."
        },
        {
          "name": "AutoGen",
          "ring": "Hold",
          "description": "Ранний мульти-агентный фреймворк Microsoft с паттернами GroupChat и агентных диалогов. Переведён в maintenance mode (только критические багфиксы и патчи безопасности, без новых функций); инвестиции и явный преемник для новых проектов — Microsoft Agent Framework.",
          "rationale": "Maintenance mode и явный преемник делают старт новых проектов на AutoGen нецелесообразным — только сопровождение существующих."
        }
      ]
    },
    {
      "quadrant": "Техники",
      "entries": [
        {
          "name": "Adaptive RAG (маршрутизация запросов по сложности)",
          "ring": "Adopt",
          "description": "RAG-конвейер, где классификатор оценивает сложность запроса и маршрутизирует его в нужную ветку: дешёвый прямой ответ (или без retrieval) для простых вопросов и полный многошаговый/агентный поиск для сложных. Канонический подход — Adaptive-RAG (T5-классификатор на трёх классах сложности); к 2026 это базовая практика продакшн-RAG, дающая качество дорогой ветки при заметно меньшей стоимости.",
          "rationale": "Зрелый, проверенный паттерн с понятным контролем стоимости и качества — безопасный выбор по умолчанию для продакшн-RAG."
        },
        {
          "name": "LLM-as-a-Judge (оценка выходов моделью)",
          "ring": "Adopt",
          "description": "Автоматическая оценка ответов одной модели другой по критериям (релевантность, faithfulness, корректность). Каноничный результат MT-Bench: сильный судья согласуется с экспертами на ~85%, что выше согласия двух людей между собой (~81%). Дефолт для масштабных evals; требует контроля известных смещений (позиционное, verbosity, self-preference) через рандомизацию и калибровку.",
          "rationale": "Дешёвый и масштабируемый способ гонять evals, ставший индустриальным дефолтом для оценки LLM-приложений."
        },
        {
          "name": "Structured Output через constrained decoding (Strict Mode)",
          "ring": "Adopt",
          "description": "Гарантированное соответствие ответа JSON Schema за счёт маскирования невалидных токенов при декодировании (схема компилируется в грамматику/FSM). К 2026 поддержано нативно у всех крупных провайдеров: OpenAI (Strict Mode, 2024), Google Gemini, Anthropic (бета structured-outputs с ноября 2025), Cohere, xAI.",
          "rationale": "Снимает целый класс ошибок парсинга и доступен из коробки у всех крупных провайдеров — обязательная база для интеграций."
        },
        {
          "name": "Декларативная оптимизация промптов: DSPy + GEPA",
          "ring": "Trial",
          "description": "DSPy задаёт LLM-пайплайн декларативно, а оптимизатор GEPA через рефлексию на естественном языке (анализ трейсов и ошибок) автоматически эволюционирует инструкции, удерживая Парето-фронт кандидатов. GEPA — устный доклад (Oral) на ICLR 2026: обгоняет RL-метод GRPO в среднем на 6 п.п. (до 19 п.п.) при ~35x меньшем числе прогонов и MIPROv2 на 10+ п.п.",
          "rationale": "Уже вышло из стадии «просто наблюдаем»: интегрировано в DSPy, есть ранние продакшн-внедрения — стоит пробовать на реальных пайплайнах с хорошими evals."
        },
        {
          "name": "Программируемые guardrails (NeMo Guardrails / Llama Guard / LLM Guard)",
          "ring": "Trial",
          "description": "Слой защиты ввода/вывода: модерация контента, детект джейлбрейков и инъекций, контроль тем и диалоговых сценариев. На практике комбинируют 2-3 инструмента (defense-in-depth), так как одиночные детекторы обходятся (высокий ASR у evasion-атак), а NeMo Guardrails сам NVIDIA до сих пор помечает как бета, не рекомендованную в проде как есть.",
          "rationale": "Инструменты полезны и доступны, но требуют сборки нескольких компонентов, тюнинга под домен и зрелость ещё не дотягивает до дефолта — внедряем под контролем."
        },
        {
          "name": "Мультиагентная оркестрация через MCP + A2A",
          "ring": "Assess",
          "description": "Двухслойный стек координации агентов: MCP стандартизирует доступ к инструментам и данным, а A2A (Google → Linux Foundation, 150+ организаций) покрывает делегирование между автономными агентами. Поверх связки MCP-для-инструментов + A2A-для-агентов появляются enterprise-шлюзы с SSO и аудитом, но паттерны мультиагентной координации только складываются.",
          "rationale": "Экосистема и стандарты стремительно созревают, но управляемость, безопасность и паттерны мультиагентной координации ещё формируются — изучаем на ограниченных сценариях."
        },
        {
          "name": "Ручная prompt-инженерия как самостоятельная дисциплина",
          "ring": "Hold",
          "description": "Опора на изолированный подбор формулировок промпта в отрыве от управления контекстом, retrieval и evals. С ростом контекстных окон и reasoning отдача от трюков с формулировками падает; индустрия сместилась к context engineering (по опросам 2026, большинство лидеров считают «голый» prompting недостаточным для масштаба).",
          "rationale": "Уступает место context engineering и автоматической оптимизации промптов — как отдельную практику для новых систем выбирать не стоит."
        }
      ]
    },
    {
      "quadrant": "Инфраструктура",
      "entries": [
        {
          "name": "vLLM",
          "ring": "Adopt",
          "description": "Высокопроизводительный движок инференса LLM с PagedAttention, непрерывным батчингом и OpenAI-совместимым API; де-факто стандартный бэкенд для большинства облачных и self-hosted развёртываний. Поддерживает 200+ архитектур и все виды параллелизма (tensor/pipeline/data/expert).",
          "rationale": "Самый широкий охват железа и моделей, крупнейшее сообщество и проверенность на триллионах токенов в день делают его безопасным выбором по умолчанию."
        },
        {
          "name": "pgvector",
          "ring": "Adopt",
          "description": "Расширение PostgreSQL для векторного и гибридного поиска с индексами HNSW и IVFFlat; типы halfvec (16-бит) и sparsevec (разрежённые векторы) для экономии памяти. Текущая стабильная версия 0.8.2. Уверенно держит до десятков миллионов векторов без отдельной БД.",
          "rationale": "Для большинства RAG-сценариев это лучший выбор: переиспользует существующий Postgres и убирает операционные издержки отдельной векторной БД."
        },
        {
          "name": "SGLang",
          "ring": "Trial",
          "description": "Движок инференса с RadixAttention (префиксное кеширование KV в radix-дереве) и быстрым constrained decoding; даёт заметный прирост на префикс-тяжёлых нагрузках (RAG, многоходовый чат) и structured output. В проде у xAI (Grok), NVIDIA, AMD, Azure, Cursor; входит в экосистему PyTorch.",
          "rationale": "Производственно зрелый и быстрее vLLM на ряде нагрузок, но охват железа и архитектур уже, поэтому внедрять стоит точечно под конкретный профиль трафика."
        },
        {
          "name": "Qdrant",
          "ring": "Trial",
          "description": "Специализированная векторная БД на Rust с быстрым ANN-поиском (HNSW) и богатой фильтрацией по метаданным прямо в графе обхода; одна из самых низколатентных среди open-source на больших объёмах.",
          "rationale": "Оправдан, когда pgvector упирается в потолок по объёму или нужны сложные фильтры, но это ещё один сервис в эксплуатации, поэтому пробовать под нагрузку, а не повсеместно."
        },
        {
          "name": "OpenTelemetry GenAI Semantic Conventions",
          "ring": "Assess",
          "description": "Стандарт семантических соглашений OTel для трейсинга LLM/агентов/MCP: единые имена спанов, атрибуты вызовов инструментов, метрики токенов. Спаны клиентских вызовов в начале 2026 стабилизировались, но события, метрики и агентские/MCP-спаны всё ещё в статусе Development.",
          "rationale": "Перспективный отраслевой стандарт, который частично стабилизировался, но ключевые атрибуты ещё меняются, поэтому пока изучать и закладывать через opt-in (OTEL_SEMCONV_STABILITY)."
        },
        {
          "name": "Hugging Face TGI (как движок сервинга)",
          "ring": "Hold",
          "description": "Text Generation Inference — ранний движок сервинга от Hugging Face. С конца 2025 в режиме maintenance, репозиторий заархивирован в марте 2026; сам HF для эндпоинтов рекомендует vLLM или SGLang.",
          "rationale": "Проект фактически свёрнут и вытеснен vLLM/SGLang, поэтому новые развёртывания на него ставить не стоит, а существующие — мигрировать."
        }
      ]
    }
  ]
}