ai-агент для вашего бизнеса
Депеша № 002 / 2026
Источник DeepSeek (КНР)
Передано 24.04.2026 · 03:24 UTC
Статус В эфире
Релиз · open-source модели

DeepSeek-V4 Preview — open-source модель с контекстом 1M токенов

DeepSeek официально запустил V4 Preview — следующее поколение своей флагманской модели, в двух версиях. Главное: 1 миллион токенов контекста, полностью открытые веса на Hugging Face и заявления о том, что Pro-версия играет в одной лиге с топовыми closed-source моделями мира.

Что сказал DeepSeek

ВХОДЯЩАЯ ПЕРЕДАЧА // канал · X @deepseek_ai // 24.04.2026 · 03:24 UTC

DeepSeek-V4 Preview официально в релизе и с открытыми исходниками. Добро пожаловать в эпоху экономичного контекста в 1 миллион токенов.

DeepSeek-V4-Pro — 1,6 трлн параметров всего / 49 млрд активных. Производительность на уровне лучших закрытых моделей мира.

DeepSeek-V4-Flash — 284 млрд всего / 13 млрд активных. Ваш быстрый, эффективный и экономный выбор.

Пробуйте сейчас в chat.deepseek.com через Expert Mode / Instant Mode. API обновлён и доступен уже сегодня.

Две модели в одном релизе

DeepSeek придерживается архитектуры Mixture-of-Experts — не все параметры активируются на каждый запрос, только «эксперты» под конкретный вопрос. Это даёт огромные общие размеры при сравнительно скромной стоимости инференса.

Таблица характеристик: DeepSeek V4-Pro и V4-Flash по параметрам, контексту и режимам
Оригинал · сводная таблица моделей · @deepseek_ai
V4-Pro Flagship
  • Параметров всего 1,6 трлн
  • Активных 49 млрд
  • Обучено на 33 трлн токенов
  • Контекст 1 000 000 токенов
  • Open source ✓ да
  • API ✓ есть
  • Режим Expert Mode
V4-Flash Efficient
  • Параметров всего 284 млрд
  • Активных 13 млрд
  • Обучено на 32 трлн токенов
  • Контекст 1 000 000 токенов
  • Open source ✓ да
  • API ✓ есть
  • Режим Instant Mode
Бар-чарт: V4-Pro vs Claude Opus-4.6 vs GPT-5.4 vs Gemini-3.1 Pro по бенчмаркам
Оригинал · V4-Pro vs Opus-4.6 / GPT-5.4 / Gemini-3.1-Pro · @deepseek_ai

Что DeepSeek говорит про V4-Pro

ВХОДЯЩАЯ ПЕРЕДАЧА // твит 2/n треда // DeepSeek-V4-Pro

Усиленные агентные способности: open-source state-of-the-art (SOTA) в бенчмарках агентного кодирования.

Богатые знания о мире: опережает все текущие open-модели, уступая только Gemini-3.1-Pro.

Reasoning мирового класса: бьёт все текущие open-модели в математике / STEM / кодировании, соперничает с топовыми закрытыми.

Что про V4-Flash

ВХОДЯЩАЯ ПЕРЕДАЧА // твит 3/n треда // DeepSeek-V4-Flash

Способности к reasoning — близко к уровню V4-Pro.

На простых агентных задачах работает наравне с V4-Pro.

Меньший размер модели, быстрее отвечает, и API стоит значительно дешевле.

Бенчмарки — V4 vs конкуренты

DeepSeek опубликовал сводную таблицу сравнения: обе их модели против Kimi K2.6, GLM-5.1, Claude Opus-4.6, GPT-5.4 и Gemini-3.1-Pro. Цифры из официального треда, все прогоны на максимальном режиме.

BENCHMARK TABLE // источник DeepSeek @deepseek_ai (03:24 UTC 24.04.2026)
Метрика DS-V4-Pro DS-V4-Flash K2.6 Think GLM-5.1 Think Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1 Pro
Knowledge & Reasoning
MMLU-Pro87.586.287.186.089.187.591.0
SimpleQA-Verified57.934.136.938.146.245.375.6
Chinese-SimpleQA84.478.975.975.076.276.885.9
GPQA Diamond90.188.190.586.291.393.094.3
HLE37.734.836.434.740.039.844.4
LiveCodeBench93.591.689.688.891.7
Codeforces (rating)3206305231683052
HMMT 2026 Feb95.294.892.789.496.297.794.7
IMO AnswerBench89.888.486.083.875.391.481.0
Apex38.333.024.011.534.554.160.9
Apex Shortlist90.285.775.572.485.978.189.1
Long Context
MRCR 1M83.578.792.976.3
CorpusQA 1M62.060.571.753.8
Agentic
Terminal Bench 2.067.956.966.763.565.475.168.5
SWE Verified80.679.080.280.880.6
SWE Pro55.452.658.658.457.357.754.2
SWE Multilingual76.273.376.773.377.5
BrowseComp83.473.283.279.383.782.785.9
HLE w/tools48.245.154.050.453.152.051.6
GDPval-AA (Elo)1554139514821535161916741314
MCPAtlas Public73.669.066.671.873.867.269.2
Toolathlon51.847.850.040.747.254.648.8

В одиннадцати метриках из двадцати двух V4-Pro — лучший или вровень с лучшим. Особенно выделяется reasoning на Chinese-SimpleQA (SOTA), SWE Verified (топ-3 в мире вместе с Gemini и Opus), IMO AnswerBench. V4-Flash у большинства метрик держится в 2–5 пунктов от Pro, при этом в 6 раз меньше активных параметров.

Полная таблица бенчмарков DeepSeek V4 — оригинал от DeepSeek
Оригинал · полная таблица бенчмарков от DeepSeek · @deepseek_ai

Как они это сделали — структурная инновация

Из закреплённого твита про архитектуру (фрагмент 4/n треда):

ВХОДЯЩАЯ ПЕРЕДАЧА // твит 4/n // Structural Innovation & Ultra-High Context Efficiency

Novel Attention — token-wise компрессия + DSA (DeepSeek Sparse Attention).

Peak Efficiency — длинный контекст мирового уровня при резко сниженных затратах на вычисления и память.

1M Standard — один миллион токенов контекста теперь является значением по умолчанию.

DSA (DeepSeek Sparse Attention) — собственная технология компании, снижает затраты на inference при длинном контексте. Именно за счёт этой архитектуры 1M контекст становится «экономичным», а не просто «возможным».

DSA (DeepSeek Sparse Attention) — схема архитектуры
Оригинал · архитектура DSA · @deepseek_ai

Оптимизация под агентные задачи

Из 5/n твита треда — прямая цитата:

ВХОДЯЩАЯ ПЕРЕДАЧА // твит 5/n // Dedicated Optimizations for Agent Capabilities

DeepSeek-V4 бесшовно интегрируется с ведущими AI-агентами — Claude Code, OpenClaw и OpenCode.

Уже используется внутри DeepSeek для собственной agentic-разработки.

Пример PDF-документа, сгенерированного DeepSeek-V4-Pro
Оригинал · пример PDF, сгенерированного V4-Pro · @deepseek_ai

Важный момент для нас: упоминание Claude Code в списке «с чем мы интегрированы из коробки» — это сигнал, что модель рассчитана на те же паттерны использования, что и флагманские closed-source — tool calls, длинные цепочки действий, понимание контекста проекта.

API совместим с OpenAI и Anthropic

Из 6/n твита треда — самая практичная часть всей новости:

ВХОДЯЩАЯ ПЕРЕДАЧА // твит 6/n // API is Available Today

Оставляете base_url без изменений, просто меняете модель на deepseek-v4-pro или deepseek-v4-flash.

Поддерживаются схемы API: OpenAI ChatCompletions и Anthropic.

Обе модели поддерживают контекст 1M токенов и два режима — Thinking / Non-Thinking.

API документация DeepSeek — совместимость с OpenAI ChatCompletions и Anthropic
Оригинал · API docs · совместимость с OpenAI и Anthropic · @deepseek_ai
Миграция на V4-Flash = одна строка в конфиге

Для нашего кода в MBK-Agent это значит следующее: поскольку наши AI-агенты уже работают через OpenAI-совместимый клиент (streaming, tool calls, длинный контекст), переключение на DeepSeek-V4-Flash — это замена одной строки в конфигурации: model="gpt-5.4-mini"model="deepseek-v4-flash". Остальной код не меняется. Это качественно отличается от истории с GPT-5.5, где модель доступна только через OpenAI API — в случае DeepSeek можно даже запустить веса on-premise на своём железе (см. §05).

Открытые веса · 1M контекста · уровень closed-source моделей

Почему 1M контекста — это важно

До сих пор большой контекст был привилегией флагманов OpenAI и Anthropic, и за это надо было платить — как деньгами за токены, так и скоростью инференса. DeepSeek заявляет экономичный 1M контекст. Если цифры сойдутся — это меняет экономику длинных AI-сценариев.

Что это даёт в нашем сценарии — AI-агенты для отдела продаж:

Почему open-source меняет расклад

Веса выложены на Hugging Face, технический отчёт доступен публично. Это означает:

Что мы планируем сделать

  1. Тест V4-Flash через API Бенчмарк на наших SERP-кластерах и задачах рерайта FAQ — так же, как мы тестировали Kimi, Grok и GPT-5.4-mini. Cравним по цене/качеству/скорости.
    в очереди
  2. Пилотное развёртывание V4-Flash on-premise Для клиентов, которые требуют 152-ФЗ развёртывания внутри контура — V4-Flash с 13B активных параметров может помещаться на разумное железо. Проверим.
    планируется
  3. Эксперимент с 1M контекста Сценарий «AI-агент с полной историей клиента + всей базой продукта в контексте» — без RAG. Сравним качество ответов с текущим RAG-подходом на GPT-5.4-mini.
    исследование

Сроки и план миграции

Параллельно с тестированием GPT-5.5 запустим прогон DeepSeek-V4-Flash — 1–2 недели на замеры. Если по «цена × качество × скорость» выйдет лучше — добавим как опцию в клиентские проекты. Особенно интересно посмотреть ситуации, где нужен on-premise — тут V4-Flash может оказаться единственным реалистичным вариантом.

канал MBK / AGENT · 24.04.2026 · 17:04 МСК · депеша № 002 конец депеши