Депеша № 002 / 2026

Источник DeepSeek (КНР)

Передано 24.04.2026 · 03:24 UTC

Статус В эфире

Релиз · open-source модели

DeepSeek-V4 Preview — open-source модель с контекстом 1M токенов

DeepSeek официально запустил V4 Preview — следующее поколение своей флагманской модели, в двух версиях. Главное: 1 миллион токенов контекста, полностью открытые веса на Hugging Face и заявления о том, что Pro-версия играет в одной лиге с топовыми closed-source моделями мира.

Что сказал DeepSeek

DeepSeek-V4 Preview официально в релизе и с открытыми исходниками. Добро пожаловать в эпоху экономичного контекста в 1 миллион токенов.

DeepSeek-V4-Pro — 1,6 трлн параметров всего / 49 млрд активных. Производительность на уровне лучших закрытых моделей мира.

DeepSeek-V4-Flash — 284 млрд всего / 13 млрд активных. Ваш быстрый, эффективный и экономный выбор.

Пробуйте сейчас в chat.deepseek.com через Expert Mode / Instant Mode. API обновлён и доступен уже сегодня.

Две модели в одном релизе

DeepSeek придерживается архитектуры Mixture-of-Experts — не все параметры активируются на каждый запрос, только «эксперты» под конкретный вопрос. Это даёт огромные общие размеры при сравнительно скромной стоимости инференса.

Таблица характеристик: DeepSeek V4-Pro и V4-Flash по параметрам, контексту и режимам — **Оригинал** · сводная таблица моделей · @deepseek_ai

V4-Pro Flagship

Параметров всего 1,6 трлн
Активных 49 млрд
Обучено на 33 трлн токенов
Контекст 1 000 000 токенов
Open source ✓ да
API ✓ есть
Режим Expert Mode

V4-Flash Efficient

Параметров всего 284 млрд
Активных 13 млрд
Обучено на 32 трлн токенов
Контекст 1 000 000 токенов
Open source ✓ да
API ✓ есть
Режим Instant Mode

Бар-чарт: V4-Pro vs Claude Opus-4.6 vs GPT-5.4 vs Gemini-3.1 Pro по бенчмаркам — **Оригинал** · V4-Pro vs Opus-4.6 / GPT-5.4 / Gemini-3.1-Pro · @deepseek_ai

Что DeepSeek говорит про V4-Pro

Усиленные агентные способности: open-source state-of-the-art (SOTA) в бенчмарках агентного кодирования.

Богатые знания о мире: опережает все текущие open-модели, уступая только Gemini-3.1-Pro.

Reasoning мирового класса: бьёт все текущие open-модели в математике / STEM / кодировании, соперничает с топовыми закрытыми.

Что про V4-Flash

Способности к reasoning — близко к уровню V4-Pro.

На простых агентных задачах работает наравне с V4-Pro.

Меньший размер модели, быстрее отвечает, и API стоит значительно дешевле.

Бенчмарки — V4 vs конкуренты

DeepSeek опубликовал сводную таблицу сравнения: обе их модели против Kimi K2.6, GLM-5.1, Claude Opus-4.6, GPT-5.4 и Gemini-3.1-Pro. Цифры из официального треда, все прогоны на максимальном режиме.

BENCHMARK TABLE // источник DeepSeek @deepseek_ai (03:24 UTC 24.04.2026)

Метрика	DS-V4-Pro	DS-V4-Flash	K2.6 Think	GLM-5.1 Think	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1 Pro
Knowledge & Reasoning
MMLU-Pro	87.5	86.2	87.1	86.0	89.1	87.5	91.0
SimpleQA-Verified	57.9	34.1	36.9	38.1	46.2	45.3	75.6
Chinese-SimpleQA	84.4	78.9	75.9	75.0	76.2	76.8	85.9
GPQA Diamond	90.1	88.1	90.5	86.2	91.3	93.0	94.3
HLE	37.7	34.8	36.4	34.7	40.0	39.8	44.4
LiveCodeBench	93.5	91.6	89.6	—	88.8	—	91.7
Codeforces (rating)	3206	3052	—	—	—	3168	3052
HMMT 2026 Feb	95.2	94.8	92.7	89.4	96.2	97.7	94.7
IMO AnswerBench	89.8	88.4	86.0	83.8	75.3	91.4	81.0
Apex	38.3	33.0	24.0	11.5	34.5	54.1	60.9
Apex Shortlist	90.2	85.7	75.5	72.4	85.9	78.1	89.1
Long Context
MRCR 1M	83.5	78.7	—	—	92.9	—	76.3
CorpusQA 1M	62.0	60.5	—	—	71.7	—	53.8
Agentic
Terminal Bench 2.0	67.9	56.9	66.7	63.5	65.4	75.1	68.5
SWE Verified	80.6	79.0	80.2	—	80.8	—	80.6
SWE Pro	55.4	52.6	58.6	58.4	57.3	57.7	54.2
SWE Multilingual	76.2	73.3	76.7	73.3	77.5	—	—
BrowseComp	83.4	73.2	83.2	79.3	83.7	82.7	85.9
HLE w/tools	48.2	45.1	54.0	50.4	53.1	52.0	51.6
GDPval-AA (Elo)	1554	1395	1482	1535	1619	1674	1314
MCPAtlas Public	73.6	69.0	66.6	71.8	73.8	67.2	69.2
Toolathlon	51.8	47.8	50.0	40.7	47.2	54.6	48.8

В одиннадцати метриках из двадцати двух V4-Pro — лучший или вровень с лучшим. Особенно выделяется reasoning на Chinese-SimpleQA (SOTA), SWE Verified (топ-3 в мире вместе с Gemini и Opus), IMO AnswerBench. V4-Flash у большинства метрик держится в 2–5 пунктов от Pro, при этом в 6 раз меньше активных параметров.

Полная таблица бенчмарков DeepSeek V4 — оригинал от DeepSeek — **Оригинал** · полная таблица бенчмарков от DeepSeek · @deepseek_ai

Как они это сделали — структурная инновация

Из закреплённого твита про архитектуру (фрагмент 4/n треда):

Novel Attention — token-wise компрессия + DSA (DeepSeek Sparse Attention).

Peak Efficiency — длинный контекст мирового уровня при резко сниженных затратах на вычисления и память.

1M Standard — один миллион токенов контекста теперь является значением по умолчанию.

DSA (DeepSeek Sparse Attention) — собственная технология компании, снижает затраты на inference при длинном контексте. Именно за счёт этой архитектуры 1M контекст становится «экономичным», а не просто «возможным».

DSA (DeepSeek Sparse Attention) — схема архитектуры — **Оригинал** · архитектура DSA · @deepseek_ai

Оптимизация под агентные задачи

Из 5/n твита треда — прямая цитата:

DeepSeek-V4 бесшовно интегрируется с ведущими AI-агентами — Claude Code, OpenClaw и OpenCode.

Уже используется внутри DeepSeek для собственной agentic-разработки.

Пример PDF-документа, сгенерированного DeepSeek-V4-Pro — **Оригинал** · пример PDF, сгенерированного V4-Pro · @deepseek_ai

Важный момент для нас: упоминание Claude Code в списке «с чем мы интегрированы из коробки» — это сигнал, что модель рассчитана на те же паттерны использования, что и флагманские closed-source — tool calls, длинные цепочки действий, понимание контекста проекта.

API совместим с OpenAI и Anthropic

Из 6/n твита треда — самая практичная часть всей новости:

Оставляете base_url без изменений, просто меняете модель на deepseek-v4-pro или deepseek-v4-flash.

Поддерживаются схемы API: OpenAI ChatCompletions и Anthropic.

Обе модели поддерживают контекст 1M токенов и два режима — Thinking / Non-Thinking.

API документация DeepSeek — совместимость с OpenAI ChatCompletions и Anthropic — **Оригинал** · API docs · совместимость с OpenAI и Anthropic · @deepseek_ai

Миграция на V4-Flash = одна строка в конфиге

Для нашего кода в MBK-Agent это значит следующее: поскольку наши AI-агенты уже работают через OpenAI-совместимый клиент (streaming, tool calls, длинный контекст), переключение на DeepSeek-V4-Flash — это замена одной строки в конфигурации: model="gpt-5.4-mini" → model="deepseek-v4-flash". Остальной код не меняется. Это качественно отличается от истории с GPT-5.5, где модель доступна только через OpenAI API — в случае DeepSeek можно даже запустить веса on-premise на своём железе (см. §05).

Открытые веса · 1M контекста · уровень closed-source моделей

Почему 1M контекста — это важно

До сих пор большой контекст был привилегией флагманов OpenAI и Anthropic, и за это надо было платить — как деньгами за токены, так и скоростью инференса. DeepSeek заявляет экономичный 1M контекст. Если цифры сойдутся — это меняет экономику длинных AI-сценариев.

Что это даёт в нашем сценарии — AI-агенты для отдела продаж:

Вся история клиента в одном контексте. Вместо того чтобы выдёргивать куски из CRM и склеивать в промпт, можно скормить агенту всю воронку по клиенту целиком.
Долгие диалоги без потери памяти. Агент помнит каждый шаг разговора и решения клиента — не надо городить векторные базы для «долгой памяти».
Полная база знаний в промпте. Документы компании, скрипты, FAQ, описание продуктов — всё вместе, а не через RAG с риском упустить нужный фрагмент.

Почему open-source меняет расклад

Веса выложены на Hugging Face, технический отчёт доступен публично. Это означает:

Можно развернуть у себя на серверах — никакого внешнего API, полный контроль над данными. Критично для 152-ФЗ и клиентов с особыми требованиями к security.
Стоимость инференса определяется вашим железом — при больших объёмах диалогов это может быть значимо дешевле коммерческих API.
Нет зависимости от санкций / смены тарифов — модель у нас внутри периметра, никто не выдернет доступ.

Что мы планируем сделать

Тест V4-Flash через API Бенчмарк на наших SERP-кластерах и задачах рерайта FAQ — так же, как мы тестировали Kimi, Grok и GPT-5.4-mini. Cравним по цене/качеству/скорости.
в очереди
Пилотное развёртывание V4-Flash on-premise Для клиентов, которые требуют 152-ФЗ развёртывания внутри контура — V4-Flash с 13B активных параметров может помещаться на разумное железо. Проверим.
планируется
Эксперимент с 1M контекста Сценарий «AI-агент с полной историей клиента + всей базой продукта в контексте» — без RAG. Сравним качество ответов с текущим RAG-подходом на GPT-5.4-mini.
исследование

Сроки и план миграции

Параллельно с тестированием GPT-5.5 запустим прогон DeepSeek-V4-Flash — 1–2 недели на замеры. Если по «цена × качество × скорость» выйдет лучше — добавим как опцию в клиентские проекты. Особенно интересно посмотреть ситуации, где нужен on-premise — тут V4-Flash может оказаться единственным реалистичным вариантом.

канал MBK / AGENT · 24.04.2026 · 17:04 МСК · депеша № 002 конец депеши