OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня — обходит или не уступает профессионалам в 70.9% задач на GDPval (44 профессии), 100% на AIME 2025, 80% на SWE‑Bench Verified, галлюцинаций на 30% меньше, работает в 11× быстрее за <1% стоимости.
Anthropic и OpenAI передали ключевые стандарты в новый Agentic AI Foundation: MCP и AGENTS.md теперь под управлением Linux Foundation — редкая кооперация конкурентов ради общей инфраструктуры для AI‑агентов.
Mistral выпустила Devstral 2: открытая coding‑модель с 72.2% на SWE‑bench, в 5× меньше DeepSeek V3.2, плюс CLI‑агент Vibe для терминала.
Adobe пришла в ChatGPT: Photoshop, Acrobat и Express теперь работают прямо в чате — базовое редактирование фото и PDF бесплатно.
Google представила Gemini 3 Pro: прорыв в vision — SOTA на MMMU Pro и Video MMMU, понимание документов, видео и пространства для робототехники и медицины.
NYT подала в суд на Perplexity: обвинения в извлечении контента из‑под paywall'а — Perplexity в центре юридического давления от крупнейших медиа мира.
OpenAI представила GPT-5.2 — флагманскую модель для сложных рабочих задач. На бенчмарке GDPval (реальные задачи из 44 профессий) GPT-5.2 Thinking обходит или не уступает экспертам в 70.9% случаев. На математической олимпиаде AIME 2025 — 100%.
Ключевые результаты GPT-5.2 Thinking:
GDPval: 70.9% побед и ничьих против экспертов (было 38.8% у GPT-5).
SWE‑Bench Verified: 80.0% (было 76.3%).
GPQA Diamond: 92.4% (было 88.1%).
AIME 2025: 100% (было 94%).
ARC‑AGI-2: 52.9% (было 17.6% — рост в 3×).
Галлюцинации: на 30% меньше ошибок в ответах.
Длинный контекст: первая модель, которая почти достигает 100% точности на 4-needle MRCR до 256K токенов.
Три версии:
GPT-5.2 Instant: быстрая модель для повседневных задач, улучшенный тон общения.
GPT-5.2 Thinking: для сложных задач — код, длинные документы, математика, планирование.
GPT-5.2 Pro: максимальное качество для трудных вопросов, где важен результат, а не скорость.
Что улучшено:
Spreadsheets и презентации: существенно выше качество генерации, +9.3% на задачах инвестбанкинга.
Vision: ошибки сократились вдвое на графиках и интерфейсах.
Tool calling: 98.7% на Tau2-bench Telecom.
Фронтенд: заметно сильнее в сложном UI и 3D‑элементах.
Безопасность: улучшены ответы в чувствительных темах (ментальное здоровье, самоповреждения, эмоциональная зависимость от модели).
API‑цены:
GPT-5.2: $1.75 / $14 за млн токенов (вход/выход), скидка 90% на кэш.
GPT-5.2 Pro: $21 / $168 за млн токенов.
Доступность:
ChatGPT: выкатывается сегодня для платных тарифных планов (Plus, Pro, Go, Business, Enterprise).
API: доступно всем разработчикам.
OpenAI делает ставку на экономическую ценность: на задачах GDPval модель выдаёт результаты экспертного уровня в 11× быстрее и за <1% стоимости работы профессионалов.
Anthropic, OpenAI и Block создали Agentic AI Foundation (AAIF) — фонд под эгидой Linux Foundation для развития открытых стандартов агентного AI. Anthropic передаёт Model Context Protocol (MCP), OpenAI — формат AGENTS.md, Block — фреймворк goose. Google, Microsoft, AWS, Cloudflare и Bloomberg выступили поддерживающими участниками.
Что передано в фонд:
MCP (Anthropic): универсальный протокол подключения AI к внешним системам — 10 000+ публичных серверов, 97 млн+ загрузок SDK в месяц, принят ChatGPT, Cursor, Gemini, VS Code, Microsoft Copilot.
AGENTS.md (OpenAI): формат Markdown‑файла с инструкциями для AI‑агентов в репозиториях — принят в 60 000+ open‑source проектов и агентных фреймворках включая Cursor, Devin, GitHub Copilot, Jules.
goose (Block): открытый агентный фреймворк.
Зачем это нужно:
Проблема: без общих стандартов экосистема агентов фрагментируется на несовместимые силосы.
Решение: нейтральное управление под Linux Foundation (как у Kubernetes, PyTorch, Node.js).
Цель: интероперабельность, безопасность и переносимость агентов между платформами.
Участники:
Сооснователи: Anthropic, OpenAI, Block.
Поддержка: Google, Microsoft, AWS, Cloudflare, Bloomberg.
Редкий случай прямой кооперации главных конкурентов в AI: Anthropic и OpenAI совместно создают инфраструктуру, которая может стать «USB‑стандартом» для AI‑агентов.
Подробнее (Anthropic) → | Подробнее (OpenAI) → | AAIF →
Mistral представила семейство coding‑моделей Devstral 2 (123B) и Devstral Small 2 (24B) с открытыми лицензиями. Флагман показывает 72.2% на SWE‑bench Verified — один из лучших результатов среди open‑weight моделей. Параллельно выпущен Vibe CLI — терминальный агент для автономной работы с кодом.
Devstral 2 (123B):
Производительность: 72.2% на SWE‑bench Verified.
Контекст: 256K токенов.
Эффективность: до 7× дешевле Claude Sonnet на реальных задачах.
Размер: в 5× меньше DeepSeek V3.2, в 8× меньше Kimi K2.
Лицензия: modified MIT.
API‑цена (после бесплатного периода): $0.40 / $2.00 за млн токенов (вход/выход).
Devstral Small 2 (24B):
Производительность: 68.0% на SWE‑bench Verified — конкурирует с моделями в 5× крупнее.
Развёртывание: работает на потребительских GPU и даже CPU‑only конфигурациях.
Мультимодальность: поддержка изображений.
Лицензия: Apache 2.0.
API‑цена: $0.10 / $0.30 за млн токенов.
Mistral Vibe CLI:
Назначение: терминальный агент для автономного решения задач разработки.
Возможности: навигация по кодовой базе, multi‑file orchestration, Git‑интеграция, автокомплит файлов через @
Интеграция: доступен как расширение в IDE Zed, поддерживает Agent Communication Protocol.
Лицензия: Apache 2.0.
Независимая оценка (human evaluation через Cline):
Devstral 2 vs DeepSeek V3.2: 42.8% побед vs 28.6% поражений.
Devstral 2 vs Claude Sonnet 4.5: Claude по‑прежнему предпочтительнее — разрыв с закрытыми моделями сохраняется.
Mistral усиливает позиции в open‑source сегменте для разработчиков: компактные модели с производительностью на уровне гигантов и полноценный CLI‑агент — прямая конкуренция Claude Code и Cursor.
Подробнее → | Devstral API → | Vibe CLI на GitHub →
OpenAI и Adobe запустили приложения Photoshop, Acrobat и Express прямо внутри ChatGPT. Пользователи могут редактировать изображения и PDF через текстовые команды без переключения между приложениями.
Как работает:
Загрузить файл + написать команду: «Adobe Photoshop, blur the background of this image».
После первого вызова имя приложения можно не повторять в рамках сессии.
Результаты: либо варианты на выбор, либо UI‑элементы (слайдеры яркости, контраста).
Возможности Photoshop в ChatGPT:
Редактирование отдельных участков изображения.
Применение творческих эффектов.
Настройка яркости, контраста, экспозиции.
Возможности Acrobat в ChatGPT:
Редактирование существующих PDF.
Конвертация документов в PDF.
Извлечение текста и таблиц.
Сжатие и объединение файлов.
Возможности Express в ChatGPT:
Генерация и редактирование дизайнов: постеры, приглашения, графика для соцсетей.
Замена текста, изображений, изменение цветов, анимация элементов.
Доступность:
Бесплатно для пользователей ChatGPT (ограниченный функционал по сравнению с десктопными версиями).
Desktop, web, iOS — глобально.
Android: Express уже доступен, Photoshop и Acrobat — «coming soon».
Проекты можно продолжить в нативных приложениях Adobe.
Adobe делает ставку на conversational UI как способ снизить порог входа в профессиональные инструменты, а OpenAI получает мощный аргумент против Gemini, который добавил редактирование изображений в мае.
Google выпустила Gemini 3 Pro — флагманскую модель с фокусом на визуальное и пространственное рассуждение. Модель устанавливает SOTA на бенчмарках MMMU Pro и Video MMMU, а на CharXiv Reasoning (работа с графиками и таблицами) превосходит человеческий baseline с результатом 80.5%.
Понимание документов:
Derendering: обратное преобразование визуальных документов в структурированный код (HTML, LaTeX, Markdown).
OCR: распознавание рукописного текста, сложных таблиц, математических формул, включая документы XVIII века.
Multi‑step reasoning: анализ длинных отчётов с таблицами и графиками.
Пространственное понимание:
Pointing: вывод pixel‑precise координат для указания на объекты.
Open vocabulary: идентификация объектов и намерений без заранее заданного словаря.
Применение: робототехника (планирование действий), AR/XR‑устройства.
Понимание экрана:
Работа с desktop и mobile UI для автоматизации задач.
Применение: computer use agents, QA‑тестирование, UX‑аналитика.
Понимание видео:
High frame rate: анализ быстрых действий при >1 fps (например, механика удара в гольфе).
Thinking mode: причинно‑следственные рассуждения во времени.
Video‑to‑code: извлечение знаний из длинных видео и конвертация в работающий код.
Применение в индустриях:
Образование: визуальные задачи от средней школы до университета, интеграция с Nano Banana Pro.
Медицина: SOTA на MedXpertQA‑MM, VQA‑RAD, MicroVQA (радиология, микроскопия).
Право и финансы: анализ сложных контрактов с redlines, работа с отчётами.
Для разработчиков:
Новый параметр media_resolution — баланс между качеством и стоимостью.
Сохранение нативного aspect ratio изображений.
Доступен в Google AI Studio.
Google делает ставку на vision как ключевой дифференциатор: Gemini 3 Pro — не просто распознавание, а полноценное визуальное рассуждение с применением от робототехники до медицинской диагностики.
Подробнее → | Google AI Studio → | Документация →
NYT обвиняет Perplexity в использовании контента без разрешения и компенсации. Иск — рычаг для переговоров о лицензионных сделках.
Суть претензий:
RAG‑продукты Perplexity генерируют «дословные или почти дословные воспроизведения» контента NYT.
Perplexity извлекает контент из‑под paywall'а и доставляет его пользователям бесплатно.
Поисковик галлюцинирует информацию и ложно приписывает её NYT.
Позиция Perplexity:
«Издатели судятся с технологическими компаниями уже сто лет — это никогда не работало».
Запущен Publishers' Program с долей рекламного дохода для партнёров.
Заключена лицензионная сделка с Getty Images.
Контекст:
NYT уже судится с OpenAI и Microsoft (один иск, со‑ответчики).
Против Perplexity также подали иски News Corp, Chicago Tribune, Encyclopedia Britannica, Nikkei, Reddit.
Cloudflare подтвердил: Perplexity скрейпит сайты, запретившие AI‑краулинг.
Прецедент: Anthropic согласилась на settlement в $1.5 млрд по иску о пиратских книгах.
Perplexity в центре юридического давления со стороны крупнейших медиа мира — иски формируют правовую базу для всей индустрии.
GPT-5.2 обходит экспертов, OpenAI и Anthropic жмут друг другу руки, а NYT жмёт Perplexity в суде — и всё это за одну неделю.
Что зацепило? Делитесь в комментариях!