OpenAI выкатывает GPT-5.2 экспертного уровня, конкуренты объединяются ради стандартов: главное новости AI за неделю

  • OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня — обходит или не уступает профессионалам в 70.9% задач на GDPval (44 профессии), 100% на AIME 2025, 80% на SWE‑Bench Verified, галлюцинаций на 30% меньше, работает в 11× быстрее за <1% стоимости.

  • Anthropic и OpenAI передали ключевые стандарты в новый Agentic AI Foundation: MCP и AGENTS.md теперь под управлением Linux Foundation — редкая кооперация конкурентов ради общей инфраструктуры для AI‑агентов.

  • Mistral выпустила Devstral 2: открытая coding‑модель с 72.2% на SWE‑bench, в 5× меньше DeepSeek V3.2, плюс CLI‑агент Vibe для терминала.

  • Adobe пришла в ChatGPT: Photoshop, Acrobat и Express теперь работают прямо в чате — базовое редактирование фото и PDF бесплатно.

  • Google представила Gemini 3 Pro: прорыв в vision — SOTA на MMMU Pro и Video MMMU, понимание документов, видео и пространства для робототехники и медицины.

  • NYT подала в суд на Perplexity: обвинения в извлечении контента из‑под paywall'а — Perplexity в центре юридического давления от крупнейших медиа мира.

OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня на GDPval и набрала 100% на AIME 2025

OpenAI представила GPT-5.2 — флагманскую модель для сложных рабочих задач. На бенчмарке GDPval (реальные задачи из 44 профессий) GPT-5.2 Thinking обходит или не уступает экспертам в 70.9% случаев. На математической олимпиаде AIME 2025 — 100%.

Ключевые результаты GPT-5.2 Thinking:

  • GDPval: 70.9% побед и ничьих против экспертов (было 38.8% у GPT-5).

  • SWE‑Bench Verified: 80.0% (было 76.3%).

  • GPQA Diamond: 92.4% (было 88.1%).

  • AIME 2025: 100% (было 94%).

  • ARC‑AGI-2: 52.9% (было 17.6% — рост в 3×).

  • Галлюцинации: на 30% меньше ошибок в ответах.

  • Длинный контекст: первая модель, которая почти достигает 100% точности на 4-needle MRCR до 256K токенов.

Три версии:

  • GPT-5.2 Instant: быстрая модель для повседневных задач, улучшенный тон общения.

  • GPT-5.2 Thinking: для сложных задач — код, длинные документы, математика, планирование.

  • GPT-5.2 Pro: максимальное качество для трудных вопросов, где важен результат, а не скорость.

Что улучшено:

  • Spreadsheets и презентации: существенно выше качество генерации, +9.3% на задачах инвестбанкинга.

  • Vision: ошибки сократились вдвое на графиках и интерфейсах.

  • Tool calling: 98.7% на Tau2-bench Telecom.

  • Фронтенд: заметно сильнее в сложном UI и 3D‑элементах.

  • Безопасность: улучшены ответы в чувствительных темах (ментальное здоровье, самоповреждения, эмоциональная зависимость от модели).

API‑цены:

  • GPT-5.2: $1.75 / $14 за млн токенов (вход/выход), скидка 90% на кэш.

  • GPT-5.2 Pro: $21 / $168 за млн токенов.

Доступность:

  • ChatGPT: выкатывается сегодня для платных тарифных планов (Plus, Pro, Go, Business, Enterprise).

  • API: доступно всем разработчикам.

OpenAI делает ставку на экономическую ценность: на задачах GDPval модель выдаёт результаты экспертного уровня в 11× быстрее и за <1% стоимости работы профессионалов.

Подробнее → | System Card →

Anthropic и OpenAI вместе передали ключевые AI-стандарты в новый фонд Agentic AI Foundation под эгидой Linux Foundation

Anthropic, OpenAI и Block создали Agentic AI Foundation (AAIF) — фонд под эгидой Linux Foundation для развития открытых стандартов агентного AI. Anthropic передаёт Model Context Protocol (MCP), OpenAI — формат AGENTS.md, Block — фреймворк goose. Google, Microsoft, AWS, Cloudflare и Bloomberg выступили поддерживающими участниками.

Что передано в фонд:

  • MCP (Anthropic): универсальный протокол подключения AI к внешним системам — 10 000+ публичных серверов, 97 млн+ загрузок SDK в месяц, принят ChatGPT, Cursor, Gemini, VS Code, Microsoft Copilot.

  • AGENTS.md (OpenAI): формат Markdown‑файла с инструкциями для AI‑агентов в репозиториях — принят в 60 000+ open‑source проектов и агентных фреймворках включая Cursor, Devin, GitHub Copilot, Jules.

  • goose (Block): открытый агентный фреймворк.

Зачем это нужно:

  • Проблема: без общих стандартов экосистема агентов фрагментируется на несовместимые силосы.

  • Решение: нейтральное управление под Linux Foundation (как у Kubernetes, PyTorch, Node.js).

  • Цель: интероперабельность, безопасность и переносимость агентов между платформами.

Участники:

  • Сооснователи: Anthropic, OpenAI, Block.

  • Поддержка: Google, Microsoft, AWS, Cloudflare, Bloomberg.

Редкий случай прямой кооперации главных конкурентов в AI: Anthropic и OpenAI совместно создают инфраструктуру, которая может стать «USB‑стандартом» для AI‑агентов.

Подробнее (Anthropic) → | Подробнее (OpenAI) → | AAIF →

Mistral AI выпустила Devstral 2 — открытую модель для кодинга с 72.2% на SWE-bench и CLI-агент Vibe для терминала

Mistral представила семейство coding‑моделей Devstral 2 (123B) и Devstral Small 2 (24B) с открытыми лицензиями. Флагман показывает 72.2% на SWE‑bench Verified — один из лучших результатов среди open‑weight моделей. Параллельно выпущен Vibe CLI — терминальный агент для автономной работы с кодом.

  • Devstral 2 (123B):

    • Производительность: 72.2% на SWE‑bench Verified.

    • Контекст: 256K токенов.

    • Эффективность: до 7× дешевле Claude Sonnet на реальных задачах.

    • Размер: в 5× меньше DeepSeek V3.2, в 8× меньше Kimi K2.

    • Лицензия: modified MIT.

    • API‑цена (после бесплатного периода): $0.40 / $2.00 за млн токенов (вход/выход).

  • Devstral Small 2 (24B):

    • Производительность: 68.0% на SWE‑bench Verified — конкурирует с моделями в 5× крупнее.

    • Развёртывание: работает на потребительских GPU и даже CPU‑only конфигурациях.

    • Мультимодальность: поддержка изображений.

    • Лицензия: Apache 2.0.

    • API‑цена: $0.10 / $0.30 за млн токенов.

  • Mistral Vibe CLI:

    • Назначение: терминальный агент для автономного решения задач разработки.

    • Возможности: навигация по кодовой базе, multi‑file orchestration, Git‑интеграция, автокомплит файлов через @

    • Интеграция: доступен как расширение в IDE Zed, поддерживает Agent Communication Protocol.

    • Лицензия: Apache 2.0.

  • Независимая оценка (human evaluation через Cline):

    • Devstral 2 vs DeepSeek V3.2: 42.8% побед vs 28.6% поражений.

    • Devstral 2 vs Claude Sonnet 4.5: Claude по‑прежнему предпочтительнее — разрыв с закрытыми моделями сохраняется.

Mistral усиливает позиции в open‑source сегменте для разработчиков: компактные модели с производительностью на уровне гигантов и полноценный CLI‑агент — прямая конкуренция Claude Code и Cursor.

Подробнее → | Devstral API → | Vibe CLI на GitHub →

Adobe интегрировала Photoshop, Acrobat и Express в ChatGPT: базовое редактирование фото и PDF бесплатно, прямо внутри чата

OpenAI и Adobe запустили приложения Photoshop, Acrobat и Express прямо внутри ChatGPT. Пользователи могут редактировать изображения и PDF через текстовые команды без переключения между приложениями.

Как работает:

  • Загрузить файл + написать команду: «Adobe Photoshop, blur the background of this image».

  • После первого вызова имя приложения можно не повторять в рамках сессии.

  • Результаты: либо варианты на выбор, либо UI‑элементы (слайдеры яркости, контраста).

Возможности Photoshop в ChatGPT:

  • Редактирование отдельных участков изображения.

  • Применение творческих эффектов.

  • Настройка яркости, контраста, экспозиции.

Возможности Acrobat в ChatGPT:

  • Редактирование существующих PDF.

  • Конвертация документов в PDF.

  • Извлечение текста и таблиц.

  • Сжатие и объединение файлов.

Возможности Express в ChatGPT:

  • Генерация и редактирование дизайнов: постеры, приглашения, графика для соцсетей.

  • Замена текста, изображений, изменение цветов, анимация элементов.

Доступность:

  • Бесплатно для пользователей ChatGPT (ограниченный функционал по сравнению с десктопными версиями).

  • Desktop, web, iOS — глобально.

  • Android: Express уже доступен, Photoshop и Acrobat — «coming soon».

  • Проекты можно продолжить в нативных приложениях Adobe.

Adobe делает ставку на conversational UI как способ снизить порог входа в профессиональные инструменты, а OpenAI получает мощный аргумент против Gemini, который добавил редактирование изображений в мае.

Подробнее →

Google представила Gemini 3 Pro — мультимодальную модель с прорывом в понимании документов, видео и пространства

Google выпустила Gemini 3 Pro — флагманскую модель с фокусом на визуальное и пространственное рассуждение. Модель устанавливает SOTA на бенчмарках MMMU Pro и Video MMMU, а на CharXiv Reasoning (работа с графиками и таблицами) превосходит человеческий baseline с результатом 80.5%.

  • Понимание документов:

    • Derendering: обратное преобразование визуальных документов в структурированный код (HTML, LaTeX, Markdown).

    • OCR: распознавание рукописного текста, сложных таблиц, математических формул, включая документы XVIII века.

    • Multi‑step reasoning: анализ длинных отчётов с таблицами и графиками.

  • Пространственное понимание:

    • Pointing: вывод pixel‑precise координат для указания на объекты.

    • Open vocabulary: идентификация объектов и намерений без заранее заданного словаря.

    • Применение: робототехника (планирование действий), AR/XR‑устройства.

  • Понимание экрана:

    • Работа с desktop и mobile UI для автоматизации задач.

    • Применение: computer use agents, QA‑тестирование, UX‑аналитика.

  • Понимание видео:

    • High frame rate: анализ быстрых действий при >1 fps (например, механика удара в гольфе).

    • Thinking mode: причинно‑следственные рассуждения во времени.

    • Video‑to‑code: извлечение знаний из длинных видео и конвертация в работающий код.

  • Применение в индустриях:

    • Образование: визуальные задачи от средней школы до университета, интеграция с Nano Banana Pro.

    • Медицина: SOTA на MedXpertQA‑MM, VQA‑RAD, MicroVQA (радиология, микроскопия).

    • Право и финансы: анализ сложных контрактов с redlines, работа с отчётами.

  • Для разработчиков:

    • Новый параметр media_resolution — баланс между качеством и стоимостью.

    • Сохранение нативного aspect ratio изображений.

    • Доступен в Google AI Studio.

Google делает ставку на vision как ключевой дифференциатор: Gemini 3 Pro — не просто распознавание, а полноценное визуальное рассуждение с применением от робототехники до медицинской диагностики.

Подробнее → | Google AI Studio → | Документация →

New York Times подала в суд на Perplexity за нарушение авторских прав

NYT обвиняет Perplexity в использовании контента без разрешения и компенсации. Иск — рычаг для переговоров о лицензионных сделках.

Суть претензий:

  • RAG‑продукты Perplexity генерируют «дословные или почти дословные воспроизведения» контента NYT.

  • Perplexity извлекает контент из‑под paywall'а и доставляет его пользователям бесплатно.

  • Поисковик галлюцинирует информацию и ложно приписывает её NYT.

Позиция Perplexity:

  • «Издатели судятся с технологическими компаниями уже сто лет — это никогда не работало».

  • Запущен Publishers' Program с долей рекламного дохода для партнёров.

  • Заключена лицензионная сделка с Getty Images.

Контекст:

  • NYT уже судится с OpenAI и Microsoft (один иск, со‑ответчики).

  • Против Perplexity также подали иски News Corp, Chicago Tribune, Encyclopedia Britannica, Nikkei, Reddit.

  • Cloudflare подтвердил: Perplexity скрейпит сайты, запретившие AI‑краулинг.

  • Прецедент: Anthropic согласилась на settlement в $1.5 млрд по иску о пиратских книгах.

Perplexity в центре юридического давления со стороны крупнейших медиа мира — иски формируют правовую базу для всей индустрии.

Подробнее →


GPT-5.2 обходит экспертов, OpenAI и Anthropic жмут друг другу руки, а NYT жмёт Perplexity в суде — и всё это за одну неделю.

Что зацепило? Делитесь в комментариях!


Внимание!

Официальный сайт Perplexity AI доступен по ссылке ниже.

Официальный сайт