Математика: Набор из 500 олимпиадных математических задач. Проверяет способность к точным вычислениям и рассуждениям.
| Модель | Результат | Оценка |
|---|---|---|
| DeepSeek R1 | 97.3% | |
| OpenAI o1 | 96.4% | |
| Claude Sonnet 4 | 89.3% | |
| DeepSeek V3 | 90.2% | |
| GPT-4o | 76.6% |
Программирование: 164 задачи на генерацию Python-кода. Проверяет способность писать правильный рабочий код.
| Модель | Результат | Оценка |
|---|---|---|
| Claude Sonnet 4 | 86.7% | |
| GPT-4o | 90.2% | |
| DeepSeek R1 | 92.6% | |
| DeepSeek V3 | 82.6% | |
| Gemini 2.0 Pro | 84.1% |
Энциклопедические знания: 57 академических дисциплин: право, медицина, история, математика. Проверяет широту знаний.
| Модель | Результат | Оценка |
|---|---|---|
| Claude Sonnet 4 | 89.1% | |
| GPT-4o | 88.7% | |
| DeepSeek R1 | 90.8% | |
| DeepSeek V3 | 88.5% | |
| Gemini 2.0 | 87.8% |
Экспертные вопросы: 448 вопросов уровня PhD в физике, биологии и химии. Самый сложный тест на экспертные знания.
| Модель | Результат | Оценка |
|---|---|---|
| DeepSeek R1 | 71.5% | |
| Claude Sonnet 4 | 68.0% | |
| OpenAI o1 | 75.7% | |
| GPT-4o | 53.6% | |
| DeepSeek V3 | 59.1% |
Результаты тестов дают общее представление. Для конкретной задачи лучше протестировать самостоятельно.
Модели улучшаются. Актуальные данные на май 2026; следите за обновлениями.
Некоторые модели могут быть обучены на тестовых данных. Проверяйте на реальных задачах.
R1 лучше в математике, GPT-4o — в коде, Claude — в длинных текстах. Выбирайте под задачу.
Задайте DeepSeek сложную задачу и оцените качество ответа.