Uma comparação com o Claude 3.5 Sonnet, que foi anunciado hoje e é melhor do que o Claude 3 Opus:
| DeepSeek | Claude 3.5 Sonnet | |
|---|---|---|
| HumanEval | 90.2% | 92.0% |
| MBPP+ | 76.2% | - |
| MATH | 75.7% | 71.1% |
| GSM8K | 94.9% | 96.4% |
| Aider | 73.7% | - |
| LiveCodeBench | 43.4% | - |
| SWE-Bench | 12.7% | - |
Os testes com - não estão presentes no anúncio do Claude 3.5 Sonnet.
Um detalhe relevante é que estão comparando o DeepSeek com o GPT-4 Turbo, não o GPT-4o.