# LLM Weather Report — 2026-05-26T18-04-45

gemini-2.5-flash failing causality-1. gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini recovering. gemini-2.5-pro scores rising.

## Drift Alerts
- IMPROVEMENT: openai/gpt-5.4 on logic-1
- IMPROVEMENT: openai/gpt-5.4 on math-1
- IMPROVEMENT: openai/gpt-5.4 on spatial-1
- IMPROVEMENT: openai/gpt-5.4 on causality-1
- IMPROVEMENT: openai/gpt-5.4 on code-1
- IMPROVEMENT: openai/gpt-5.4 on ambiguity-1
- IMPROVEMENT: openai/gpt-5.4 on common-sense-1
- IMPROVEMENT: openai/gpt-5.4-mini on logic-1
- IMPROVEMENT: openai/gpt-5.4-mini on math-1
- IMPROVEMENT: openai/gpt-5.4-mini on spatial-1
- IMPROVEMENT: openai/gpt-5.4-mini on causality-1
- IMPROVEMENT: openai/gpt-5.4-mini on code-1
- IMPROVEMENT: openai/gpt-5.4-mini on ambiguity-1
- IMPROVEMENT: openai/gpt-5.4-mini on common-sense-1
- SCORE_RISE: gemini/gemini-2.5-pro on common-sense-1

## Scorecard

| Model | ambiguity-1 | causality-1 | code-1 | common-sense-1 | logic-1 | math-1 | spatial-1 | 
|-------|------|------|------|------|------|------|------|
| anthropic/claude-haiku-4-5 | ✓ (4.33) | ✓ (4.67) | ✓ (4.67) | ✓ (3.17) | ✓ (5) | ✓ (5) | ✓ (5) | 
| anthropic/claude-opus-4-6 | ✓ (5) | ✓ (4.83) | ✓ (4.83) | ✓ (4.33) | ✓ (5) | ✓ (5) | ✓ (5) | 
| anthropic/claude-sonnet-4-6 | ✓ (4.33) | ✓ (4.67) | ✓ (4.67) | ✓ (3.83) | ✓ (5) | ✓ (5) | ✓ (5) | 
| gemini/gemini-2.5-flash | ✓ (4.67) | ✗ (2) | ✓ (5) | ✓ (4) | ✓ (5) | ✓ (5) | ✓ (5) | 
| gemini/gemini-2.5-pro | ✓ (4.67) | ✓ (4.83) | ✓ (5) | ✓ (5) | ✓ (5) | ✓ (5) | ✓ (5) | 
| ollama/llama3 | — | — | — | — | — | — | — | 
| openai/gpt-5.4 | ✓ (4.5) | ✓ (4.83) | ✓ (4.83) | ✓ (4.33) | ✓ (5) | ✓ (4.83) | ✓ (5) | 
| openai/gpt-5.4-mini | ✓ (4.5) | ✓ (4.67) | ✓ (4.67) | ✓ (4.5) | ✓ (5) | ✓ (5) | ✓ (5) | 


## Model Status
- → **anthropic/claude-haiku-4-5**: stable
- → **anthropic/claude-opus-4-6**: stable
- → **anthropic/claude-sonnet-4-6**: stable
- → **gemini/gemini-2.5-flash**: stable
- ↑ **gemini/gemini-2.5-pro**: up
- ↑ **openai/gpt-5.4**: up
- ↑ **openai/gpt-5.4-mini**: up