gpt-5.4 dropped on math-1; gpt-5.4 dropped on spatial-1; gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-sonnet-4-6, claude-haiku-4-5 recovering.

Name: "LLM Eval Run — 2026-06-25T20:50:07-05:00"
Published: 2026-06-25T20:50:07-05:00

June 25, 2026 — 8:50 PM CT

Drift Alerts

Model	ambiguity-1	causality-1	code-1	common-sense-1	logic-1	math-1	spatial-1
anthropic/claude-haiku-4-5	✓ (4.33)	✓ (4.67)	✓ (4.67)	✓ (3.33)was ✗ (3)	✓ (5)	✓ (5)	✓ (5)
anthropic/claude-opus-4-6	✓ (5)	✓ (4.83)	✓ (4.67)	✓ (4.33)	✓ (5)	✓ (5)	✓ (5)
anthropic/claude-sonnet-4-6	✓ (4.33)	✓ (4.83)	✓ (4.67)	✓ (3.67)was ✗ (3.5)	✓ (5)	✓ (5)	✓ (5)
gemini/gemini-2.5-flash	✓ (4.5)	✗ (2.17)	✓ (4.83)	✓ (4.67)	✓ (5)	✓ (5)	✓ (5)
gemini/gemini-2.5-pro	✓ (4.67)	✓ (4.83)	✓ (4.83)	✓ (4.67)	✓ (5)	✓ (4.83)	✓ (5)
ollama/llama3	—	—	—	—	—	—	—
openai/gpt-5.4	✓ (4.5)	✓ (4.83)	✓ (4.67)	✓ (4.33)	✓ (5)	✓ (4)was 5	✓ (3.67)was 5
openai/gpt-5.4-mini	✓ (4.5)	✓ (5)	✓ (4.5)	✓ (4.33)	✓ (4.83)	✓ (5)	✗ (2.5)was 3.5