Latest Report

Name: LLM Reasoning Drift Evals
License: https://github.com/2389-research/llm-weather/blob/main/LICENSE

July 25, 2026 — 8:39 PM CT

gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising.

Drift Alerts

SCORE_RISE gemini/gemini-2.5-flash on common-sense-1

Model Status

→ anthropic/claude-haiku-4-5 stable
→ anthropic/claude-opus-4-6 stable
→ anthropic/claude-sonnet-4-6 stable
↑ gemini/gemini-2.5-flash up
→ gemini/gemini-2.5-pro stable
→ openai/gpt-5.4 stable
→ openai/gpt-5.4-mini stable

Provider Status

OpenAI Elevated errors affecting ChatGPT conversations
OpenAI Elevated error rates
OpenAI Elevated error rates
OpenAI Elevated Error Rates
OpenAI Elevated Errors in Codex Review
Anthropic Elevated errors for Claude Fable 5, Claude Sonnet 5, Claude Haiku 4.5, and other models
Anthropic Elevated errors for Mythos 5, Fable 5, Opus 5 and Claude Haiku 4.5
Anthropic Sonnet 4.6 and Sonnet 5 errors elevated
Anthropic Microsoft Office add-in availability
Anthropic Elevated error rate on Opus 4.8

Scorecard

Model	ambiguity-1	causality-1	code-1	common-sense-1	logic-1	math-1	spatial-1
anthropic/claude-haiku-4-5	✓ (4.33)	✓ (4.67)	✓ (4.67)	✓ (3.33)	✓ (5)	✓ (5)	✓ (5)
anthropic/claude-opus-4-6	✓ (5)	✓ (4.83)	✓ (4.83)	✓ (4.33)	✓ (5)	✓ (5)	✓ (5)
anthropic/claude-sonnet-4-6	✓ (4.83)	✓ (4.83)	✓ (4.5)	✓ (3.5)	✓ (5)	✓ (5)	✓ (5)
gemini/gemini-2.5-flash	✓ (4.5)	✗ (3.5)	✓ (4.67)	✓ (4.83)was 3.83	✓ (4.83)	✓ (5)	✓ (5)
gemini/gemini-2.5-pro	✓ (4.67)	✓ (5)	✓ (4.67)	✓ (5)	✓ (5)	✓ (5)	✓ (5)
ollama/llama3	—	—	—	—	—	—	—
openai/gpt-5.4	✓ (4.33)	✓ (5)	✓ (4.67)	✓ (4.33)	✓ (5)	✓ (4.33)	✓ (5)
openai/gpt-5.4-mini	✓ (4.5)	✓ (4.67)	✓ (4.67)	✓ (4.5)	✓ (5)	✓ (5)	✗ (3.67)

Score History

Past Reports

Jul 25, 2026 8:39 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jul 25, 2026 5:22 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 25, 2026 12:24 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 25, 2026 8:34 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Jul 25, 2026 5:34 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jul 25, 2026 12:56 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jul 24, 2026 8:40 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gemini-2.5-flash scores rising. 2 alerts
Jul 24, 2026 5:27 PM gemini-2.5-flash lost causality-1. gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 24, 2026 12:35 PM gpt-5.4-mini failing spatial-1. no drift
Jul 24, 2026 8:35 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash scores rising. 2 alerts
Jul 24, 2026 5:45 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini, gemini-2.5-flash recovering. 3 alerts
Jul 24, 2026 1:01 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jul 23, 2026 8:40 PM gpt-5.4-mini lost spatial-1. gpt-5.4-mini dropped on math-1. gemini-2.5-flash recovering. 3 alerts
Jul 23, 2026 5:25 PM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Jul 23, 2026 12:34 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jul 23, 2026 8:37 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jul 23, 2026 5:48 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jul 23, 2026 1:03 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jul 22, 2026 8:40 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash scores rising. 2 alerts
Jul 22, 2026 5:26 PM gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash recovering. 2 alerts
Jul 22, 2026 12:33 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jul 22, 2026 8:36 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash scores rising. 2 alerts
Jul 22, 2026 5:47 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jul 22, 2026 1:02 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
Jul 21, 2026 8:40 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4 scores rising. 3 alerts
Jul 21, 2026 5:22 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. claude-haiku-4-5 scores rising. 3 alerts
Jul 21, 2026 12:34 PM claude-haiku-4-5 dropped on code-1. gemini-2.5-flash recovering. 2 alerts
Jul 21, 2026 8:36 AM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 1 alert
Jul 21, 2026 5:46 AM gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jul 21, 2026 1:02 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gpt-5.4 scores rising. 2 alerts
Jul 20, 2026 8:40 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jul 20, 2026 5:24 PM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
Jul 20, 2026 12:47 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
Jul 20, 2026 8:38 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Jul 20, 2026 6:05 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
Jul 20, 2026 1:06 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 3 alerts
Jul 19, 2026 8:46 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-pro, gemini-2.5-flash scores rising. 3 alerts
Jul 19, 2026 5:21 PM gpt-5.4-mini lost spatial-1. gpt-5.4-mini dropped on math-1; gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 4 alerts
Jul 19, 2026 12:25 PM gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Jul 19, 2026 8:34 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. gpt-5.4-mini scores rising. 3 alerts
Jul 19, 2026 5:34 AM gpt-5.4-mini lost spatial-1. gpt-5.4-mini dropped on math-1. gemini-2.5-flash recovering. 3 alerts
Jul 19, 2026 1:03 AM gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jul 18, 2026 8:39 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jul 18, 2026 5:20 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jul 18, 2026 12:24 PM gemini-2.5-flash lost causality-1. claude-sonnet-4-6 dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 3 alerts
Jul 18, 2026 8:33 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 18, 2026 5:33 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 18, 2026 12:47 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jul 17, 2026 8:39 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jul 17, 2026 5:19 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 17, 2026 12:28 PM gpt-5.4-mini dropped on math-1; gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 3 alerts
Jul 17, 2026 8:36 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 17, 2026 5:37 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jul 17, 2026 12:56 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini, gpt-5.4-mini scores rising. 3 alerts
Jul 16, 2026 8:40 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on math-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 16, 2026 5:24 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jul 16, 2026 12:33 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jul 16, 2026 8:36 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 16, 2026 5:44 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-haiku-4-5 recovering. gpt-5.4-mini scores rising. 2 alerts
Jul 16, 2026 12:55 AM gpt-5.4-mini lost spatial-1; claude-haiku-4-5 lost code-1. gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. 3 alerts
Jul 15, 2026 8:39 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jul 15, 2026 5:24 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 15, 2026 12:32 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 15, 2026 8:36 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Jul 15, 2026 5:38 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jul 15, 2026 12:50 AM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
Jul 14, 2026 8:39 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jul 14, 2026 5:24 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 14, 2026 12:30 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jul 14, 2026 8:37 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 14, 2026 5:37 AM gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 1 alert
Jul 14, 2026 12:50 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 13, 2026 8:39 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jul 13, 2026 5:23 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 13, 2026 1:46 PM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
Jul 13, 2026 10:44 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jul 13, 2026 7:35 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jul 13, 2026 3:20 AM gemini-2.5-flash lost causality-1. gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 3 alerts
Jul 12, 2026 11:34 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jul 12, 2026 5:56 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 12, 2026 1:02 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
Jul 12, 2026 9:35 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 12, 2026 6:16 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jul 12, 2026 2:31 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jul 11, 2026 11:28 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jul 11, 2026 5:56 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 11, 2026 12:24 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jul 11, 2026 8:34 AM gemini-2.5-flash lost causality-1. 1 alert
Jul 11, 2026 5:31 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jul 11, 2026 12:54 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jul 10, 2026 8:39 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash scores rising. 2 alerts
Jul 10, 2026 5:26 PM gemini-2.5-flash dropped on causality-1. gpt-5.4 scores rising. 2 alerts
Jul 10, 2026 12:37 PM gpt-5.4-mini, gemini-2.5-flash recovering. gemini-2.5-flash scores rising. 3 alerts
Jul 10, 2026 8:43 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Jul 10, 2026 6:06 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4 scores rising. 1 alert
Jul 10, 2026 1:22 AM gemini-2.5-flash lost causality-1. gpt-5.4 dropped on math-1; gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash scores rising. 4 alerts
Jul 9, 2026 8:41 PM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 9, 2026 5:35 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Jul 9, 2026 12:41 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
Jul 9, 2026 8:58 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on math-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 9, 2026 6:06 AM gpt-5.4-mini failing spatial-1. gpt-5.4-mini, claude-haiku-4-5 scores rising. 2 alerts
Jul 9, 2026 1:28 AM claude-haiku-4-5 dropped on code-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 8, 2026 8:41 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jul 8, 2026 5:25 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jul 8, 2026 12:34 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash, gemini-2.5-flash scores rising. 3 alerts
Jul 8, 2026 8:39 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
Jul 8, 2026 5:46 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 3 alerts
Jul 8, 2026 1:03 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jul 7, 2026 8:40 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
Jul 7, 2026 5:28 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jul 7, 2026 12:43 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 7, 2026 8:47 AM gpt-5.4-mini failing spatial-1. no drift
Jul 7, 2026 6:06 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 7, 2026 1:25 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jul 6, 2026 8:40 PM gpt-5.4-mini lost spatial-1. 1 alert
Jul 6, 2026 5:32 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jul 6, 2026 12:54 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jul 6, 2026 9:14 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gpt-5.4-mini scores rising. 2 alerts
Jul 6, 2026 6:36 AM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on math-1. 3 alerts
Jul 6, 2026 1:34 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jul 5, 2026 8:41 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jul 5, 2026 5:25 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jul 5, 2026 12:30 PM gpt-5.4-mini failing spatial-1. no drift
Jul 5, 2026 8:35 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. 2 alerts
Jul 5, 2026 5:47 AM gpt-5.4-mini, gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 3 alerts
Jul 5, 2026 1:21 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on math-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 4, 2026 8:39 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 4, 2026 5:23 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jul 4, 2026 12:27 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
Jul 4, 2026 8:35 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jul 4, 2026 5:43 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Jul 4, 2026 1:06 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jul 3, 2026 8:40 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
Jul 3, 2026 5:26 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 3, 2026 12:34 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
Jul 3, 2026 8:37 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Jul 3, 2026 5:59 AM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
Jul 3, 2026 1:16 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 3 alerts
Jul 2, 2026 8:40 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash recovering. 3 alerts
Jul 2, 2026 5:27 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jul 2, 2026 12:37 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
Jul 2, 2026 8:38 AM gpt-5.4-mini dropped on causality-1. gpt-5.4-mini recovering. claude-sonnet-4-6 scores rising. 3 alerts
Jul 2, 2026 5:59 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jul 2, 2026 1:20 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Jul 1, 2026 8:47 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4 scores rising. 2 alerts
Jul 1, 2026 5:35 PM gemini-2.5-flash lost causality-1. claude-haiku-4-5 dropped on code-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jul 1, 2026 12:41 PM gpt-5.4-mini failing spatial-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
Jul 1, 2026 8:50 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. gemini-2.5-flash scores rising. 3 alerts
Jul 1, 2026 6:13 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gpt-5.4 scores rising. 2 alerts
Jul 1, 2026 1:34 AM gemini-2.5-flash dropped on causality-1; gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 3 alerts
Jun 30, 2026 8:52 PM gpt-5.4 dropped on math-1; gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Jun 30, 2026 5:33 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 30, 2026 12:42 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jun 30, 2026 8:43 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4, gpt-5.4-mini scores rising. 4 alerts
Jun 30, 2026 6:08 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Jun 30, 2026 1:30 AM gpt-5.4-mini lost spatial-1. claude-haiku-4-5 dropped on code-1. gemini-2.5-flash failing causality-1. claude-sonnet-4-6 scores rising. 3 alerts
Jun 29, 2026 8:47 PM gemini-2.5-flash lost causality-1. claude-sonnet-4-6 dropped on code-1. gpt-5.4-mini recovering. 3 alerts
Jun 29, 2026 5:29 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
Jun 29, 2026 12:53 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 29, 2026 9:28 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jun 29, 2026 6:47 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jun 29, 2026 1:37 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Jun 28, 2026 8:51 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jun 28, 2026 5:28 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jun 28, 2026 12:31 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
Jun 28, 2026 8:37 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 28, 2026 5:50 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 28, 2026 1:32 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jun 27, 2026 8:48 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jun 27, 2026 5:28 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 27, 2026 12:29 PM gemini-2.5-flash failing causality-1. no drift
Jun 27, 2026 8:37 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jun 27, 2026 5:45 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jun 27, 2026 1:15 AM gpt-5.4-mini lost spatial-1. 1 alert
Jun 26, 2026 8:45 PM gpt-5.4-mini recovering. 1 alert
Jun 26, 2026 5:33 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Jun 26, 2026 12:39 PM gemini-2.5-flash lost causality-1. gemini-2.5-flash dropped on common-sense-1. 2 alerts
Jun 26, 2026 8:47 AM gpt-5.4 dropped on math-1. claude-sonnet-4-6, claude-sonnet-4-6, claude-sonnet-4-6, claude-haiku-4-5, gemini-2.5-flash recovering. 6 alerts
Jun 26, 2026 6:07 AM claude-sonnet-4-6 lost code-1; claude-sonnet-4-6 lost ambiguity-1; claude-sonnet-4-6 lost common-sense-1; claude-haiku-4-5 lost common-sense-1; gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 6 alerts
Jun 26, 2026 1:28 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jun 25, 2026 8:50 PM gpt-5.4 dropped on math-1; gpt-5.4 dropped on spatial-1; gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-sonnet-4-6, claude-haiku-4-5 recovering. 5 alerts
Jun 25, 2026 5:37 PM claude-sonnet-4-6 lost common-sense-1; claude-haiku-4-5 lost common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Jun 25, 2026 12:51 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 25, 2026 8:47 AM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
Jun 25, 2026 6:04 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
Jun 25, 2026 1:27 AM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jun 24, 2026 8:48 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 24, 2026 5:33 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 24, 2026 12:42 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-haiku-4-5 scores rising. 1 alert
Jun 24, 2026 8:47 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1; claude-haiku-4-5 dropped on code-1. gpt-5.4-mini failing spatial-1. 3 alerts
Jun 24, 2026 6:08 AM gpt-5.4-mini failing spatial-1. no drift
Jun 24, 2026 1:25 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. gemini-2.5-flash scores rising. 3 alerts
Jun 23, 2026 8:45 PM gemini-2.5-flash lost causality-1. claude-sonnet-4-6 dropped on common-sense-1. gpt-5.4-mini recovering. 3 alerts
Jun 23, 2026 5:34 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. claude-sonnet-4-6 scores rising. 2 alerts
Jun 23, 2026 12:40 PM claude-sonnet-4-6 dropped on common-sense-1. gpt-5.4-mini failing spatial-1. claude-haiku-4-5, gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 4 alerts
Jun 23, 2026 8:55 AM claude-haiku-4-5 lost common-sense-1. gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-sonnet-4-6 scores rising. 4 alerts
Jun 23, 2026 6:10 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
Jun 23, 2026 1:27 AM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jun 22, 2026 8:46 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. gemini-2.5-flash scores rising. 3 alerts
Jun 22, 2026 5:39 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jun 22, 2026 1:27 PM claude-sonnet-4-6 dropped on common-sense-1; gemini-2.5-flash dropped on causality-1; gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 4 alerts
Jun 22, 2026 9:59 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-haiku-4-5, gemini-2.5-flash scores rising. 2 alerts
Jun 22, 2026 7:06 AM claude-haiku-4-5 dropped on code-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Jun 22, 2026 1:52 AM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
Jun 21, 2026 8:57 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jun 21, 2026 5:33 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 21, 2026 12:37 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jun 21, 2026 8:40 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
Jun 21, 2026 6:09 AM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
Jun 21, 2026 1:38 AM All models stable. no drift
Jun 20, 2026 8:55 PM gemini-2.5-flash dropped on causality-1. 1 alert
Jun 20, 2026 5:32 PM gpt-5.4-mini recovering. 1 alert
Jun 20, 2026 12:36 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jun 20, 2026 8:39 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 20, 2026 5:54 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 20, 2026 1:34 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Jun 19, 2026 8:49 PM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
Jun 19, 2026 5:26 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jun 19, 2026 12:43 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jun 19, 2026 9:09 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jun 19, 2026 6:38 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
Jun 19, 2026 1:48 AM gpt-5.4-mini lost spatial-1. gpt-5.4-mini dropped on math-1; gemini-2.5-flash dropped on causality-1. 3 alerts
Jun 18, 2026 9:03 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jun 18, 2026 5:45 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jun 18, 2026 1:04 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jun 18, 2026 9:06 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 18, 2026 6:30 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, claude-haiku-4-5 scores rising. 2 alerts
Jun 18, 2026 1:39 AM gemini-2.5-flash lost causality-1. claude-haiku-4-5 dropped on code-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jun 17, 2026 8:57 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash scores rising. 1 alert
Jun 17, 2026 5:39 PM gpt-5.4-mini lost spatial-1. gpt-5.4 scores rising. 2 alerts
Jun 17, 2026 12:57 PM gpt-5.4 dropped on math-1. gemini-2.5-flash recovering. 2 alerts
Jun 17, 2026 9:17 AM gemini-2.5-flash failing causality-1. no drift
Jun 17, 2026 6:40 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jun 17, 2026 1:47 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 16, 2026 8:56 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. claude-sonnet-4-6 scores rising. 2 alerts
Jun 16, 2026 5:42 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1; claude-sonnet-4-6 dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 5 alerts
Jun 16, 2026 1:35 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Jun 16, 2026 9:45 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. claude-sonnet-4-6 scores rising. 3 alerts
Jun 16, 2026 6:51 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
Jun 16, 2026 1:52 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Jun 15, 2026 8:59 PM gpt-5.4-mini dropped on math-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jun 15, 2026 5:47 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jun 15, 2026 1:38 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 15, 2026 10:09 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Jun 15, 2026 7:07 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 3 alerts
Jun 15, 2026 1:52 AM gpt-5.4-mini dropped on math-1; gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 4 alerts
Jun 14, 2026 8:57 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4, gemini-2.5-flash, gemini-2.5-flash scores rising. 3 alerts
Jun 14, 2026 5:32 PM gpt-5.4-mini lost spatial-1. gpt-5.4 dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 3 alerts
Jun 14, 2026 12:35 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jun 14, 2026 8:39 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4 scores rising. 3 alerts
Jun 14, 2026 6:04 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 14, 2026 1:35 AM gpt-5.4 dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
Jun 13, 2026 8:53 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jun 13, 2026 5:29 PM gpt-5.4-mini dropped on math-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Jun 13, 2026 12:36 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Jun 13, 2026 8:39 AM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-haiku-4-5 recovering. 2 alerts
Jun 13, 2026 5:54 AM claude-haiku-4-5 lost code-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 3 alerts
Jun 13, 2026 1:30 AM gpt-5.4-mini lost spatial-1. gpt-5.4-mini dropped on math-1. gemini-2.5-flash failing causality-1. 2 alerts
Jun 12, 2026 8:49 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jun 12, 2026 5:39 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Jun 12, 2026 12:49 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jun 12, 2026 9:06 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 12, 2026 6:24 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jun 12, 2026 1:35 AM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4 scores rising. 2 alerts
Jun 11, 2026 8:53 PM gpt-5.4 dropped on math-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 3 alerts
Jun 11, 2026 5:41 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 11, 2026 1:06 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Jun 11, 2026 9:21 AM gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 1 alert
Jun 11, 2026 6:40 AM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jun 11, 2026 1:37 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jun 10, 2026 8:56 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Jun 10, 2026 5:42 PM gemini-2.5-flash failing causality-1. gemini-2.5-flash, gemini-2.5-flash scores rising. 2 alerts
Jun 10, 2026 1:03 PM gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
Jun 10, 2026 9:10 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Jun 10, 2026 6:23 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
Jun 10, 2026 1:34 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jun 9, 2026 8:49 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jun 9, 2026 5:38 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 9, 2026 12:44 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jun 9, 2026 8:55 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 9, 2026 6:11 AM gpt-5.4 dropped on math-1; gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Jun 9, 2026 1:27 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jun 8, 2026 8:43 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
Jun 8, 2026 5:38 PM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-haiku-4-5 scores rising. 3 alerts
Jun 8, 2026 1:03 PM gemini-2.5-flash lost causality-1. claude-haiku-4-5 dropped on code-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 3 alerts
Jun 8, 2026 9:29 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jun 8, 2026 6:44 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Jun 8, 2026 1:35 AM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
Jun 7, 2026 8:54 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. gpt-5.4 scores rising. 3 alerts
Jun 7, 2026 5:30 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Jun 7, 2026 12:35 PM gemini-2.5-flash lost causality-1. claude-sonnet-4-6 dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini, gpt-5.4-mini scores rising. 4 alerts
Jun 7, 2026 8:39 AM gpt-5.4-mini dropped on math-1; gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. claude-sonnet-4-6, gemini-2.5-flash recovering. 4 alerts
Jun 7, 2026 5:51 AM claude-sonnet-4-6 lost common-sense-1; gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jun 7, 2026 1:33 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Jun 6, 2026 8:53 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Jun 6, 2026 5:29 PM gemini-2.5-flash lost causality-1. claude-sonnet-4-6 dropped on common-sense-1. gpt-5.4-mini failing spatial-1. claude-sonnet-4-6 recovering. 3 alerts
Jun 6, 2026 12:31 PM gpt-5.4-mini lost spatial-1; claude-sonnet-4-6 lost code-1. gemini-2.5-flash recovering. 3 alerts
Jun 6, 2026 8:37 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on causality-1. gpt-5.4-mini recovering. 3 alerts
Jun 6, 2026 5:44 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
Jun 6, 2026 1:15 AM claude-sonnet-4-6 dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4 recovering. gemini-2.5-flash scores rising. 3 alerts
Jun 5, 2026 8:45 PM gpt-5.4 lost code-1. gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-sonnet-4-6 scores rising. 3 alerts
Jun 5, 2026 5:32 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Jun 5, 2026 12:41 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 5, 2026 9:01 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jun 5, 2026 6:14 AM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
Jun 5, 2026 1:34 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini, gemini-2.5-flash recovering. 3 alerts
Jun 4, 2026 8:50 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Jun 4, 2026 5:37 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Jun 4, 2026 12:56 PM gemini-2.5-flash lost causality-1. 1 alert
Jun 4, 2026 9:04 AM gpt-5.4-mini recovering. 1 alert
Jun 4, 2026 6:11 AM gpt-5.4-mini failing spatial-1. gemini-2.5-pro, gemini-2.5-pro, gemini-2.5-flash recovering. 3 alerts
Jun 4, 2026 1:36 AM gpt-5.4-mini lost spatial-1; gemini-2.5-pro lost causality-1; gemini-2.5-pro lost code-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 4 alerts
Jun 3, 2026 8:59 PM gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 3 alerts
Jun 3, 2026 5:48 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 3, 2026 1:31 PM gemini-2.5-flash lost causality-1. 1 alert
Jun 3, 2026 9:37 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini, gemini-2.5-flash recovering. 3 alerts
Jun 3, 2026 6:45 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Jun 3, 2026 1:40 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Jun 2, 2026 9:00 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
Jun 2, 2026 5:48 PM gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 2, 2026 1:20 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Jun 2, 2026 9:30 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 2, 2026 6:37 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 3 alerts
Jun 2, 2026 1:36 AM gpt-5.4-mini dropped on spatial-1. gemini-2.5-flash recovering. 2 alerts
Jun 1, 2026 8:56 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Jun 1, 2026 5:47 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Jun 1, 2026 1:58 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Jun 1, 2026 10:12 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Jun 1, 2026 7:06 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Jun 1, 2026 1:41 AM gemini-2.5-flash lost causality-1. gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini recovering. 3 alerts
May 31, 2026 8:54 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
May 31, 2026 5:27 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 31, 2026 12:29 PM claude-sonnet-4-6 dropped on common-sense-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 3 alerts
May 31, 2026 8:38 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4, claude-sonnet-4-6, claude-haiku-4-5 scores rising. 4 alerts
May 31, 2026 5:45 AM gpt-5.4-mini lost spatial-1. gpt-5.4 dropped on math-1; claude-haiku-4-5 dropped on code-1. gemini-2.5-flash failing causality-1. 3 alerts
May 31, 2026 1:32 AM gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. 1 alert
May 30, 2026 8:48 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 3 alerts
May 30, 2026 5:26 PM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
May 30, 2026 12:29 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 30, 2026 8:37 AM gemini-2.5-flash lost causality-1. 1 alert
May 30, 2026 5:40 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
May 30, 2026 1:10 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 29, 2026 8:43 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
May 29, 2026 5:36 PM gpt-5.4-mini failing spatial-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
May 29, 2026 1:06 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 1 alert
May 29, 2026 9:07 AM gpt-5.4-mini failing spatial-1. no drift
May 29, 2026 6:14 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. 2 alerts
May 29, 2026 1:30 AM gpt-5.4 dropped on math-1. gpt-5.4-mini recovering. 2 alerts
May 28, 2026 8:47 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
May 28, 2026 5:37 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
May 28, 2026 1:06 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
May 28, 2026 9:20 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
May 28, 2026 6:21 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. 2 alerts
May 28, 2026 1:29 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
May 27, 2026 8:41 PM gemini-2.5-flash lost causality-1. gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. 2 alerts
May 27, 2026 5:38 PM gpt-5.4-mini lost spatial-1. 1 alert
May 27, 2026 1:03 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini recovering. 2 alerts
May 27, 2026 9:13 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gemini-2.5-flash scores rising. 2 alerts
May 27, 2026 6:21 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
May 27, 2026 1:34 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 26, 2026 8:49 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 26, 2026 5:34 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 26, 2026 1:04 PM gemini-2.5-flash failing causality-1. gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini, gpt-5.4-mini recovering. gemini-2.5-pro scores rising. 15 alerts
May 26, 2026 9:07 AM gemini-2.5-pro dropped on common-sense-1. gemini-2.5-flash failing causality-1. 1 alert
May 26, 2026 1:27 AM gemini-2.5-flash failing causality-1. no drift
May 25, 2026 8:45 PM gemini-2.5-flash failing causality-1. no drift
May 25, 2026 5:28 PM gemini-2.5-flash lost causality-1. 1 alert
May 25, 2026 12:37 PM gemini-2.5-flash recovering. 1 alert
May 25, 2026 9:06 AM gemini-2.5-flash failing causality-1. no drift
May 25, 2026 6:30 AM gemini-2.5-flash lost causality-1. 1 alert
May 25, 2026 1:35 AM gemini-2.5-flash dropped on causality-1. 1 alert
May 24, 2026 8:50 PM gemini-2.5-flash recovering. 1 alert
May 24, 2026 5:26 PM gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
May 24, 2026 12:26 PM gemini-2.5-flash failing causality-1. no drift
May 24, 2026 8:37 AM gemini-2.5-flash lost causality-1. 1 alert
May 24, 2026 5:39 AM All models stable. no drift
May 24, 2026 1:20 AM gemini-2.5-flash recovering. 1 alert
May 23, 2026 8:46 PM gemini-2.5-flash failing causality-1. no drift
May 23, 2026 5:23 PM gpt-5.4-mini lost logic-1; gemini-2.5-flash lost causality-1. gemini-2.5-flash dropped on common-sense-1. 3 alerts
May 23, 2026 12:27 PM gpt-5.4 lost logic-1; gpt-5.4 lost math-1; gpt-5.4 lost spatial-1; gpt-5.4 lost causality-1; gpt-5.4 lost code-1; gpt-5.4 lost ambiguity-1; gpt-5.4 lost common-sense-1; gpt-5.4-mini lost math-1; gpt-5.4-mini lost causality-1; gpt-5.4-mini lost code-1; gpt-5.4-mini lost ambiguity-1; gpt-5.4-mini lost common-sense-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 14 alerts
May 23, 2026 8:36 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
May 23, 2026 5:36 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
May 23, 2026 1:06 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
May 22, 2026 8:42 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash scores rising. 2 alerts
May 22, 2026 5:28 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
May 22, 2026 12:40 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
May 22, 2026 8:51 AM gpt-5.4-mini dropped on math-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, claude-sonnet-4-6, gemini-2.5-flash scores rising. 4 alerts
May 22, 2026 6:09 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 22, 2026 1:27 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 3 alerts
May 21, 2026 8:47 PM gpt-5.4-mini dropped on math-1; gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 4 alerts
May 21, 2026 5:35 PM gpt-5.4-mini dropped on math-1; gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4 scores rising. 4 alerts
May 21, 2026 12:44 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. gpt-5.4 dropped on math-1. 3 alerts
May 21, 2026 9:09 AM gpt-5.4-mini recovering. 1 alert
May 21, 2026 6:12 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
May 21, 2026 1:28 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 20, 2026 8:47 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 20, 2026 5:36 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
May 20, 2026 1:00 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
May 20, 2026 8:58 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 20, 2026 6:09 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
May 20, 2026 1:28 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 19, 2026 8:47 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
May 19, 2026 5:34 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
May 19, 2026 12:50 PM gemini-2.5-flash lost causality-1. 1 alert
May 19, 2026 9:04 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
May 19, 2026 6:12 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash, gemini-2.5-flash scores rising. 2 alerts
May 19, 2026 1:28 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1; gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. 3 alerts
May 18, 2026 8:46 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
May 18, 2026 5:28 PM gpt-5.4-mini lost spatial-1. gpt-5.4 dropped on math-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 3 alerts
May 18, 2026 12:46 PM gemini-2.5-flash failing causality-1. no drift
May 18, 2026 9:16 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
May 18, 2026 6:28 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash recovering. 3 alerts
May 18, 2026 1:31 AM gemini-2.5-flash failing causality-1. no drift
May 17, 2026 8:48 PM gemini-2.5-flash lost causality-1. 1 alert
May 17, 2026 5:24 PM gpt-5.4-mini recovering. 1 alert
May 17, 2026 12:27 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
May 17, 2026 8:36 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
May 17, 2026 5:36 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on math-1. gpt-5.4-mini failing spatial-1. 2 alerts
May 17, 2026 1:09 AM gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 1 alert
May 16, 2026 8:41 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
May 16, 2026 5:22 PM claude-sonnet-4-6 dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
May 16, 2026 12:26 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
May 16, 2026 8:36 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
May 16, 2026 5:33 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
May 16, 2026 1:03 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4 scores rising. 1 alert
May 15, 2026 8:42 PM gpt-5.4 dropped on math-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
May 15, 2026 5:26 PM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
May 15, 2026 12:37 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 15, 2026 8:40 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. claude-sonnet-4-6 recovering. 2 alerts
May 15, 2026 5:54 AM claude-sonnet-4-6 lost common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-pro, gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 4 alerts
May 15, 2026 1:18 AM gemini-2.5-pro lost logic-1. gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
May 14, 2026 8:44 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
May 14, 2026 5:30 PM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
May 14, 2026 12:41 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
May 14, 2026 8:42 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. claude-sonnet-4-6 scores rising. 2 alerts
May 14, 2026 5:54 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 14, 2026 1:11 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 13, 2026 8:46 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. 2 alerts
May 13, 2026 5:33 PM gpt-5.4-mini recovering. 1 alert
May 13, 2026 12:47 PM gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 1 alert
May 13, 2026 8:49 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash scores rising. 3 alerts
May 13, 2026 5:57 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 3 alerts
May 13, 2026 1:13 AM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
May 12, 2026 8:44 PM gemini-2.5-flash scores rising. 1 alert
May 12, 2026 5:33 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
May 12, 2026 12:46 PM gpt-5.4-mini lost spatial-1. gpt-5.4-mini dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
May 12, 2026 8:44 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 12, 2026 5:57 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 12, 2026 1:07 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
May 11, 2026 8:43 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
May 11, 2026 5:29 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 11, 2026 12:43 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
May 11, 2026 8:58 AM gpt-5.4-mini failing spatial-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
May 11, 2026 6:12 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
May 11, 2026 1:21 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. gpt-5.4, gemini-2.5-flash scores rising. 3 alerts
May 10, 2026 8:43 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 10, 2026 5:22 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 10, 2026 12:25 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 10, 2026 8:36 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 10, 2026 5:32 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 10, 2026 1:05 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 9, 2026 8:41 PM gemini-2.5-flash lost causality-1. gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 3 alerts
May 9, 2026 5:21 PM gpt-5.4-mini dropped on math-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
May 9, 2026 12:24 PM gemini-2.5-flash dropped on causality-1; gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
May 9, 2026 8:36 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
May 9, 2026 5:28 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
May 9, 2026 12:58 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 8, 2026 8:42 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 8, 2026 5:26 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
May 8, 2026 12:37 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
May 8, 2026 8:41 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
May 8, 2026 5:39 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
May 8, 2026 12:46 AM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 7, 2026 8:43 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 7, 2026 5:29 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 7, 2026 12:39 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 7, 2026 8:45 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 7, 2026 5:49 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
May 7, 2026 1:06 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 6, 2026 8:43 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 6, 2026 5:23 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
May 6, 2026 12:39 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
May 6, 2026 8:43 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. claude-haiku-4-5 recovering. gemini-2.5-flash scores rising. 3 alerts
May 6, 2026 5:47 AM claude-haiku-4-5 lost common-sense-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
May 6, 2026 1:05 AM gemini-2.5-flash lost causality-1. gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. 2 alerts
May 5, 2026 8:42 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
May 5, 2026 5:26 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 5, 2026 12:40 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash, gemini-2.5-flash scores rising. 2 alerts
May 5, 2026 8:44 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 5, 2026 5:40 AM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
May 5, 2026 12:57 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
May 4, 2026 8:42 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
May 4, 2026 5:27 PM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
May 4, 2026 12:38 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 4, 2026 8:43 AM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
May 4, 2026 5:46 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
May 4, 2026 1:06 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
May 3, 2026 8:43 PM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
May 3, 2026 5:20 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
May 3, 2026 12:22 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
May 3, 2026 8:36 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-pro recovering. 2 alerts
May 3, 2026 5:27 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-haiku-4-5 recovering. gpt-5.4-mini, gemini-2.5-flash scores rising. 3 alerts
May 3, 2026 1:04 AM claude-haiku-4-5 lost common-sense-1; gemini-2.5-pro lost code-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
May 2, 2026 8:41 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
May 2, 2026 5:19 PM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1. gemini-2.5-pro recovering. 3 alerts
May 2, 2026 12:21 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 2 alerts
May 2, 2026 8:36 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-pro recovering. 1 alert
May 2, 2026 5:25 AM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. gemini-2.5-pro recovering. 3 alerts
May 2, 2026 12:51 AM gemini-2.5-pro lost logic-1; gemini-2.5-pro lost causality-1. claude-sonnet-4-6 dropped on common-sense-1. gemini-2.5-flash recovering. 4 alerts
May 1, 2026 8:41 PM gemini-2.5-pro lost code-1; gemini-2.5-flash lost causality-1. gpt-5.4-mini, gemini-2.5-pro recovering. gpt-5.4 scores rising. 5 alerts
May 1, 2026 5:23 PM gemini-2.5-pro lost common-sense-1. gpt-5.4 dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 3 alerts
May 1, 2026 12:28 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gemini-2.5-pro recovering. 2 alerts
May 1, 2026 8:36 AM gemini-2.5-pro lost causality-1. gpt-5.4-mini failing spatial-1. gemini-2.5-pro, gemini-2.5-flash recovering. gpt-5.4-mini scores rising. 4 alerts
May 1, 2026 5:37 AM gemini-2.5-pro lost common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-sonnet-4-6 scores rising. 2 alerts
May 1, 2026 1:07 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Apr 30, 2026 8:43 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Apr 30, 2026 5:25 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Apr 30, 2026 12:37 PM gemini-2.5-flash failing causality-1. no drift
Apr 30, 2026 8:41 AM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
Apr 30, 2026 5:41 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Apr 30, 2026 1:05 AM gemini-2.5-flash lost causality-1. 1 alert
Apr 29, 2026 8:42 PM gpt-5.4 dropped on math-1. gpt-5.4-mini, gemini-2.5-flash recovering. 3 alerts
Apr 29, 2026 5:26 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Apr 29, 2026 12:38 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gpt-5.4 scores rising. 2 alerts
Apr 29, 2026 8:41 AM gpt-5.4 dropped on math-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 3 alerts
Apr 29, 2026 5:42 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Apr 29, 2026 1:04 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Apr 28, 2026 8:43 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Apr 28, 2026 5:26 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Apr 28, 2026 12:39 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gemini-2.5-flash scores rising. 2 alerts
Apr 28, 2026 8:43 AM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
Apr 28, 2026 5:47 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Apr 28, 2026 1:06 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Apr 27, 2026 8:42 PM gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Apr 27, 2026 5:24 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Apr 27, 2026 12:36 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
Apr 27, 2026 8:41 AM gpt-5.4-mini lost spatial-1. 1 alert
Apr 27, 2026 5:46 AM gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Apr 27, 2026 1:05 AM gpt-5.4 dropped on math-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
Apr 26, 2026 8:42 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Apr 26, 2026 5:17 PM gpt-5.4-mini lost spatial-1; gemini-2.5-flash lost causality-1. 2 alerts
Apr 26, 2026 12:20 PM All models stable. no drift
Apr 26, 2026 8:35 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Apr 26, 2026 5:22 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Apr 26, 2026 12:53 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Apr 25, 2026 8:41 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Apr 25, 2026 5:15 PM gpt-5.4-mini lost spatial-1. claude-haiku-4-5, gemini-2.5-flash recovering. 3 alerts
Apr 25, 2026 12:19 PM claude-haiku-4-5 lost common-sense-1; gemini-2.5-flash lost causality-1. 2 alerts
Apr 25, 2026 8:34 AM gemini-2.5-flash recovering. 1 alert
Apr 25, 2026 5:21 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. 2 alerts
Apr 25, 2026 12:40 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Apr 24, 2026 8:41 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gpt-5.4-mini scores rising. 2 alerts
Apr 24, 2026 5:21 PM gpt-5.4-mini failing spatial-1. no drift
Apr 24, 2026 12:26 PM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Apr 24, 2026 8:39 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Apr 24, 2026 5:39 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Apr 24, 2026 12:52 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Apr 23, 2026 8:42 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-haiku-4-5 scores rising. 1 alert
Apr 23, 2026 5:21 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Apr 23, 2026 12:37 PM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Apr 23, 2026 8:40 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Apr 23, 2026 5:38 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Apr 23, 2026 12:50 AM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 2 alerts
Apr 22, 2026 8:41 PM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
Apr 22, 2026 5:22 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Apr 22, 2026 12:27 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. no drift
Apr 22, 2026 8:39 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Apr 22, 2026 5:37 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Apr 22, 2026 12:48 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Apr 21, 2026 8:42 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash scores rising. 3 alerts
Apr 21, 2026 5:20 PM gpt-5.4-mini, gemini-2.5-flash recovering. gemini-2.5-flash scores rising. 3 alerts
Apr 21, 2026 12:28 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. claude-sonnet-4-6, claude-haiku-4-5 recovering. gpt-5.4 scores rising. 3 alerts
Apr 21, 2026 8:40 AM claude-sonnet-4-6 lost common-sense-1; claude-haiku-4-5 lost common-sense-1; gemini-2.5-flash lost causality-1. gpt-5.4 dropped on math-1. gpt-5.4-mini failing spatial-1. 4 alerts
Apr 21, 2026 5:37 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Apr 21, 2026 12:48 AM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Apr 20, 2026 8:41 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. 2 alerts
Apr 20, 2026 5:22 PM gpt-5.4-mini failing spatial-1. no drift
Apr 20, 2026 12:29 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash recovering. 3 alerts
Apr 20, 2026 8:41 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini, claude-haiku-4-5 recovering. 3 alerts
Apr 20, 2026 5:41 AM gpt-5.4-mini lost spatial-1; claude-haiku-4-5 lost common-sense-1. gemini-2.5-flash recovering. 3 alerts
Apr 20, 2026 12:57 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. 2 alerts
Apr 19, 2026 8:42 PM gpt-5.4-mini, claude-opus-4-6 recovering. gemini-2.5-flash scores rising. 3 alerts
Apr 19, 2026 5:15 PM claude-opus-4-6 lost common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 2 alerts
Apr 19, 2026 12:17 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Apr 19, 2026 8:31 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash scores rising. 3 alerts
Apr 19, 2026 5:20 AM gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 1 alert
Apr 19, 2026 12:46 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Apr 18, 2026 8:41 PM gpt-5.4-mini dropped on spatial-1. gemini-2.5-flash failing causality-1. 1 alert
Apr 18, 2026 5:14 PM gemini-2.5-flash lost causality-1. 1 alert
Apr 18, 2026 12:17 PM gemini-2.5-flash scores rising. 1 alert
Apr 18, 2026 8:32 AM gpt-5.4-mini, gemini-2.5-flash recovering. 2 alerts
Apr 18, 2026 5:20 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. 2 alerts
Apr 18, 2026 12:37 AM gemini-2.5-flash lost causality-1. gpt-5.4 scores rising. 2 alerts
Apr 17, 2026 8:41 PM gemini-2.5-flash recovering. 1 alert
Apr 17, 2026 5:19 PM gemini-2.5-flash failing causality-1. claude-sonnet-4-6 scores rising. 1 alert
Apr 17, 2026 12:23 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. 1 alert
Apr 17, 2026 8:38 AM gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 2 alerts
Apr 17, 2026 5:33 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 1 alert
Apr 17, 2026 12:48 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 1 alert
Apr 16, 2026 8:41 PM gpt-5.4-mini dropped on math-1; gpt-5.4-mini dropped on spatial-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 3 alerts
Apr 16, 2026 5:20 PM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-pro recovering. gemini-2.5-flash scores rising. 2 alerts
Apr 16, 2026 12:36 PM gpt-5.4-mini lost spatial-1; gemini-2.5-pro lost common-sense-1; gemini-2.5-flash lost causality-1. 3 alerts
Apr 16, 2026 8:41 AM gpt-5.4-mini recovering. 1 alert
Apr 16, 2026 5:36 AM gpt-5.4-mini lost spatial-1. gemini-2.5-flash recovering. 2 alerts
Apr 16, 2026 12:49 AM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini scores rising. 2 alerts
Apr 15, 2026 8:41 PM gemini-2.5-flash failing causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 2 alerts
Apr 15, 2026 5:20 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash scores rising. 2 alerts
Apr 15, 2026 12:30 PM gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-pro recovering. gpt-5.4-mini, gpt-5.4-mini scores rising. 4 alerts
Apr 15, 2026 8:39 AM gemini-2.5-pro lost common-sense-1. gpt-5.4-mini dropped on math-1; gemini-2.5-flash dropped on causality-1. gpt-5.4-mini failing spatial-1. 3 alerts
Apr 15, 2026 5:34 AM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash, gemini-2.5-flash scores rising. 3 alerts
Apr 15, 2026 12:47 AM gpt-5.4-mini lost spatial-1. gemini-2.5-pro, gemini-2.5-pro, gemini-2.5-pro, gemini-2.5-flash recovering. 5 alerts
Apr 14, 2026 8:41 PM gemini-2.5-pro lost causality-1; gemini-2.5-pro lost ambiguity-1; gemini-2.5-pro lost common-sense-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini, claude-haiku-4-5 recovering. 5 alerts
Apr 14, 2026 5:22 PM claude-haiku-4-5 lost common-sense-1; gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 2 alerts
Apr 14, 2026 12:32 PM gpt-5.4-mini failing spatial-1. gemini-2.5-pro, gemini-2.5-pro recovering. 2 alerts
Apr 14, 2026 8:40 AM gemini-2.5-pro lost code-1; gemini-2.5-pro lost common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash recovering. 5 alerts
Apr 14, 2026 5:36 AM gpt-5.4-mini lost spatial-1; gemini-2.5-pro lost math-1; gemini-2.5-flash lost causality-1; gemini-2.5-flash lost common-sense-1. 4 alerts
Apr 14, 2026 12:46 AM gpt-5.4-mini recovering. 1 alert
Apr 13, 2026 8:41 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. gemini-2.5-flash scores rising. 3 alerts
Apr 13, 2026 5:22 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1; gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. 3 alerts
Apr 13, 2026 12:30 PM gpt-5.4-mini dropped on spatial-1. gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 2 alerts
Apr 13, 2026 8:39 AM gemini-2.5-flash dropped on causality-1. gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-pro, gemini-2.5-pro recovering. 4 alerts
Apr 13, 2026 5:40 AM gemini-2.5-pro lost spatial-1; gemini-2.5-pro lost common-sense-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 4 alerts
Apr 13, 2026 12:57 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1. gemini-2.5-pro recovering. 3 alerts
Apr 12, 2026 8:42 PM gemini-2.5-pro lost causality-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash scores rising. 2 alerts
Apr 12, 2026 5:14 PM gpt-5.4-mini failing spatial-1. gemini-2.5-pro, gemini-2.5-pro, gemini-2.5-flash recovering. 3 alerts
Apr 12, 2026 12:16 PM gemini-2.5-pro lost math-1; gemini-2.5-pro lost causality-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gemini-2.5-flash scores rising. 3 alerts
Apr 12, 2026 8:31 AM gemini-2.5-flash lost causality-1. gpt-5.4-mini failing spatial-1. 1 alert
Apr 12, 2026 5:20 AM gpt-5.4-mini dropped on math-1; gemini-2.5-flash dropped on common-sense-1. gpt-5.4-mini failing spatial-1. gemini-2.5-flash recovering. 3 alerts
Apr 12, 2026 12:43 AM gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. gpt-5.4-mini, gemini-2.5-flash scores rising. 2 alerts
Apr 11, 2026 8:40 PM gpt-5.4-mini dropped on spatial-1. gpt-5.4-mini failing spatial-1; gemini-2.5-flash failing causality-1. 1 alert
Apr 11, 2026 5:12 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on causality-1; gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash failing causality-1. 3 alerts
Apr 11, 2026 12:15 PM gemini-2.5-flash lost causality-1. gpt-5.4-mini recovering. gemini-2.5-flash scores rising. 3 alerts
Apr 11, 2026 12:11 PM gpt-5.4-mini lost spatial-1. gemini-2.5-flash dropped on common-sense-1. gemini-2.5-flash recovering. 3 alerts

For Agents

llms.txt — plain text index of all runs
Agent Skill — how to read and interpret this data