COMPETITIVE · USA

OpenAI ships a Cerebras-backed fast Codex model

Ars Technica 12 Feb · 7:44 PM

Change

OpenAI released GPT-5.3-Codex-Spark as its first production model deployed on non-Nvidia hardware, running on Cerebras chips and delivering over 1,000 tokens per second.

Why it matters

This gives OpenAI a second inference supply path beyond Nvidia GPUs, reducing single-vendor dependency for serving coding workloads. The speed jump materially changes latency and throughput assumptions for interactive coding agents, enabling higher request volumes per deployed capacity and faster iteration loops for developer tools. Competitors’ “fast mode” offerings now face a new performance reference point for coding-focused inference, pressuring pricing and infrastructure choices for low-latency code generation.

Source

Read full article on Ars Technica →

Topics

Technology & Innovation Artificial Intelligence Cloud & Data Semiconductors

OwlBrief

OpenAI ships a Cerebras-backed fast Codex model

Be prepared — without the noise

Essential cookies

Analytics cookies