TokenSurf

Welcome back

Sign up for 1,000 free credits. No credit card required.

Get started with TokenSurf

Complete these steps to start saving on LLM costs.

Add a provider key — OpenAI, Anthropic, Google, or OpenRouter

Add key

Make your first request — swap your base URL and send a query

See code

Check your savings — see how much you're saving on the Usage page

View

Credits Remaining

0

$0.001 per request

Total Savings

$0.00

This month

Requests

0

0% auto-routed

Cost Saved

$0.00

vs $0.00 direct

Provider Status

OA

OpenAI

Not set

AN

Anthropic

Not set

GG

Google

Not set

OR

OpenRouter

Not set

Recent Activity

No requests yet. Make your first API call to see activity here.

Total Requests

0

This month

Downgraded

0

0% of requests

Original Cost

$0.00

Without routing

Actual Cost

$0.00

$0.00 saved

Cost Breakdown

Routing intelligence saves you money by sending simple queries to cheaper models.

Metric	Value
Total Requests	0
Prompt Tokens	0
Completion Tokens	0
Original Cost	$0.0000
Actual Cost	$0.0000
Total Savings	$0.0000
Auto-Routed Requests	0
Downgrade Rate	0%

Request Logs

Recent API requests with routing decisions. Logs are available via response headers on each request.

No logs yet

Make your first API request to see logs here. Each response includes X-TokenSurf-Model and X-TokenSurf-Downgraded headers.

Response Headers Reference

Every proxy response includes these headers for debugging:

Header	Description	Example
X-TokenSurf-Model	Final model used	gpt-4o-mini
X-TokenSurf-Downgraded	Was the request routed to a cheaper model?	true
X-TokenSurf-Complexity	Classified complexity level	simple

1. Your API Key

Use this as your api_key in the OpenAI SDK.

ts_...

Current key: ts_...

2. Base URL

Point your OpenAI SDK to this base URL:

https://api.tokensurf.io/v1

3. Add a Provider Key

Go to Providers and add at least one API key (OpenAI, Anthropic, Google, or OpenRouter).

4. Drop-in Replacement

Replace your base URL. That's it. Same SDK, same code, lower costs.

Python Node.js cURL

from openai import OpenAI client = OpenAI( api_key="ts_...", base_url="https://api.tokensurf.io/v1" ) response = client.chat.completions.create( model="gpt-4o", # will auto-route simple queries to gpt-4o-mini messages=[{"role": "user", "content": "Hello!"}] ) print(response.choices[0].message.content)

import OpenAI from "openai"; const client = new OpenAI({ apiKey: "ts_...", baseURL: "https://api.tokensurf.io/v1" }); const res = await client.chat.completions.create({ model: "gpt-4o", messages: [{ role: "user", content: "Hello!" }] }); console.log(res.choices[0].message.content);

curl https://api.tokensurf.io/v1/chat/completions \ -H "Authorization: Bearer ts_..." \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-4o", "messages": [{"role": "user", "content": "Hello!"}] }'

5. Check Response Headers

# Check response headers print(response.headers["X-TokenSurf-Model"]) # gpt-4o-mini print(response.headers["X-TokenSurf-Downgraded"]) # true print(response.headers["X-TokenSurf-Complexity"]) # simple

Connect at least one provider to start routing requests.

Provider API Keys

Add your provider keys. They're encrypted with AES-256-GCM at rest. TokenSurf never stores plaintext keys.

OA

OpenAI

Not set

AN

Anthropic

Not set

GG

Google Gemini

Not set

OR

OpenRouter

Not set

How Routing Works

TokenSurf analyzes each request's complexity and routes it to the cheapest compatible model:

If you request	Simple queries route to	You save
gpt-4o	gpt-4o-mini	~90%
claude-sonnet-4-6	claude-haiku-4-5	~85%
gemini-2.5-pro	gemini-2.0-flash	~80%
gpt-4-turbo	gpt-4o-mini	~95%

All OpenAI Anthropic Google OpenRouter

Model	Provider	Input $/1M	Output $/1M	Downgrades to

Credit Balance

0

1 credit = 1 request

Total Saved

$0.00

Lifetime savings

Top Up Credits

Pay as you go. Credits never expire. Powered by Stripe.

$5

5,000 credits

$0.001 / request

$25

25,000 credits

$0.001 / request

$100

100,000 credits

$0.001 / request

Pricing

Simple, transparent pricing. You only pay for API requests, not for tokens.

Item	Price	Notes
API Request	1 credit	Regardless of tokens or model
Credit Cost	$0.001	$1 = 1,000 requests
Free Tier	1,000 credits	On signup, no card required
Provider Costs	Your keys	You pay providers directly via your own keys

Loading routing configuration...

Routing Engine

Control exactly how TokenSurf routes your requests. Changes take effect immediately. View model catalog

Smart Routing

Master switch. When off, requests always use the exact model you specify — no downgrades, no cost savings.

AI Classifier (Gemini)

Uses Gemini Flash Lite to classify ambiguous queries. Adds ~50ms latency but improves routing accuracy. Requires a Google provider key.

Ambiguous Query Fallback

When the rule-based classifier can't decide and AI classifier is off — what should happen?

Provider Routing

Enable or disable routing to each provider without removing your API keys. Disabled providers will reject requests for their models.

OpenAI

gpt-4o, gpt-4o-mini, gpt-4-turbo, gpt-3.5-turbo

Anthropic

claude-opus, claude-sonnet, claude-haiku families

Google Gemini

gemini-2.5-pro, gemini-2.5-flash, gemini-3.x previews

OpenRouter

Llama, DeepSeek, Mistral, Qwen, Cohere, and 300+ models

Model Downgrade Rules

Fine-tune which models get downgraded and where they route to. Only models with a default downgrade target are shown.

Model	Downgrade	Routes to	Savings

How Classification Works

Understanding the routing pipeline helps you tune it for your workload.

// 1. Rule-based classifier runs first (0ms) if (hasTools || hasResponseFormat) → "complex" // never downgrade if (matchesComplexPattern(lastMessage)) → "complex" // code, analyze, etc. if (messages >= 6 || tokens >= 500) → "complex" // long context if (tokens <= 50 && messages <= 2) → "simple" // short question if (matchesSimplePattern(lastMessage)) → "simple" // "what is", "define" else → "ambiguous" // needs AI or fallback // 2. If ambiguous + AI classifier enabled → Gemini classifies (~50ms) // 3. If ambiguous + AI disabled → uses your fallback setting // 4. If simple + model has downgrade target → route to cheaper model // 5. Your per-model overrides apply last

Signal	Classified as	What triggers it
Tools / function calling	Complex	Any request with `tools` parameter
Structured output	Complex	Any request with `response_format`
Code patterns	Complex	"analyze", "implement", "refactor", code blocks
Long conversation	Complex	6+ messages in the conversation
Long message	Complex	500+ estimated tokens in last user message
Factual question	Simple	"What is", "Define", "Translate", "Calculate"
Very short query	Simple	Under 50 tokens, 1-2 messages
Everything else	Ambiguous	Handled by AI classifier or your fallback

Actions

Model Quality Scores

Auto-sampled

5% of API responses are automatically scored for quality using Gemini Flash-Lite. Scores help you verify that downgraded models still meet your quality bar.

Quality scores will appear after your first requests are sampled.

Score Scale

Score	Rating	Meaning
9-10	Excellent	Comprehensive, accurate, well-structured response
7-8	Good	Mostly correct with minor issues
4-6	Fair	Partially correct or vague
1-3	Poor	Incorrect, irrelevant, or harmful

How It Works

For each sampled response, TokenSurf sends the original prompt and the model's response to Gemini Flash-Lite, which scores it on accuracy, completeness, relevance, and helpfulness. Downgraded responses are tracked separately so you can compare quality between your original and routed models.

System Health

Error Rate

0%

Proxy p95

—

Cache Hit

—

Redis

—

Provider Health

Circuit breaker status per provider. When a provider has repeated failures, the circuit opens and requests fail fast or route to fallback providers.

Response Headers

Every proxy response includes these headers for debugging and observability:

Header	Description	Example
X-TokenSurf-Model	Final model used	gpt-4o-mini
X-TokenSurf-Downgraded	Was the request routed to a cheaper model?	true
X-TokenSurf-Complexity	Classified complexity level	simple
X-TokenSurf-Request-Id	Unique request ID for tracing	a1b2c3d4...
X-TokenSurf-Region	Region that served the request	us-central1
X-TokenSurf-Fallback	Was a fallback provider used?	true

Account

Email

...

User ID

...

API Key Prefix

ts_...

Routing

Full routing controls are in the Routing Engine page.

Danger Zone

Regenerate API Key

Your old key will stop working immediately

Delete Account

Permanently delete your account, API keys, usage data, and provider keys. This cannot be undone.