ASR Model Comparison | Trelis Research

Open Weights Weights available for download

Proprietary API-only access

API-Optimized Optimized variant, API-only

Yes Supported

Pending Coming soon

No Not supported

Model Comparison

Model	Provider	Access	License	Params	FLEURS WER (multilingual avg)	API Price/min	Key Features
Voxtral Family (Mistral AI)
Voxtral Mini Transcribe V2	Mistral AI	API-Optimized	Proprietary	~3B	~4.0%	$0.003	Diarization, word timestamps, context biasing, 13 languages, 3hr audio
Voxtral Realtime	Mistral AI	Open Weights	Apache 2.0	4B	~4.0%	$0.006	Streaming, sub-200ms latency, 13 languages, edge-deployable
Voxtral Small (24B)	Mistral AI	Open Weights	Apache 2.0	24B	~4.9%	$0.003	Audio understanding, Q&A, summarization, function calling, 32k context
Voxtral Mini Transcribe	Mistral AI	API-Optimized	Proprietary	~3B	~5.3%	$0.001	Cheapest option, transcription-optimized
Voxtral Mini (3B)	Mistral AI	Open Weights	Apache 2.0	3B	~6.9%	$0.001	Audio understanding, Q&A, summarization, edge-friendly, 32k context
Whisper Family (OpenAI)
Whisper large-v3	OpenAI	Open Weights	MIT	1.5B	~8.3%	Self-hosted	Word timestamps, 99 languages, mature ecosystem, whisper.cpp, faster-whisper
Whisper large-v3-turbo	OpenAI	Open Weights	MIT	809M	~8.5%	Self-hosted	2x faster than v3, word timestamps, 99 languages, great for fine-tuning
Proprietary APIs
GPT-4o mini Transcribe	OpenAI	Proprietary	Proprietary	N/A	~5.7%	$0.003	OpenAI API, easy integration
Gemini 2.5 Flash	Google	Proprietary	Proprietary	N/A	~7.0%	~$0.003	Multimodal, long context, audio understanding
ElevenLabs Scribe v2	ElevenLabs	Proprietary	Proprietary	N/A	~4.9%	$0.010	Diarization, word timestamps, 99 languages
Deepgram Nova	Deepgram	Proprietary	Proprietary	N/A	N/A	~$0.008	Diarization, streaming, custom vocabulary
AssemblyAI Universal	AssemblyAI	Proprietary	Proprietary	N/A	N/A	~$0.002	Diarization, sentiment, topic detection
Qwen Family (Alibaba)
Qwen3-ASR-1.7B	Alibaba / Qwen	Open Weights	Apache 2.0	1.7B	N/A	Self-hosted	52 languages/dialects, language detection, singing/music recognition, streaming
Qwen3-ASR-0.6B	Alibaba / Qwen	Open Weights	Apache 2.0	0.6B	N/A	Self-hosted	Lightweight variant, 52 languages/dialects, edge-deployable
Other Open Models
Kyutai STT (1B / 2.6B)	Kyutai	Open Weights	CC-BY 4.0	1B / 2.6B	N/A	Self-hosted	Streaming, word timestamps, voice prompting, Rust server

Fine-Tuning Support

Model	Transformers (Inference)	Transformers (Fine-tuning)	Unsloth	PEFT / LoRA	Trainer Type	Trelis Studio	ADVANCED-audio	Notes
Whisper large-v3 / Turbo	Yes	Yes	Yes	Yes	Seq2SeqTrainer	Yes	Yes	Most mature fine-tuning ecosystem. Unsloth gives ~30% VRAM savings. Target modules: q_proj, v_proj, k_proj, out_proj, fc1, fc2
Voxtral Mini (3B)	Yes	Yes	Pending	Yes	Trainer (causal LM)	Yes	Yes	Requires custom data collator with apply_transcription_request. Target modules: q/k/v/o_proj + gate/up/down_proj. Audio tower frozen.
Voxtral Small (24B)	Yes	Yes	Pending	Yes	Trainer (causal LM)	No	Yes	Same approach as Mini but requires more VRAM. Multi-GPU recommended.
Voxtral Realtime (4B)	Yes	No	No	No	N/A	Pending	Pending	Transformers supports inference only, not fine-tuning yet. Streaming architecture.
Qwen3-ASR-1.7B	Yes	Yes	No	No	Trainer (custom)	Yes	Yes	Uses qwen-asr package (not standard AutoModel). Full SFT with CastFloatInputsTrainer, audio tower frozen. WAV+JSONL data format.
Qwen3-ASR-0.6B	Yes	Yes	No	No	Trainer (custom)	Yes	Yes	Same approach as 1.7B. Lighter model, suitable for edge deployment.
Kyutai STT	Yes	No	No	No	Custom (Trelis)	No	Yes	Custom fine-tuning script by Trelis (not standard transformers/Unsloth). Candle conversion needed for Rust server deployment.

Notes

FLEURS WER values are macro-averages across top languages (English, French, German, Spanish, Italian, Portuguese, Dutch, Hindi, Arabic). Lower is better. Source: Mistral AI blog posts (Jul 2025, Feb 2026).
Whisper FLEURS WER (~8.3%) is as reported by Mistral. Whisper excels on English-only benchmarks (LibriSpeech clean WER ~2%) but the multilingual FLEURS average is higher.
API prices are per minute of audio, based on official API documentation as of Feb 2026.
Unsloth "Pending" for Voxtral means support is tracked at github.com/unslothai/unsloth/issues/3013.
Self-hosted models have no API cost but require your own GPU infrastructure (e.g., Modal, RunPod, on-premise).
Voxtral Mini Transcribe variants are transcription-optimized versions of Voxtral Mini, available only via Mistral's API (not downloadable).
Voxtral Realtime is a streaming model released Feb 2026 under Apache 2.0, purpose-built for low-latency applications. Transformers supports inference only; fine-tuning support is not yet available.
Qwen3-ASR uses the qwen-asr package (not standard transformers AutoModel). Fine-tuning uses full SFT with a custom Trainer subclass. The audio tower is frozen for small-dataset training. See qwen3-asr/modal-training/ in the ADVANCED-audio repo.
Kyutai STT fine-tuning uses a custom training script by Trelis (not standard transformers/Unsloth). See kyutai/ in the ADVANCED-audio repo.
Trelis Studio provides a managed fine-tuning platform with no-code setup for supported models.
ADVANCED-audio is a paid repo from Trelis Research with fine-tuning and serving scripts.

Trelis Fine-Tuning Results (Trelis/llm-lingo, 6 validation samples)

Voxtral Mini 3B: Baseline 30.6% WER → Fine-tuned 14.6% WER (16.0pp improvement). Config: LoRA rank=32, RSLoRA, 3 epochs, lr=5e-5.
Whisper large-v3-turbo: Baseline 37.0% WER → Fine-tuned 15.1% WER (21.9pp improvement). Config: LoRA rank=32, RSLoRA, 2 epochs, lr=1e-4.
Qwen3-ASR-1.7B: Baseline 28.8% WER → Fine-tuned 20.5% WER (8.2pp improvement). Config: Full SFT (audio tower frozen), 3 epochs, lr=1e-5.
All trained on Modal H100 GPUs. Scripts available in the ADVANCED-audio repo under voxtral/modal-training/, whisper/modal-training/, and qwen3-asr/modal-training/.