§01·model · /models

Qwen3 14B

llmactiveApache-2.0

14B LLM by Alibaba (Qwen3) with hybrid thinking / non-thinking modes. Apache-2.0.

Download· 4 variants

§02·GPUs that run this model

20 total

GPU	VRAM	Series	Best speed	Min VRAM	Works	Benchmarks	Recipe
RTX 5090	32GB	50	123.8tokens/s		✓	3	recipe	check ↗
RTX 5080	16GB	50	80.6tokens/s	16GB	✓	2	recipe	check ↗
RTX 3090 Ti	24GB	30	76.2tokens/s	24GB	✓	2	recipe	check ↗
RTX 5070 Ti	16GB	50	74.3tokens/s	16GB	✓	2	recipe	check ↗
RTX 3090	24GB	30	70tokens/s	24GB	✓	2	recipe	check ↗
RTX 3080 Ti	12GB	30	69.9tokens/s		✓	2	recipe	check ↗
RTX 4080 Super	16GB	40	64.2tokens/s	16GB	✓	2	recipe	check ↗
RTX 4080	16GB	40	62tokens/s	16GB	✓	2	recipe	check ↗
RTX 4070 Ti Super	16GB	40	58.1tokens/s	16GB	✓	2	recipe	check ↗
RTX 5070	12GB	50	54.2tokens/s	12GB	✓	2	recipe	check ↗
RTX 4070 Ti	12GB	40	45.8tokens/s	12GB	✓	2	recipe	check ↗
RTX 4070 Super	12GB	40	45.5tokens/s	12GB	✓	2	recipe	check ↗
RTX 5060 Ti	16GB	50	41.1tokens/s	16GB	✓	2	recipe	check ↗
RTX 3060	12GB	30	31.2tokens/s		✓	2	recipe	check ↗
RTX 4060 Ti 16GB	16GB	40	27.4tokens/s	16GB	✓	2	recipe	check ↗
Apple M2 Pro	16GB	apple			~	0	recipe	check ↗
RTX 4070	12GB	40			~	0	recipe	check ↗
RTX 4090	24GB	40			~	0	recipe	check ↗
RX 7800 XT	16GB	amd			~	0	recipe	check ↗
RX 7900 XTX	24GB	amd			~	0	recipe	check ↗

✓ benchmarked·~ runs via recipe (not benchmarked)·— untested·✕doesn't fit