§01·model · /models

Qwen3-8B

llmactiveApache-2.0

8B LLM by Alibaba (Qwen3) with hybrid thinking / non-thinking modes. Apache-2.0.

Download· 4 variants

§02·GPUs that run this model

20 total

GPU	VRAM	Series	Best speed	Min VRAM	Works	Benchmarks	Recipe
RTX 5090	32GB	50	200.4tokens/s		✓	3	recipe	check ↗
RTX 5080	16GB	50	129.1tokens/s	16GB	✓	2	recipe	check ↗
RTX 3090 Ti	24GB	30	123.7tokens/s	24GB	✓	2	recipe	check ↗
RTX 5070 Ti	16GB	50	120.5tokens/s	16GB	✓	2	recipe	check ↗
RTX 3090	24GB	30	115.3tokens/s	24GB	✓	2	recipe	check ↗
RTX 3080 Ti	12GB	30	115.2tokens/s		✓	2	recipe	check ↗
RTX 4080 Super	16GB	40	104.2tokens/s	16GB	✓	2	recipe	check ↗
RTX 4080	16GB	40	102.7tokens/s	16GB	✓	2	recipe	check ↗
RTX 4070 Ti Super	16GB	40	96.3tokens/s	16GB	✓	2	recipe	check ↗
RTX 5070	12GB	50	85.8tokens/s	12GB	✓	2	recipe	check ↗
RTX 4070 Ti	12GB	40	75.8tokens/s	12GB	✓	2	recipe	check ↗
RTX 4070 Super	12GB	40	75.4tokens/s	12GB	✓	2	recipe	check ↗
RTX 5060 Ti	16GB	50	69.2tokens/s	16GB	✓	2	recipe	check ↗
RTX 3060	12GB	30	55.2tokens/s		✓	2	recipe	check ↗
RTX 4060 Ti 16GB	16GB	40	45.8tokens/s	16GB	✓	1	recipe	check ↗
Apple M2 Pro	16GB	apple			~	0	recipe	check ↗
RTX 4070	12GB	40			~	0	recipe	check ↗
RTX 4090	24GB	40			~	0	recipe	check ↗
RX 7800 XT	16GB	amd			~	0	recipe	check ↗
RX 7900 XTX	24GB	amd			~	0	recipe	check ↗

✓ benchmarked·~ runs via recipe (not benchmarked)·— untested·✕doesn't fit