§01·index · /recipes

Recipes

716 community-tested setups for running open-weights AI models on real consumer GPUs.page 2 of 8

llmintermediate19GB+
Qwen3-32B on Apple M2 Max: 32B local chat with MLX 4-bit in 64 GB unified memory
llmintermediate40GB+
Llama 3.3 70B on Apple M2 Max: 70B-class chat in 64 GB unified memory with MLX
videoadvanced16GB+
Sulphur 2 on RX 7800 XT: Uncensored LTX-2.3 Video on ROCm via ComfyUI GGUF
3dadvanced12GB+
Waypoint 1.5 on RX 7800 XT: Real-Time Interactive World Model on ROCm (BF16)
3dadvanced16GB+
TRELLIS image-large on RX 7800 XT: The First AMD ROCm Image-to-3D Mesh Path
3dadvanced10GB+
Hunyuan3D-2.1 on RX 7800 XT: Image-to-Mesh on ROCm (Shape-Only)
videoadvanced16GB+
LightX2V 4-Step on RX 7800 XT: Distilled Wan2.1-T2V-14B in ComfyUI on ROCm via GGUF + 4-Step LoRA
videoadvanced8GB+
Wan 2.2 TI2V-5B on RX 7800 XT: 720p Text/Image-to-Video in ComfyUI on ROCm
videoadvanced16GB+
LTX-2.3 on RX 7800 XT: 22B Audio-Video at the 16 GB ROCm Floor via GGUF + CPU-Offloaded Gemma
specializedintermediate3GB+
KiMoDo on RX 7800 XT: Text-to-3D-Motion Generation on ROCm
specializedbeginner4GB+
SAM 3 on RX 7800 XT: Promptable Image and Video Segmentation on ROCm
multimodalintermediate4GB+
MiniMind-O on RX 7800 XT: 0.1B Omni Model on ROCm (BF16)
multimodalbeginner6GB+
Gemma 4 E4B on RX 7800 XT: Multimodal Inference via ROCm (Ollama or llama.cpp-HIP GGUF, with Q8_0)
ttsintermediate12GB+
ACE-Step 1.5 XL on RX 7800 XT: Text-to-Music Generation on ROCm
ttsintermediate11GB+
MOSS-Audio 4B-Instruct on RX 7800 XT: local audio understanding on ROCm (BF16)
ttsintermediate8GB+
Foundation-1 on RX 7800 XT: Structured Music Sample Generation on ROCm
ttsintermediate4GB+
OmniVoice on RX 7800 XT: Zero-Shot Voice Cloning Across 646 Languages on ROCm (BF16)
ttsintermediate10GB+
Voxtral Mini 3B on RX 7800 XT: local speech understanding on ROCm (~9.5 GB)
ttsbeginner8GB+
VoxCPM2 on RX 7800 XT: 30-Language 48kHz Voice Cloning on ROCm (BF16)
ttsintermediate8GB+
Qwen3-TTS 1.7B-Base on RX 7800 XT: Multilingual Voice Cloning in 10 Languages on ROCm
ttsintermediate5GB+
OpenAudio S1 Mini on RX 7800 XT: 13-Language Distilled TTS on ROCm (BF16)
ttsbeginner5GB+
VoxCPM-0.5B on RX 7800 XT: Zero-Shot Voice Cloning TTS on ROCm (BF16)
ttsbeginner1GB+
Kokoro TTS on RX 7800 XT: 82M Voice Synthesis on ROCm (BF16)
imageintermediate9GB+
ERNIE-Image-Turbo on RX 7800 XT: 8-step text-to-image via ComfyUI on ROCm (GGUF Q8_0)
imageintermediate13GB+
LongCat-Image (base T2I) on RX 7800 XT: Bilingual 6B Text-to-Image at 16 GB via ComfyUI-GGUF on ROCm
imageintermediate14GB+
HiDream-O1-Image on RX 7800 XT: 2048×2048 Text-to-Image in ComfyUI on ROCm (16 GB, Encoder-Offload)
imageintermediate10GB+
Chroma1-Base (V48) on RX 7800 XT: Uncensored 8.9B FLUX.1-Schnell De-Distillation via Q8_0 GGUF in ComfyUI on ROCm
imageintermediate14GB+
Qwen-Image on RX 7800 XT: 20B Text-to-Image via ComfyUI GGUF on ROCm (16 GB)
imageintermediate13GB+
Flux.2 Klein 4B on RX 7800 XT: ComfyUI on ROCm, BF16 4-Step Text-to-Image (16 GB)
imageintermediate6GB+
Anima 2B on RX 7800 XT: ComfyUI on ROCm (BF16/FP16)
imageintermediate13GB+
Juggernaut Z on RX 7800 XT: Cinematic Photoreal Z-Image Base Fine-Tune at BF16 via ComfyUI on ROCm
imageintermediate13GB+
Z-Image Turbo on RX 7800 XT: BF16 8-Step Text-to-Image via ComfyUI on ROCm
imageintermediate8GB+
Stable Diffusion XL on RX 7800 XT: ComfyUI on ROCm (BF16/FP16)
llmbeginner13GB+
gpt-oss 20B on RX 7800 XT: MXFP4 chat in 16 GB via Ollama or llama.cpp-HIP
llmbeginner9GB+
Qwen3-14B on RX 7800 XT: ROCm via Ollama or llama.cpp-HIP
llmbeginner6GB+
Llama 3.1 8B on Radeon RX 7800 XT: Local Chat via Ollama or llama.cpp HIP (ROCm) GGUF
llmbeginner9GB+
Qwen3-8B on RX 7800 XT: 16 GB ROCm via Ollama or llama.cpp-HIP GGUF
llmbeginner12GB+
Qwen3-14B on RTX 5060 Ti: Q4_K_M GGUF via Ollama or llama.cpp
multimodalbeginner6GB+
Gemma 4 E4B on RTX 5060: Multimodal Inference via Q4_K_M GGUF (llama.cpp or Ollama)
multimodalbeginner6GB+
Gemma 4 E4B on RTX 4080: Multimodal Inference via Q4_K_M GGUF (with optional Q8_0 / BF16)
multimodalbeginner6GB+
Gemma 4 E4B on RTX 4080 SUPER: Multimodal Inference via Q4_K_M GGUF (with optional Q8_0 / BF16)
multimodalbeginner6GB+
Gemma 4 E4B on RTX 4070 Ti SUPER: Multimodal Inference via Q4_K_M GGUF (with optional Q8_0 / BF16)
multimodalbeginner6GB+
Gemma 4 E4B on RTX 4060: Multimodal Inference via Q4_K_M GGUF (llama.cpp or Ollama)
multimodalbeginner6GB+
Gemma 4 E4B on RTX 4060 Ti 8GB: Multimodal Inference via Q4_K_M GGUF (llama.cpp or Ollama)
3dadvanced12GB+
Waypoint 1.5 on RX 7900 XTX: Real-Time Interactive World Model on ROCm (BF16)
3dadvanced21GB+
Hunyuan3D-2.1 on RX 7900 XTX: Textured Image-to-Mesh on ROCm
videoadvanced24GB+
Sulphur 2 on RX 7900 XTX: Uncensored LTX-2.3 Video on ROCm via GGUF + the --disable-pinned-memory Load-Stall Fix
videoadvanced24GB+
LightX2V 4-Step on RX 7900 XTX: Distilled Wan2.1-T2V-14B in ComfyUI on ROCm (BF16 + 4-Step LoRA)
videoadvanced8GB+
Wan 2.2 TI2V-5B on RX 7900 XTX: 720p Text/Image-to-Video in ComfyUI on ROCm
videoadvanced24GB+
LTX-2.3 on RX 7900 XTX: 22B Audio-Video on ROCm via GGUF + the --disable-pinned-memory Load-Stall Fix
specializedintermediate3GB+
KiMoDo on RX 7900 XTX: Text-to-3D-Motion Generation on ROCm
specializedbeginner4GB+
SAM 3 on RX 7900 XTX: Promptable Image and Video Segmentation on ROCm
multimodalintermediate4GB+
MiniMind-O on RX 7900 XTX: 0.1B Omni Model on ROCm (BF16)
multimodalbeginner6GB+
Gemma 4 E4B on RX 7900 XTX: Multimodal Inference via ROCm (Ollama or llama.cpp-HIP GGUF, with BF16)
ttsintermediate12GB+
ACE-Step 1.5 XL on RX 7900 XTX: Text-to-Music Generation on ROCm
ttsintermediate11GB+
MOSS-Audio 4B-Instruct on RX 7900 XTX: local audio understanding on ROCm (BF16)
ttsintermediate8GB+
Foundation-1 on RX 7900 XTX: Structured Music Sample Generation on ROCm
ttsintermediate4GB+
OmniVoice on RX 7900 XTX: Zero-Shot Voice Cloning Across 646 Languages on ROCm (BF16)
ttsintermediate10GB+
Voxtral Mini 3B on RX 7900 XTX: local speech understanding on ROCm (~9.5 GB)
ttsbeginner8GB+
VoxCPM2 on RX 7900 XTX: 30-Language 48kHz Voice Cloning on ROCm (BF16)
ttsintermediate8GB+
Qwen3-TTS 1.7B-Base on RX 7900 XTX: Multilingual Voice Cloning in 10 Languages on ROCm
ttsintermediate5GB+
OpenAudio S1 Mini on RX 7900 XTX: 13-Language Distilled TTS on ROCm (BF16)
ttsbeginner5GB+
VoxCPM-0.5B on RX 7900 XTX: Zero-Shot Voice Cloning TTS on ROCm (BF16)
ttsbeginner1GB+
Kokoro TTS on RX 7900 XTX: 82M Voice Synthesis on ROCm (BF16)
imageintermediate16GB+
Z-Image Turbo on RX 7900 XTX: BF16 8-Step Text-to-Image via ComfyUI on ROCm
imageintermediate16GB+
ERNIE-Image-Turbo on RX 7900 XTX: 8-step text-to-image via ComfyUI on ROCm
imageintermediate18GB+
LongCat-Image (base T2I) on RX 7900 XTX: Bilingual 6B Text-to-Image at full BF16 via ComfyUI on ROCm
imageintermediate20GB+
HiDream-O1-Image on RX 7900 XTX: 2048×2048 Text-to-Image in ComfyUI on ROCm (BF16)
imageintermediate18GB+
Chroma1-Base (V48) on RX 7900 XTX: Uncensored 8.9B FLUX.1-Schnell De-Distillation via BF16 in ComfyUI on ROCm
imageintermediate16GB+
Qwen-Image on RX 7900 XTX: 20B Text-to-Image via ComfyUI on ROCm (GGUF / BF16)
imageintermediate13GB+
Flux.2 Klein 4B on RX 7900 XTX: ComfyUI on ROCm, Full BF16 4-Step Text-to-Image
imageintermediate8GB+
Anima 2B on RX 7900 XTX: ComfyUI on ROCm (BF16/FP16)
imageintermediate13GB+
Juggernaut Z on RX 7900 XTX: Cinematic Photoreal Z-Image Base Fine-Tune at BF16 via ComfyUI on ROCm
imageintermediate8GB+
Stable Diffusion XL on RX 7900 XTX: ComfyUI on ROCm (BF16/FP16)
llmbeginner13GB+
gpt-oss 20B on RX 7900 XTX: MXFP4 chat at ~119 tok/s via Ollama or llama.cpp-HIP
llmbeginner12GB+
Qwen3-14B on RX 7900 XTX: ROCm via Ollama or llama.cpp-HIP
llmbeginner8GB+
Llama 3.1 8B on Radeon RX 7900 XTX: Local Chat via Ollama or llama.cpp HIP (ROCm) GGUF
llmbeginner6GB+
Qwen3-8B on RX 7900 XTX: ROCm via Ollama or llama.cpp-HIP
multimodalbeginner6GB+
Gemma 4 E4B on RTX 3060 Ti: Multimodal Inference via Q4_K_M GGUF (llama.cpp or Ollama — BF16 will not fit)
multimodalintermediate4GB+
MiniMind-O on RTX 3060 Ti: 0.1B Omni Model (Text + Speech + Image In/Out)
ttsintermediate8GB+
Foundation-1 on RTX 3060 Ti: Structured Music Sample Generation at the 8 GB Floor
ttsbeginner5GB+
VoxCPM on RTX 3060 Ti: Zero-Shot Voice Cloning TTS in ~5 GB VRAM
ttsintermediate4GB+
OmniVoice on RTX 3060 Ti: Zero-Shot Voice Cloning Across 646 Languages
ttsintermediate5GB+
OpenAudio S1 Mini on RTX 3060 Ti: 13-Language Distilled TTS in ~5 GB VRAM
ttsbeginner2GB+
Kokoro TTS on RTX 3060 Ti: 82M-Parameter Text-to-Speech, 47 Voices, Under 3 GB VRAM
specializedbeginner4GB+
SAM 3 on RTX 3060 Ti: Promptable Image and Video Segmentation
llmbeginner4GB+
Qwen3-4B on RTX 3060 Ti: Q4_K_M GGUF via Ollama or llama.cpp
specializedbeginner4GB+
SAM 3 on RTX 5060: Promptable Image and Video Segmentation
multimodalintermediate4GB+
MiniMind-O on RTX 5060: 0.1B Omni Model (Text + Speech + Image In/Out)
ttsintermediate8GB+
Foundation-1 on RTX 5060: Structured Music Sample Generation at the 8 GB Floor
ttsintermediate4GB+
OmniVoice on RTX 5060: Zero-Shot Voice Cloning Across 646 Languages in 8 GB
ttsintermediate5GB+
OpenAudio S1 Mini on RTX 5060: 13-Language Distilled TTS in ~5 GB VRAM
ttsbeginner2GB+
Kokoro TTS on RTX 5060: 82M-Parameter Text-to-Speech, 47 Voices, Under 3 GB VRAM
ttsbeginner5GB+
VoxCPM on RTX 5060: Zero-Shot Voice Cloning TTS in ~5 GB VRAM
llmbeginner4GB+
Qwen3-4B on RTX 5060: Q4_K_M GGUF via Ollama or llama.cpp
specializedbeginner4GB+
SAM 3 on RTX 4060 Ti 8GB: Promptable Image and Video Segmentation
multimodalintermediate4GB+
MiniMind-O on RTX 4060 Ti 8GB: 0.1B Omni Model (Text + Speech + Image In/Out)
ttsintermediate8GB+
Foundation-1 on RTX 4060 Ti 8GB: Structured Music Sample Generation at the 8 GB Floor
ttsbeginner5GB+
VoxCPM on RTX 4060 Ti 8GB: Zero-Shot Voice Cloning TTS in ~5 GB VRAM
ttsintermediate4GB+
OmniVoice on RTX 4060 Ti 8GB: Zero-Shot Voice Cloning Across 646 Languages in 8 GB

Recipes

Qwen3-32B on Apple M2 Max: 32B local chat with MLX 4-bit in 64 GB unified memory

Llama 3.3 70B on Apple M2 Max: 70B-class chat in 64 GB unified memory with MLX

Sulphur 2 on RX 7800 XT: Uncensored LTX-2.3 Video on ROCm via ComfyUI GGUF

Waypoint 1.5 on RX 7800 XT: Real-Time Interactive World Model on ROCm (BF16)

TRELLIS image-large on RX 7800 XT: The First AMD ROCm Image-to-3D Mesh Path

Hunyuan3D-2.1 on RX 7800 XT: Image-to-Mesh on ROCm (Shape-Only)

LightX2V 4-Step on RX 7800 XT: Distilled Wan2.1-T2V-14B in ComfyUI on ROCm via GGUF + 4-Step LoRA

Wan 2.2 TI2V-5B on RX 7800 XT: 720p Text/Image-to-Video in ComfyUI on ROCm

LTX-2.3 on RX 7800 XT: 22B Audio-Video at the 16 GB ROCm Floor via GGUF + CPU-Offloaded Gemma

KiMoDo on RX 7800 XT: Text-to-3D-Motion Generation on ROCm

SAM 3 on RX 7800 XT: Promptable Image and Video Segmentation on ROCm

MiniMind-O on RX 7800 XT: 0.1B Omni Model on ROCm (BF16)

Gemma 4 E4B on RX 7800 XT: Multimodal Inference via ROCm (Ollama or llama.cpp-HIP GGUF, with Q8_0)

ACE-Step 1.5 XL on RX 7800 XT: Text-to-Music Generation on ROCm

MOSS-Audio 4B-Instruct on RX 7800 XT: local audio understanding on ROCm (BF16)

Foundation-1 on RX 7800 XT: Structured Music Sample Generation on ROCm

OmniVoice on RX 7800 XT: Zero-Shot Voice Cloning Across 646 Languages on ROCm (BF16)

Voxtral Mini 3B on RX 7800 XT: local speech understanding on ROCm (~9.5 GB)

VoxCPM2 on RX 7800 XT: 30-Language 48kHz Voice Cloning on ROCm (BF16)

Qwen3-TTS 1.7B-Base on RX 7800 XT: Multilingual Voice Cloning in 10 Languages on ROCm

OpenAudio S1 Mini on RX 7800 XT: 13-Language Distilled TTS on ROCm (BF16)

VoxCPM-0.5B on RX 7800 XT: Zero-Shot Voice Cloning TTS on ROCm (BF16)

Kokoro TTS on RX 7800 XT: 82M Voice Synthesis on ROCm (BF16)

ERNIE-Image-Turbo on RX 7800 XT: 8-step text-to-image via ComfyUI on ROCm (GGUF Q8_0)

LongCat-Image (base T2I) on RX 7800 XT: Bilingual 6B Text-to-Image at 16 GB via ComfyUI-GGUF on ROCm

HiDream-O1-Image on RX 7800 XT: 2048×2048 Text-to-Image in ComfyUI on ROCm (16 GB, Encoder-Offload)

Chroma1-Base (V48) on RX 7800 XT: Uncensored 8.9B FLUX.1-Schnell De-Distillation via Q8_0 GGUF in ComfyUI on ROCm

Qwen-Image on RX 7800 XT: 20B Text-to-Image via ComfyUI GGUF on ROCm (16 GB)

Flux.2 Klein 4B on RX 7800 XT: ComfyUI on ROCm, BF16 4-Step Text-to-Image (16 GB)

Anima 2B on RX 7800 XT: ComfyUI on ROCm (BF16/FP16)

Juggernaut Z on RX 7800 XT: Cinematic Photoreal Z-Image Base Fine-Tune at BF16 via ComfyUI on ROCm

Z-Image Turbo on RX 7800 XT: BF16 8-Step Text-to-Image via ComfyUI on ROCm

Stable Diffusion XL on RX 7800 XT: ComfyUI on ROCm (BF16/FP16)

gpt-oss 20B on RX 7800 XT: MXFP4 chat in 16 GB via Ollama or llama.cpp-HIP

Qwen3-14B on RX 7800 XT: ROCm via Ollama or llama.cpp-HIP

Llama 3.1 8B on Radeon RX 7800 XT: Local Chat via Ollama or llama.cpp HIP (ROCm) GGUF

Qwen3-8B on RX 7800 XT: 16 GB ROCm via Ollama or llama.cpp-HIP GGUF

Qwen3-14B on RTX 5060 Ti: Q4_K_M GGUF via Ollama or llama.cpp

Gemma 4 E4B on RTX 5060: Multimodal Inference via Q4_K_M GGUF (llama.cpp or Ollama)

Gemma 4 E4B on RTX 4080: Multimodal Inference via Q4_K_M GGUF (with optional Q8_0 / BF16)

Gemma 4 E4B on RTX 4080 SUPER: Multimodal Inference via Q4_K_M GGUF (with optional Q8_0 / BF16)

Gemma 4 E4B on RTX 4070 Ti SUPER: Multimodal Inference via Q4_K_M GGUF (with optional Q8_0 / BF16)

Gemma 4 E4B on RTX 4060: Multimodal Inference via Q4_K_M GGUF (llama.cpp or Ollama)

Gemma 4 E4B on RTX 4060 Ti 8GB: Multimodal Inference via Q4_K_M GGUF (llama.cpp or Ollama)

Waypoint 1.5 on RX 7900 XTX: Real-Time Interactive World Model on ROCm (BF16)

Hunyuan3D-2.1 on RX 7900 XTX: Textured Image-to-Mesh on ROCm

Sulphur 2 on RX 7900 XTX: Uncensored LTX-2.3 Video on ROCm via GGUF + the --disable-pinned-memory Load-Stall Fix

LightX2V 4-Step on RX 7900 XTX: Distilled Wan2.1-T2V-14B in ComfyUI on ROCm (BF16 + 4-Step LoRA)

Wan 2.2 TI2V-5B on RX 7900 XTX: 720p Text/Image-to-Video in ComfyUI on ROCm

LTX-2.3 on RX 7900 XTX: 22B Audio-Video on ROCm via GGUF + the --disable-pinned-memory Load-Stall Fix

KiMoDo on RX 7900 XTX: Text-to-3D-Motion Generation on ROCm

SAM 3 on RX 7900 XTX: Promptable Image and Video Segmentation on ROCm

MiniMind-O on RX 7900 XTX: 0.1B Omni Model on ROCm (BF16)

Gemma 4 E4B on RX 7900 XTX: Multimodal Inference via ROCm (Ollama or llama.cpp-HIP GGUF, with BF16)

ACE-Step 1.5 XL on RX 7900 XTX: Text-to-Music Generation on ROCm

MOSS-Audio 4B-Instruct on RX 7900 XTX: local audio understanding on ROCm (BF16)

Foundation-1 on RX 7900 XTX: Structured Music Sample Generation on ROCm

OmniVoice on RX 7900 XTX: Zero-Shot Voice Cloning Across 646 Languages on ROCm (BF16)

Voxtral Mini 3B on RX 7900 XTX: local speech understanding on ROCm (~9.5 GB)

VoxCPM2 on RX 7900 XTX: 30-Language 48kHz Voice Cloning on ROCm (BF16)

Qwen3-TTS 1.7B-Base on RX 7900 XTX: Multilingual Voice Cloning in 10 Languages on ROCm

OpenAudio S1 Mini on RX 7900 XTX: 13-Language Distilled TTS on ROCm (BF16)

VoxCPM-0.5B on RX 7900 XTX: Zero-Shot Voice Cloning TTS on ROCm (BF16)

Kokoro TTS on RX 7900 XTX: 82M Voice Synthesis on ROCm (BF16)

Z-Image Turbo on RX 7900 XTX: BF16 8-Step Text-to-Image via ComfyUI on ROCm

ERNIE-Image-Turbo on RX 7900 XTX: 8-step text-to-image via ComfyUI on ROCm

LongCat-Image (base T2I) on RX 7900 XTX: Bilingual 6B Text-to-Image at full BF16 via ComfyUI on ROCm

HiDream-O1-Image on RX 7900 XTX: 2048×2048 Text-to-Image in ComfyUI on ROCm (BF16)

Chroma1-Base (V48) on RX 7900 XTX: Uncensored 8.9B FLUX.1-Schnell De-Distillation via BF16 in ComfyUI on ROCm

Qwen-Image on RX 7900 XTX: 20B Text-to-Image via ComfyUI on ROCm (GGUF / BF16)

Flux.2 Klein 4B on RX 7900 XTX: ComfyUI on ROCm, Full BF16 4-Step Text-to-Image

Anima 2B on RX 7900 XTX: ComfyUI on ROCm (BF16/FP16)

Juggernaut Z on RX 7900 XTX: Cinematic Photoreal Z-Image Base Fine-Tune at BF16 via ComfyUI on ROCm

Stable Diffusion XL on RX 7900 XTX: ComfyUI on ROCm (BF16/FP16)

gpt-oss 20B on RX 7900 XTX: MXFP4 chat at ~119 tok/s via Ollama or llama.cpp-HIP

Qwen3-14B on RX 7900 XTX: ROCm via Ollama or llama.cpp-HIP

Llama 3.1 8B on Radeon RX 7900 XTX: Local Chat via Ollama or llama.cpp HIP (ROCm) GGUF

Qwen3-8B on RX 7900 XTX: ROCm via Ollama or llama.cpp-HIP

Gemma 4 E4B on RTX 3060 Ti: Multimodal Inference via Q4_K_M GGUF (llama.cpp or Ollama — BF16 will not fit)