Realize edições de imagem com o Qwen-Image a partir da linha de comando (compatível com GPUs/CPUs AMD).

Coisas que eu quero fazer
Configuração do ambiente
1. difusão-estável.cpp
2. Modelo
execução
1. Opções (argumentos)
2. Velocidade de execução
Em relação à edição de imagem Qwen 2509
1. Resultado da execução

Coisas que eu quero fazer

Utilize o arquivo stable-diffusion.cpp para editar imagens do Qwen-Image a partir da linha de comando.

Aparentemente, esse recurso de edição de imagens é comparável ao NanoBanana do Google.

Ele pode ser executado tanto em GPUs quanto em CPUs da AMD.

Configuração do ambiente

difusão-estável.cpp

Faça o download do arquivo Zip apropriado para o seu ambiente na página seguinte.

Releases · leejet/stable-diffusion.cpp

Diffusion model(SD,Flux,Wan,Qwen Image,Z-Image,...) inference in pure C/C++ - leejet/stable-diffusion.cpp

Se você quiser executá-lo em uma GPU AMD, precisará de algo com ‘vulkan’ ou ‘rocm’ no nome.

(Basicamente, o Vulkan deve funcionar bem. O ROCM provavelmente terá limitações quanto às GPUs que podem ser usadas.)

Isso se aplica às GPUs da NVidia que têm CUDA em seu nome.

AVX512, AVX2, AVX e NOAVX são baseados na CPU. Verifique qual versão do AVX é compatível com sua CPU e faça o download. (Eu estava enganado, mas parece que as CPUs da AMD também podem usar AVX. É mais fácil perguntar a um especialista em IA qual versão é compatível.)

Depois de extrair o arquivo baixado para uma pasta de sua escolha, você estará pronto para começar.

Modelo

Faça o download dos três modelos, um de cada vez, nas páginas seguintes.

Os modelos Vae e LLM são os mesmos utilizados no artigo abaixo. (Observe que o modelo de Difusão é diferente.)

Para arquivos compostos por múltiplos arquivos, tamanhos maiores exigem mais memória e resultam em maior precisão.

Por favor, decida qual modelo usar após considerar seu ambiente.

No meu ambiente (Ryzen 7 7735HS com placa gráfica Radeon + 32 GB de RAM), usei o arquivo Qwen_Image_Edit-Q4_0.gguf.

modelo de difusão(Edição de imagem Qwen)

QuantStack/Qwen-Image-Edit-GGUF at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

pé

Comfy-Org/Qwen-Image_ComfyUI at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

llm

mradermacher/Qwen2.5-VL-7B-Instruct-GGUF at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

execução

Abra a linha de comando e navegue até a pasta onde você extraiu o arquivo stable-diffusion.cpp.

Execute o seguinte comando. (Substitua o caminho do modelo pelo caminho do modelo que você está usando. Defina o arquivo de entrada para o caminho da imagem de entrada.)

sd-cli.exe --diffusion-model Caminho do modelo de difusão --vae Caminho do modelo VAE --llm Caminho do modelo llm --cfg-scale 2.5 --sampling-method euler --offload-to-cpu --diffusion-fa --flow-shift 3 -r arquivo de entrada -p alterar a cor do olho para vermelho --seed -1

Se o arquivo de saída ./output.png contiver uma imagem da imagem de entrada com olhos vermelhos, então o processo foi bem-sucedido.

Imagem de entrada

Imagem de saída

(No exemplo acima, funcionou bem, mas com o comando ‘Fechar os olhos’ , a imagem de entrada foi exibida como estava.)

Opções (argumentos)

As opções estão resumidas na página seguinte.

stable-diffusion.cpp/examples/cli/README.md at master · leejet/stable-diffusion.cpp

Diffusion model(SD,Flux,Wan,Qwen Image,Z-Image,...) inference in pure C/C++ - leejet/stable-diffusion.cpp

Abaixo estão listados apenas os modelos básicos mais comuns.

-m	Caminho do modelo
-p	incitar
-s	Valor inicial Especifique -1 para gerar aleatoriamente. Observe que, se você não especificar um formato, a mesma imagem será gerada todas as vezes.
`-H`	Altura da imagem
-EM	Largura da imagem
`--pé`	via VAE
`--passos`	Etapa. Valor inicial: 20 Note que, para alguns modelos, um número menor pode ser melhor. (O exemplo oficial da Qwen Image era 50.)

Velocidade de execução

A velocidade de geração de imagens é a seguinte: (Isso não inclui o tempo de carregamento do modelo nem o tempo após a iteração.)

Modelo	Tempo de Criação (s)
difusão estável (Vulkan)	36
Imagem da Rainha (Vulkan)	623
Qwen Edição de Imagens (Vulkan)	1683

Em relação à edição de imagem Qwen 2509

Os modelos para o Qwen Image Edit 2509 podem ser encontrados na página seguinte.

O comando de execução do Qwen Image Edit acima funcionou depois que eu substituí o modelo de Difusão pelo caminho para o modelo que baixei abaixo.

Comfy-Org/Qwen-Image-Edit_ComfyUI at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

The official documentation mentions adding `--llm_vision` when running Qwen Image Edit 2509, but I was unable to run it with this argument. (This might be an environment issue.)

Resultado da execução

Tempo de criação: 2034,03s

Pode ser apenas uma coincidência, mas o recurso ‘Fechar olhos’ do Queen Image Edit 2509 também funcionou muito bem.