本地运行LLM（兼容AMD GPU/CPU）

我想做的事情
环境设置
1. llama.cpp
2. 模型
执行
1. 在提示符处运行
  1. 结尾
2. 在服务器上运行
  1. 结尾
  2. 通过其他设备（电脑或智能手机）访问

我想做的事情

使用 llama.cpp 在本地运行 LLM（聊天 AI）。

本文使用了谷歌的本地模型 gemma。

它既可以在 AMD GPU 上运行，也可以在没有 GPU（CPU）的系统上运行。

环境设置

llama.cpp

请从以下页面下载适合您环境的 Zip 文件。

如果你想在配备 AMD GPU 的 Windows 系统（或没有 GPU 的系统）上运行它，可以使用 Vulkan 软件包。

使用Nvidia GPU时，它将与CUDA软件包配合使用。

如果上述版本不起作用，请使用 CPU 优化版软件包。

Releases · ggml-org/llama.cpp

LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.

将下载的文件解压到你选择的文件夹后，就可以开始了。

模型

请从以下页面下载其中一个模型。

gemma-2-2b-jpn 是专为日语设计的模型。

gemma-2-9b 比 gemma-2-2b-jpn 更智能。

链接页面包含名称类似于 Q4 和 Q8 的文件；Q 后面的数字越大，模型就越智能。

一般来说，更智能的模型文件更大，响应时间更长。

（还有一款更智能的型号，叫做Gemma-2-27B。）

请根据您的使用环境选择合适的型号。（2B 适用于智能手机和低配置电脑，9B 适用于中等配置电脑，27B 适用于高端电脑。）

grapevine-AI/gemma-2-2b-jpn-it-gguf at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

bartowski/gemma-2-9b-it-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

执行

在提示符处运行

在命令提示符中执行以下命令。

模型路径替换为已下载模型的路径。

llama-cli.exe -m 模型路径

模型加载完成后，将显示以下屏幕。

出现上述屏幕后，即可开始聊天。也支持日语输入。

在我的系统（Ryzen 7 7735HS with Radeon Graphics + 32GB RAM）上使用 gemma-2-2B-jpn-it-Q4_K_M.gguf 时，我几乎立即收到了响应。

结尾

你可以输入 /exit 或按 Ctrl+C 退出。

在服务器上运行

在命令提示符中执行以下命令。

模型路径替换为已下载模型的路径。

llama-server -m 模型路径 --端口 8080

模型加载完成后，将显示如下：

主要：模型已加载
主服务器正在监听 http://127.0.0.1:8080
主循环：开始主循环……
srv update_slots：所有槽位均处于空闲状态

如果出现上述消息，请在 Chrome 等浏览器中打开 http://127.0.0.1:8080/。

将显示以下内容，您可以进行聊天。

与 Gamini 不同，Gemma 不能接受图像输入。

此外，无法输出图像。

结尾

您可以在启动服务器的提示符处按 Ctrl+C 退出服务器。

通过其他设备（电脑或智能手机）访问

如果执行上述命令，则其他设备将无法访问该内容。

如果您想从其他设备访问它，请在启动时添加以下参数。（请注意，访问时您需要找到服务器的 IP 地址，并将 http://127.0.0.1:8080 中的 127.0.0.1 替换为服务器的 IP 地址。）

--host 0.0.0.0

请采取充分的安全防范措施。