Ollama
Ollama 安装与配置
下载与安装
1 | |
1 | |
1 | |
TODO:
我也尝试了一下把Ollama安装到个人目录下,但是没有成功。有机会再试一下!
基本使用,命令比较多,找个教程:Ollama 教程 | 菜鸟教程
1 | |
下载模型
1 | |
这里其实是下载到了ollama的默认地址,我尝试了去把地址换到我的个人目录下,但是会有一个问题!
ollama安装的同时会创建一个用户,而找个用户跟我们的个人用户不在同一个组中,所以没有权限访问我们的文件,所以不可行!
1 | |
TODO:
怎么改默认的模型下载位置?
配置
如果 Ollama 以 systemd 服务的形式运行,则应使用 systemctl 设置环境变量。通过调用 systemctl edit ollama.service 编辑 systemd 服务。
设置指定运行的GPU
1
2
3
4
5
6
7$ sudo mkdir -p /etc/systemd/system/ollama.service.d
$ cd /etc/systemd/system/ollama.service.d
$ sudo tee /etc/systemd/system/ollama.service.d/override.conf << 'EOF'
[Service]
Environment="CUDA_VISIBLE_DEVICES=2"
EOF设置Ollama的监听地址和端口
当前Ollama只监听在127.0.0.1:11434(本地回环地址:默认监听端口),这意味着只能从本机访问,无法从其他机器通过局域网访问。需要修改Ollama的配置,让它监听所有网络接口,而不仅仅是本地回环,所以需要设置OLLAMA_HOST环境变量。同时,为了安全把模型端口也改一下。
1 | |
重启ollama服务
1 | |
Check ollama, 测试一下API是否可以正常访问
1 | |
Check ollama, 测试一下使用命令是否可以正常访问
1 | |
TODO:
systemd的外延知识
systemd不是很了解,之前在配置服务器网络的时候用到过!有时间可以再学一下!
1 | |
ollama服务的启动与停止
启动和停止服务
| 动作 | 命令 | 解释 |
|---|---|---|
| 启动 (Start) | sudo systemctl start ollama |
启动服务。如果服务未运行,则开始运行。如果已在运行,则什么也不做。 |
| 停止 (Stop) | sudo systemctl stop ollama |
优雅地停止服务。 |
| 重启 (Restart) | sudo systemctl restart ollama |
先停止,后启动服务。 |
| 重新加载 (Reload) | sudo systemctl reload ollama |
仅在服务支持时,重新加载其配置而不中断当前运行的任务。对于 Ollama 这种应用,通常使用 restart 更保险。 |
开机自启设置 (Enabling and Disabling)
| 动作 | 命令 | 解释 |
|---|---|---|
| 设置开机自启 | sudo systemctl enable ollama |
创建必要的符号链接,确保系统下次启动时 自动 启动 Ollama 服务。 |
| 取消开机自启 | sudo systemctl disable ollama |
移除符号链接,下次系统启动时 不会 启动 Ollama 服务。 |
| 检查是否自启 | systemctl is-enabled ollama |
检查服务是否已设置为开机自启。 |
完整启动/停止 Ollama 的流程
启动 Ollama:
- 如果你修改了配置:
sudo systemctl daemon-reload sudo systemctl start ollamasudo systemctl status ollama(检查是否启动成功)
停止 Ollama:
sudo systemctl stop ollamasudo systemctl status ollama(检查是否已停止)
现象解释
安装完Ollama之后我发现一个现象。
- 在没有Ollama运行但没有对话的时候,GPU之后G-Mem被占用,G-Utl没有;
- 对话的时候,G-Utl会占用很大;
- 一段时间之后,Ollama会自动结束服务;
这里我觉得要区分一下Ollama和模型(如qwen3:8b):
- Ollama的服务在启动后,并没有加载模型,只占用了CPU和Mem;
- 通过api(
api/chat)或者命令(ollama run qwen3:8b)之后,ollama会加载qwen3:8b模型,这时候会有G-Mem的占用; - 在对话的时候,则G-Utl会占用。
此外,Ollama的部署在资源管理上有很大的优势和特点:
- 只有收到请求时才加载模型;加载时间通常几秒钟;
- 默认5分钟无请求后自动卸载;释放GPU显存给其他程序使用;
- 空闲时只有ollama服务进程,几乎不占用GPU;工作时模型占用显存;
- 不会长期占用GPU资源;其他用户可以在模型空闲时使用GPU;
这就是为什么这种部署方式适合服务器环境的原因——按需使用,自动释放!
同理,在Zotero中使用GPT插件时,也是同样的机制:提问 → 模型加载 → 生成回答 → 5分钟后自动卸载
Ollama部署模型还有很多的应用待探索
- Zotero GPT
- 其他应用
- ……
Zotero GPT
- GPT for Zotero
- MuiseDestiny/zotero-gpt: GPT Meet Zotero.
- 【三步教你部署本地大模型 Llama3,运行在 Zotero GPT 上】 https://www.bilibili.com/video/BV1Wt421A7SD/?share_source=copy_web&vd_source=cb8ca20bb2f448c45637301044049930

- Zotero GPT: 使用API URL
http:$SERVER_IP//:$OLLAMA_PORT - API Key: 设置为空格
" " - 模型:
qwen3:8b
这里其实是不需要API Key的,但应该这个插件的问题,不设置Key会报错。这里直接键入一个“空格”就能解决。
Ollama
https://blog.cosmicdusty.cc/post/Tools/Ollama/