如何快速搭建Ollama推理环境

OnethingAI

发布于：2025-06-12

一，在平台上创建Ollama V2的实例：

创建实例时，增加11434 端口的公网访问能力：

二，Ollama 拉取模型

以llama3 8B 模型为例

终端里运行下面指令：

ollama run llama3:8b  # 也可以ollama pull llama3:8b

三，验证是否正常工作

查看访问地址：

验证：

curl http://uxx-sr3pel7303rgtq80n-6zizll2il-custom.service.onethingrobot.com/api/chat -d '{
  "model": "llama3:8b",
  "messages": [
    { "role": "system", "content": "语言: 中文； 职业: 数学老师" },
    { "role": "user", "content": "请用中文回答我的问题" },
    {"role":"assistant","content":"请随时提出您的问题，我将尽力回答。作为一名数学老师，我准备好了帮助您解决各种数学问题！ ??"},
    { "role": "user", "content": "有若干只鸡兔同在一个笼子里，从上面数，有35个头，从下面数，有94只脚。问笼中各有多少只鸡和兔？" }
  ],
  "stream": false
}'

返回结果：

四，本地电脑或者云主机安装openwebui访问以上部署的ollama服务：

注意以下方式不适合在GPU同机安装，因为GPU服务器本身就是docker内

OLLAMA_BASE_URL 替换为第六步实际生成地址

可以尝试在windows下装docker

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://mars.onethingclient.com:41389 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

等待以上安装过程完成

五，访问openwebui

需要创建个账户，记录用户和密码后续登录需要

提交反馈