如何快速搭建Ollama推理环境

OnethingAI

发布于:2025-06-12

一,在平台上创建Ollama V2的实例:

创建实例时,增加11434 端口的公网访问能力:

二,Ollama 拉取模型

以llama3 8B 模型为例

终端里运行下面指令:

ollama run llama3:8b  # 也可以ollama pull llama3:8b

三,验证是否正常工作

查看访问地址:

验证:

curl http://uxx-sr3pel7303rgtq80n-6zizll2il-custom.service.onethingrobot.com/api/chat -d '{
  "model": "llama3:8b",
  "messages": [
    { "role": "system", "content": "语言: 中文; 职业: 数学老师" },
    { "role": "user", "content": "请用中文回答我的问题" },
    {"role":"assistant","content":"请随时提出您的问题,我将尽力回答。作为一名数学老师,我准备好了帮助您解决各种数学问题! ??"},
    { "role": "user", "content": "有若干只鸡兔同在一个笼子里,从上面数,有35个头,从下面数,有94只脚。问笼中各有多少只鸡和兔?" }
  ],
  "stream": false
}'

返回结果:

四,本地电脑或者云主机安装openwebui访问以上部署的ollama服务:

注意以下方式不适合在GPU同机安装, 因为GPU服务器本身就是docker内

OLLAMA_BASE_URL 替换为第六步实际生成地址

可以尝试在windows下装docker

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://mars.onethingclient.com:41389 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

等待以上安装过程完成

五,访问openwebui

需要创建个账户,记录用户和密码后续登录需要

提交反馈