如何快速搭建Ollama推理环境
OnethingAI
发布于:2025-06-12
一,在平台上创建Ollama V2的实例:
创建实例时,增加11434 端口的公网访问能力:
二,Ollama 拉取模型
以llama3 8B 模型为例
终端里运行下面指令:
ollama run llama3:8b # 也可以ollama pull llama3:8b
三,验证是否正常工作
查看访问地址:
验证:
curl http://uxx-sr3pel7303rgtq80n-6zizll2il-custom.service.onethingrobot.com/api/chat -d '{
"model": "llama3:8b",
"messages": [
{ "role": "system", "content": "语言: 中文; 职业: 数学老师" },
{ "role": "user", "content": "请用中文回答我的问题" },
{"role":"assistant","content":"请随时提出您的问题,我将尽力回答。作为一名数学老师,我准备好了帮助您解决各种数学问题! ??"},
{ "role": "user", "content": "有若干只鸡兔同在一个笼子里,从上面数,有35个头,从下面数,有94只脚。问笼中各有多少只鸡和兔?" }
],
"stream": false
}'
返回结果:
四,本地电脑或者云主机安装openwebui访问以上部署的ollama服务:
注意以下方式不适合在GPU同机安装, 因为GPU服务器本身就是docker内
OLLAMA_BASE_URL 替换为第六步实际生成地址
可以尝试在windows下装docker
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://mars.onethingclient.com:41389 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
等待以上安装过程完成
五,访问openwebui
需要创建个账户,记录用户和密码后续登录需要