内容简介:满血版的部署需要专业服务器,建议在1T内存+起码双H100 80G的推理服务器实现,可以选SGLANG框架或者VLLM框架;视硬件选择最优方案。家用级本地模型部署:目前网上最流行的通用部署方法是ollama,在ollama网站可以看懂模型:背后的1.5B-70B模型,也就是上述的蒸馏模型的量化版本。...
用户评论
热门文章