Ollama 是一个开源的本地化大语言模型(LLM)平台,旨在简化模型在用户设备上的部署、管理和推理流程。它支持在 macOS、Linux 和 Windows 系统上运行多种开源模型(如 LLaMA、Mistral、Gemma 等),并提供命令行界面(CLI)、HTTP API 及 OpenAI 客户端兼容接口。其核心优势在于无需依赖云服务,数据隐私可控,且支持离线运行,适合学术研究、企业知识管理及个人开发等场景。
主要功能
本地模型管理
模型拉取与存储:支持从官方库或自定义源下载预训练模型(如 LLaMA 2、Mistral 7B),并保存至本地路径(通过 OLLAMA_MODEL_PATH 环境变量配置)。
多格式支持:兼容 ONNX、PyTorch、TensorFlow 等主流模型格式,支持 Safetensors 和 GGUF 等安全文件格式。
模型裁剪与量化:提供 4-bit/8-bit 量化选项,减少内存占用(如 7B 模型需至少 8GB RAM)。
高效推理
硬件... 查看全部
