百度智能云千帆推出全新视觉理解模型 Qianfan-VL,包含 3B、8B 和 70B 三个版本,针对企业级多模态应用场景优化。模型具备 OCR 全场景识别、复杂文档理解、数学解题等能力,并在百度自研昆仑芯 P800 上完成计算任务,支持 5000 卡并行计算。在通用能力、OCR、数学推理等基准测试中表现优异,现已开源。
AIWW评析
百度此次开源的 Qianfan-VL 模型在多模态视觉理解领域展现了强大的技术实力。通过提供不同尺寸的模型版本,满足了企业和开发者的多样化需求,尤其是在 OCR 和文档理解方面的专项优化,为实际应用提供了高精度的解决方案。自研昆仑芯 P800 的加持不仅提升了计算效率,也为大规模并行计算提供了支持。这种 “开源 + 自研芯片” 的模式,不仅推动了技术生态的发展,也为产业落地提供了更多可能性。未来,随着更多行业应用的深入,Qianfan-VL 有望成为多模态领域的重要工具。
