千问 千问

阿里通义千问Qwen AI大模型

千问网页版

模型架构与核心技术

通义千问在模型架构上不断探索创新,其核心突破体现在混合专家(MoE)架构的深度应用。以2025年发布的Qwen3系列为例,旗舰模型Qwen3-235B-A22B采用2350亿总参数设计,但每次推理仅激活220亿参数,通过128路细粒度专家分割和全局负载均衡优化,推理吞吐量提升3倍,单位计算成本下降40%,显存占用仅为同类性能模型的三分之一 。这种架构在保持模型容量的同时,大幅降低了部署成本,使企业级应用更具经济可行性。 另一项重要创新是"混合推理模式"的引入。Qwen3首次在单个模型中集成"思考模式"与"非思考模式",用户可根据任务复杂度灵活切换。思考模式通过多步链式推理处理数学推导、代码生成等复杂任务;非思考模式则提供即时响应,满足轻量级对话需求 。这种设计配合"思考预算"机制,实现了推理过程的可控成本分配,突破了传统模型需部署多套系统应对不同场景的局限。 在训练数据方面,Qwen3的预训练数据量达到36万亿tokens,涵盖119种语言与方言,多语言处理能力成为全球标杆 。模型在训练过程中还引入了更精细的知识校验机制与强化学习对齐技术,大幅降低了知识幻觉的发生率

强化的后期训练

使用 SFT(Supervised Fine-Tuning)进行更好的任务定向调优,通过人类反馈强化学习(RLHF)进一步对齐用户偏好,使模型能够更好地理解和满足用户需求

多模态处理能力

千问具备强大的多模态能力,可以处理文本、图像、音频等多种模态的数据。例如,在代码能力方面,能够帮助用户完成各种可视化创作;在联网搜索功能中,输出内容的每句话来源出处都有标注,运行流畅

长文本处理能力

支持超长上下文(例如 32K tokens 或更高),这一特性适合处理长文档、复杂对话历史或者大型知识库等任务。使得它在处理较长信息内容时能够很好地利用上下文信息,提高回答的准确性和连贯性

基准测试优势

在多个主流权威基准测试中,千问表现卓越,超越了 DeepSeek V3、Llama-3.1-405B 等领先模型。相比早期版本,Qwen2.5-Max 的理解能力提升了 46%,数学能力提升了 75%,代码能力提升了 102%,指令遵循能力提升了 105%

与主流模型对比

在对话与编程任务上,千问Qwen2.5-Max 可与 GPT-4o、Claude-3.5-Sonnet 等商业模型一较高下,底层模型能力胜过同样开源的 DeepSeek V3 与 Llama-3.1–405B