苹果发布AppleIntelligence基础模型技术报告
报告公布两款多语言、多模态基础模型:一款约3B参数的本地模型(针对Apple Silicon优化),和一款基于Parallel-Track Mixture-of-Experts(PT-MoE)的服务器模型,部署于Private Cloud Compute。本地模型通过KV-Cache Sharing把37.5%的层去掉KV投影并与前层共享缓存,令TTFT缩短约37%。服务器模型将解码器拆分为并行“轨道”,每N层同步一次,最多可削减87.5%同步开销;再叠加MoE层提高稀疏计算效率。数据来自Applebot负责任抓取、授权语料与高质量合成内容,规模达14T tokens;视觉分支预训练于6B+图文对后与LLM联合训练,可处理图像-文本混合输入。