越来越多的 App 想把对话、摘要、OCR 这类能力"塞回端上"——响应更快、隐私更可控、离线也能用。但从云端迁移到端侧,不是直接换个模型名就行,核心要解决模型瘦身、能耗发热、数据合规三件事。
一、模型瘦身:不是越小越好
- 先拿业务高频语料跑离线评测,确定"可接受下限";再决定量化(INT8/INT4)或蒸馏路线。
- 对话类场景考虑 KV-Cache 与分段推理;OCR/ASR 类优先选专用小模型而非通用大模型。
- 权重可随版本灰度下发,避免每次都打包进 APK/IPA,减小包体。
二、能耗与体验
- 低电量、高温、后台等状态下自动降级到云端或关闭该能力,避免用户反馈"烫手""掉电"。
- 首次加载耗时展示进度,预热与按需加载分离;NPU/GPU 不可用时退回 CPU 要有兜底。
- 把推理时长、失败率、降级触发次数做进可观测看板,发版后持续观察。
三、数据与合规
端侧处理并不自动等于"免合规"。隐私政策仍要说明数据用途、是否上传、留存期限;若使用第三方模型或 SDK,需核对其授权条款与数据处理承诺。涉及未成年人、人脸、声纹等敏感数据,采集与存储按最小必要原则。
说明:本文为通用技术建议,具体合规要求以《个人信息保护法》《生成式人工智能服务管理暂行办法》及平台当期规范为准,不构成法律意见。