利用Azure实现智能视觉与多语言翻译应用
1. Seeing AI:移动应用中的智能视觉体验
Seeing AI借助Azure机器学习服务来识别物体并描述场景,它针对不同的计算机视觉问题,采用了多种机器学习模型,并在不同场景下进行权衡。
1.1 本地与云端模型的选择
- 本地模型 :在设备上本地运行机器学习模型能提供实时结果,理想情况下响应时间少于100毫秒,最多不超过四分之一秒,让用户获得自然的文本朗读体验。例如,若要实时读取标志或标签,可使用手机上运行的模型。
- 云端模型 :图像描述使用认知服务中的自定义视觉模型,这些模型无法压缩到设备上运行,更不用说在Azure机器学习中训练的用于识别多种物体的数GB级模型。虽然与云端的往返通信需要更长时间,但能提供更高质量的结果。比如拍摄文档照片时,花时间将其发送到Azure,利用云端的大型模型可获得更准确的结果。
选择在本地还是云端运行模型有多种方式。Seeing AI让用户选择不同场景来决定,而开发者也可根据网络连接速度等因素,或采用混合方法。若用户带宽有限、连接缓慢或离线,可使用本地模型;甚至可以先使用小型本地模型给出结果,待云端返回更精确信息后再补充。同时,要确保用户界面清晰说明结果质量或细节水平变化的原因,避免用户困惑。此外,还需考虑隐私问题,Seeing AI发送到Azure的图像会安全存储并保护用户隐私,但图像会离开设备,在受监管的行业中可能需要仅使用本地模型,若向云服务发送内容,需通知用户。