多模态人工智能与边缘计算技术

  • 自然交互:更接近与人之间的交互方式。 PC:键盘鼠标;移动:触控;现在:语音、手势、图像。
  • 云端一体
  • 场景智能:主动感知、用户理解、个性化推荐、智能决策。

0x01 多模态自然交互

5G加速智联网时代的到来,多模态数据成为主流
电阻屏=>电容屏:流量从PC时代走向移动时代
多模态自然交互:移动时代走向智联网时代

  • 1976 发现麦格克效应
  • 2015 200 citation–>3000+ citation. 有代表的论文 VQA: Visual Question Answering (ICCV 2015)
  • 2016 多个大型多模态数据集发表 (Youtube8m, audioset)
  • 2017 VoxCeleb 发布(多模态自然人识别数据集)
  • 2018 视觉语音降噪,虚拟人合成技术

1.1. 语音语义一体化

传统语音语意理解方法 语音和文本模态分离建模:语音到文本,文本到语义,形成两个模态的串联信道。

在语音模态上理解语义 利用文字领域知识理解语音需要一个更好的中间编码形式

语音语义一体化:基于音素的跨模态实体链接 单个模型减少传统链路上串行模块的总信息损耗,减少传统ASR+NER中30%的实体识别错误。

1.2. 多模态唤醒

不同的唤醒方式进行融合保证对话的流畅性

  • 语音:唤醒词(低功耗芯片)
  • 视觉:视线+注意力+唇动
  • 上下文理解:连贯的上下文(刚才的歌再放一遍)

1.3. 多模态对话

时装零售数据集

Nie, Liqiang , et al. “Multimodal Dialog System: Generating Responses via Adaptive Decoders.” the 27th ACM International Conference ACM, 2019.

挑战一:需理解多模态顺序上下文,以捕获用户意图并生成相关正确响应;
挑战二:需考虑额外信息(如商品属性)以推荐最相关图片;
挑战三:需构建统一的模型以编码各种形式的领域知识。

模型框架

上下文理解

  1. 双层RNN
  2. Low-level 做 embedding,输入high-level RNN.

对话式图片推荐

  1. Prodoct Encoder考虑局部对齐关系
  2. 计算 Context Vector (query) 与Product Embedding 的 similarity.
  3. Max-Margin Loss.

多形式知识建模

  1. decoder: hiddin state(query) 从 kowledge base 中 retrieve

  2. Embeed network,mapping function

0x02 边缘计算

2.1. 什么是边缘计算

在聊边缘计算之前,我们先聊聊这个星球上最魔性的生物之一——章鱼。


  1. 边缘计算可以实时或更快的进行数据处理和分析,让数据处理更靠近源,而不是外部数据中心或者云,可以缩短延迟时间。
  2. 在成本预算上可以大大减轻经费预算。企业在本地设备上的数据管理解决方案所花费的成本大大低于云和数据中心网络。
  3. 减少网络流量。随着物联网设备数量的增加,数据生成继续以创纪录的速度增长。结果,网络带宽变得更加有限,压倒了云,导致更大的数据瓶颈。
  4. 提高应用程序效率。通过降低延迟级别,应用程序可以更高效、更快速地运行。
  5. 个性化:通过边缘计算,可以持续学习,根据个人的需求调整模型,带来个性化互动体验。
  6. 隐私性:网络边缘数据涉及个人隐私,传统的云计算模式需要将这些隐私数据上传至云计算中心,这将增加泄露用户隐私数据的风险。在边缘计算中,身份认证协议的研究应借鉴现有方案的优势之处,同时结合边缘计算中分布式、移动性等特点,加强统一认证、跨域认证和切换认证技术的研究,以保障用户在不同信任域和异构网络环境下的数据和隐私安全。

2.2. 物联网里面的边缘计算

目前国内高技术领域的投入主要集中在围绕5G和AI两大块的落地上,而物联网则是目前网络技术打造的重点,也是各个行业实现效率提升、数字化转型的重要手段。投入这么多钱搞5G网络,从产业的思路是希望催生新的产业生态和商业模式。这里需要各个细分的行业,借助于自己的经验,根据场景的分类通过边缘计算可以提升物联网的智能化,找到物联网在各个垂直行业落地生根的钥匙。

2.3. 边缘计算的AI芯片

作为边缘计算的核心基础,边缘AI芯片有着重要地位,边缘AI芯片厂商作为产业链上游参与方投入大量资源进行技术研发,从供给方面为边缘智能的实现打下坚实牢固基础。边缘计算芯片主要分为一下三类:

  1. 嵌入式GPU:NVIDIA jetson.
  2. 通用深度学习加速器(NPU):Intel Movidius、RK3399Pro、Qualcomm®Kryo™300、海思、麒麟 980、google Coral、地平线、寒武纪、比特大陆.
  3. 专用芯片:语音唤醒芯片、命令词识别芯片、降噪芯片.

开发难度,通用型,功耗

2.4. 边缘计算的 AI 框架(推理框架)

  • Tensorflow Lite
  • PaddlePaddle
  • Core ML(Apple)
  • Tensor RT (Nvidia)