CamEmbody是易瞳推出的一系列用于空间关联、空间配合、空间理解的软硬件技术能力。该技术可广泛应用于智能安防、智能零售、智能工业等多元场景,为其提供从视觉感知到空间决策的技术支撑。

  CamEmbody技术平台主要包括以下关键技术:

  ①3D映射:AI视觉能力网格化拼接与空间理解

  ②DOC专注度算法:结合全景雷达和特写镜头进行自动运镜的算法

  ③双鱼眼棱镜单sensor模组:创新的全景拼接技术光学实现模组

  ④3MIC空间音频阵列模组:负责听音辨位、音源分离、声纹识别的模组

  视频空间,易瞳CamEmbody——音视频空间理解技术

  易瞳科技CamEmbody

  01 易瞳CamEmbody:让AI设备“看得全”

  传统AI设备常受限于单一的视角,或周围环境的干扰,可能会导致目标跟踪丢失或事件信息不全。而易瞳的CamEmbody是一项全面的空间感知理解技术。它通过空间拼接与DOC专注度算法,优化多目标跟踪与事件分析。可提供精准的目标捕捉、3D建模和空间场景音视频理解能力。且支持复杂场景下的空间交互应用,如智能监控与实时管理,使AI设备真正实现视觉空间的“全维度覆盖”。

  视频空间,易瞳CamEmbody——音视频空间理解技术

  多目标追踪

  02 “看得全”对通用视觉AI很重要

  为了实现更高维度的视觉AI能力,需要优先完成人工智能“传感→分析→判决→执行”的闭环能力。而这里我们为“传感”模块赋予了苛刻的要求——具身化感知,即能够区分自我和周围环境的输入输出。

  对于环境中交互的主体来说,感官输入的变化可能因为环境的变化,也可能因为主体主动或被动的改变了自己在环境中的位置。为了区分这些情况,主体必须跟踪自己的主动运动并了解这些运动如何影响输入。

  这意味着,一套视觉AI终端,如何感知周遭环境、目标并建立配合关系和注意力关系决定了一套视觉系统的通用视觉AI能力上限。

  视频空间,易瞳CamEmbody——音视频空间理解技术

  易瞳科技CamEmbody架构

  03 “看得全”的价值

  全景数据+指向数据关联,才是有价值的AI数据集

  大多数现存数据缺乏环境信息无法支持更有效的多模态训练及端到端的空间理解训练。

  手机的摄像头、拍照相机、行车记录仪这些设备仅仅记录了人类目标的“结果”,并没有记录有效的“过程”,因此无法有效的将人类对任务的取向做较好的训练。类似于电动车上的摄像头则可以捕捉无死角的环境信息,再通过驾驶员的方向控制有效地获取人类的取向,在我们看来是重要价值的数据集。

  通过对这类数据集进行训练,能够有效的让模型更加聪明。

  视频空间,易瞳CamEmbody——音视频空间理解技术

  数据集“看的全”的价值

  更多AI视觉资讯可关注【易瞳科技】账号。

  本文标题:视频空间,易瞳CamEmbody——音视频空间理解技术

  本文链接:http://www.hniuzsjy.cn/caixun/13641.html