解决方案
面部跟踪
面部跟踪是计算机视觉的一个分支,涉及在面部图像数据上运行计算。这类软件在未来的 AR 和 VR 应用中发挥着独特的作用,并将影响电子商务、安全、视频游戏和通信行业的未来。
IT Researches 在开发我们自己的面部跟踪算法方面取得了相当大的成功。我们的软件支持使用 RGB 传感器以及未来的深度传感器配置(称为 RGB-D)进行面部特征跟踪。深度数据的加入是面部追踪技术的一项重要发展,因为它可以对人脸和遮挡进行稳健的三维重建。当用户转过头时,遮挡可使帽子、眼镜和珠宝等内容正确地呈现在脸部后面或周围。这为消费者提供了令人信服的逼真体验,可以在各种头戴式产品上进行取样。
理想的人脸增强技术应能根据用户面部表情的变化进行改变和调整。当面部跟踪用于游戏、电影甚至化妆品行业的产品评估时,这是必要的。IT Researches 的技术通过支持面部特征跟踪满足了这一要求,目前的移动硬件均支持面部特征跟踪。
创建三维高保真人脸重建的能力将为更直观的远程通信、改进产品预可视化、增强视频游戏的沉浸感、加强安全措施以及其他应用领域打开新的大门。
下一代传感器
计算机视觉的发展取决于感知硬件的进步。从历史上看,使用智能设备的摄像头模块一直是移动计算机视觉的主要焦点;然而,不同类型的传感器可以带来更复杂的体验和互动。考虑到这些目标,IT Researches 将 "热触摸 "整合到了他们的技术组合中--该系统可以通过感应手指在物体上留下的温度来识别我们触摸的物体。用户可以通过与现实世界的物理互动来操纵场景中的虚拟内容,在两者之间创建一个独特的界面。
深度传感器或 "RGB-D "配置是另一项对计算机视觉产生影响的新兴技术。深度感应直接解决了确定场景中物体距离的问题,并可与现有的视觉信息集成,实时生成精确且比例正确的环境重构。这对于产品预可视化、设备装配以及手势和面部跟踪都有非常实际的用途。此外,RGB-D 传感器还能将虚拟内容遮挡在离观看者更近的真实物体后面,这一重要成果使几乎所有的 AR 体验都更加逼真,并与真实环境融为一体。
照度估计
为了使增强现实体验达到令人信服的逼真度,模仿内容所在环境的照明条件至关重要。
作为人类,我们能敏锐地察觉到那些在照明方面表现不正常的物体,这些物体会立即被认为是不自然的。虚拟物体的阴影投射方向应与周围真实物体的阴影投射方向一致,反射光也是如此。
IT Researches 的相干照明技术可以实时估算场景的照明条件,进而将这些条件转化为场景中的虚拟物体。这样就能获得增强现实体验,其中的虚拟内容看起来很自然,照明条件与周围环境一致。IT Researches 的动态照明技术可实时反映真实世界环境中不断变化的照明条件。
SLAM
计算机视觉应用的一个重要要求是能够观察和理解未知环境。当人们想要在一个全新的环境中增强信息时,这一点就变得尤为重要。同步定位和绘图(SLAM)是一种技术,它允许设备在未知环境中进行自我定位,同时创建周围环境的参考地图。
在 IT Researches,我们开发了自己的 SLAM 版本,它们是
即使是使用标准移动设备,也能保证精确度。IT Researches SLAM 可以在未知环境中增强内容,即所谓的 "3D 无标记跟踪"。
利用 SLAM 技术,可以一次性重建环境或物体,然后保存起来,以后可根据需要在多种应用中使用。当其他跟踪配置无法满足特征提取的要求时,为室内环境创建增强现实体验就有了独特的优势。
视觉搜索
IT Researches 的连续视觉搜索技术利用 IT Researches 功能强大的云服务器大规模扩展图像识别流程,支持大规模增强现实应用。
数百万张图片的数据库可以快速检查与客户端发送的图片是否匹配。由此产生的可视化搜索解决方案可以大规模地增强我们周围的物品:从产品包装到技术手册,再到艺术品。这项技术还可作为数据管理解决方案,将图像匹配数据和内容从设备卸载到云端。这有助于延长电池寿命,减轻中央处理器的工作量。
3D 物体跟踪
IT Researches 在三维物体跟踪技术领域处于行业领先地位。通过将特征跟踪、视觉里程计和边缘跟踪相结合,我们的技术能够跟踪和增强现实世界中的物体,而不是简单的二维标记配置。
三维物体追踪技术为增强现实技术带来了新的机遇:机械部件可以标注数字信息,消费品可以添加额外的产品信息或促销信息,数字娱乐可以与现实世界自然融合。
IT Researches 最近将基于特征的跟踪和基于边缘的跟踪集成到一个高度稳健的系统中,即混合跟踪系统。这种配置结合了两种方法的优势,具有更高的精度和鲁棒性。
社会多媒体分析
多媒体内容正以前所未有的速度在互联网上产生和共享。例如,每天共享的图片超过 100 万张,每年共享的视频时长达 1 亿小时。面对这些海量数据,自动理解图像和视频内容的能力对于实现基于内容的检索、相似项目搜索、个性化内容搜索、隐私保护以及社交网络多媒体内容流建模等应用至关重要。
这种能力可提供具有成本效益的解决方案,用于收集有关病毒性内容(如备忘录)、客户对新产品的反馈以及世界各地的地缘政治或军事事件的信息,而在以前,没有专门的研究和情报小组是不可能做到这一点的。
IT Researches 正在开发一套大型多媒体分析工具,重点关注视觉内容理解、基于内容的搜索、在线隐私保护和网络建模。这些软件工具结合了多媒体分析领域的最新技术,可检测无约束图像和视频中嵌入的对象、场景、活动、场景内文本和音频信号。这些技术共同用于分析和检测数据中的兴趣模式。IT Researches 正在进行的项目之一是开发隐私顾问,当含有潜在隐私敏感材料的图像即将无意中在网络上共享时,隐私顾问会向用户发出警告。我们的工具在大规模真实世界数据上表现出很高的准确性,并可适用于各种应用领域。此外,IT Researches 工具还集成了先进的可视化和交互功能,可在网络浏览器上实现无缝搜索体验,并通过结合用户的相关性反馈提高搜索准确性。
活动识别与行为分析
IT Researches 在开发基于人和车辆与环境互动的活动识别和行为理解解决方案方面具有专长。其基本概念是根据视频中包含的静态和动态证据描述符(如位置、物体和正在进行的活动)识别行为模式。我们的解决方案基于强大的数学表示法,并在街道监控和足球视频等各种具有挑战性的现实场景中得到了验证。
要克服视频理解中的一个关键挑战:在无限多的风格、质量和场景中识别任何事件和物体,这些功能以及当前视频识别领域的先进技术都是必不可少的。
视频三维重建
广域视频传感器每秒可产生数千兆字节的原始视频数据,一次任务可产生数百兆字节的原始视频数据,因此需要高效的方法来压缩这些数据,以便进行下行链路和存档。目前已有一些标准压缩技术,但没有一种能利用三维静态世界这一事实。基于这一概念,IT Researches 正在开发利用三维模型显著提高广域视频压缩率的技术。
要以这种方式压缩视频,第一步是分离前景和背景,并区分动态场景元素。在确定哪些动态元素需要表示时,关键是要考虑会影响场景的短期、长期和非常长期的变化。在确定哪些元素必须表示后,就可以将重点放在用三维模型替换背景上,从而实现压缩。这种三维模型包含视点和随时间变化的外观数据,是全面了解场景所必需的。通过这种压缩,可以显著提高存储量和效率,这对于日益庞大的数据集的摄取是必不可少的。
基于内容的视频和图像检索
IT Researches 已从多个 DARPA 和 AFRL 项目中开发出基于内容的图像检索的重要能力。我们对输入的视频进行摄取、预处理和稳定,然后识别和描述移动物体(包括下体和车辆)。更复杂的视频描述符,如运动描述符(包括运动学、可变形和铰接运动)、外观描述符(包括颜色和形状)和行为描述符(如奔跑、搬运、车辆掉头等),可描述更深层的语义内容。
这种语义分析可向特种作战人员发出实时警报,并可提示视频流中的意外或可疑活动,这对任务的成功至关重要。此外,先进的取证功能还可以从大型数据集中追溯检索感兴趣的活动。
IT Researches 已开始将其图像和视频分析能力作为 IT Researches 图像和视频开发与检索工具包 (KWIVER) 的一部分放到 Forge.mil 上,政府拥有无限使用权。Forge.mil 上的功能目前包括 IT Researches 的实时 WAMI 跟踪系统的完整源代码。我们计划增加 KWIVER 的功能,并希望建立一个由政府和商业合作者组成的持久开发社区。
大范围视频分析
IT Researches 正在开发一个软件系统,能够自动和交互式地从复杂的城市、郊区和农村环境的广域运动图像(WAMI)中发现可操作的情报。在 WAMI 中,主要信息元素是道路、建筑物和其他场景特征背景下的移动实体。
这些实体虽然可以利用,但在复杂的城市环境中,由于遮挡、停顿和其他因素,往往会产生零散的轨迹。IT Researches 的软件系统采用算法解决方案来关联轨迹,然后识别和整合本地事件,以检测潜在威胁并进行取证分析。
该软件系统极大地增强了终端用户利用活动、正常性和上下文模型发现新情报的能力。由于绝大多数事件都是正常的,不会构成威胁,因此这些模型必须交叉整合单个事件,以发现表明可疑行为或与先前了解或定义的威胁活动相匹配的关系和异常情况。
先进的系统提高了分析人员处理快速增长的 WAMI 数据的能力,并减少了执行许多当前开发任务所需的时间,从而大大提高了分析和利用数据进行取证分析的能力。
场景理解
视频中的场景理解是视觉监控和视频理解问题的一个新问题。IT Researches 正在努力创造这一领域的解决方案,包括功能对象识别。功能性物体识别是指对具有特定用途的物体进行定义的能力,例如邮递员和送货卡车,这些物体更多地是由其行动和行为而不是外观来定义的。我们正在开发一种基于内容的学习方法,并根据视频轨迹识别移动物体的功能。特别是,我们已经确定,移动物体的语义行为可以通过赋予其特征来捕捉,这些特征编码了它们与场景上下文的关系和动作,场景上下文是具有不同功能的局部场景区域,如移动物体经常互动的门口和停车位。在这些表征的基础上,从实例中学习功能模型,然后从未曾见过的数据中识别新的实例。
运动检测和跟踪
IT Researches 正在开发的工具主要用于检测移动物体并跟踪存档和流媒体视频中的移动物体。此类视频数据的主要信息元素是道路、建筑物和其他场景特征背景下的移动实体。
在复杂的城市环境中,由于遮挡、停车和其他因素,这些实体通常会产生零散的轨迹。IT Researches 正在开发算法解决方案,以关联轨迹,然后识别和整合本地事件,从而检测潜在威胁并进行取证分析。
所开发的算法为软件系统做出了贡献,该系统利用活动、正常性和上下文模型,极大地增强了终端用户发现新情报的能力。由于绝大多数事件都是正常的,不会构成威胁,因此这些模型会交叉整合单个事件,以发现表明可疑行为或与先前了解或定义的威胁活动相匹配的关系和异常情况。
在复杂的城市环境中,由于遮挡、停车和其他因素,这些实体通常会产生零散的轨迹。IT Researches 正在开发算法解决方案,以关联轨迹,然后识别和整合本地事件,从而检测潜在威胁并进行取证分析。
所开发的算法为软件系统做出了贡献,该系统利用活动、正常性和上下文模型,极大地增强了终端用户发现新情报的能力。由于绝大多数事件都是正常的,不会构成威胁,因此这些模型会交叉整合单个事件,以发现表明可疑行为或与先前了解或定义的威胁活动相匹配的关系和异常情况。