卡内基梅隆大学和马克斯·普朗克智能系统研究所的研究人员的“WHAM:用精确的 3D 方法重建 World-grounded Humans” 该技术正在引起人们的关注。 它是一种从视频中构建人的运动的技术。
WHAM:用精确的3D运动重建世界接地的人类
尽管从图像中估计人体3D运动正在迅速发展,但目前的方法仍然存在一些重要的局限性。 首先,大多数方法都在相机坐标中估计一个人。 其次,以前在全球坐标中估计一个人的研究通常假设一个平坦的地平面,这会导致脚滑。 第三,最准确的方法依赖于计算成本高昂的优化管道,这限制了它们在离线应用程序中的使用。 最后,与单帧方法相比,现有的基于视频的方法非常不准确。 我们通过以世界为基地的精确运动人类 (WHAM) 来解决这些限制。 WHAM通过视频准确高效地重建全球坐标系中的3D人体运动。 WHAM 使用动作捕捉数据来学习将 2D 关键点序列提升为 3D,并与视频功能融合以整合运动上下文和视觉信息。 WHAM使用从SLAM方法估计的相机角速度以及人体运动来估计身体的整体轨迹。 为了使WHAM能够在各种条件下捕捉人体运动,例如爬楼梯,它将与考虑接触的轨迹细化方法相结合。 WHAM在多个真实世界的基准测试中优于所有现有的3D人体运动重建方法。 该代码可用于研究目的。
这似乎很准确。 这种技术创新的速度快,速度快...... 代码也已经发布,您可以在 Google Colab 上试用。 也有人实际上正在尝试。
视频中出现了各种与运动相关的服务,但通过移动手头的东西来验证这种新技术似乎是个好主意。
顺便说一句,Blender 附加组件 CEB 4D Humans 发布了一个更新,立即支持此 WHAM。