用gan消除视频会议模糊,还能降低90%带宽,神奇的vid2vid cameo模型(视频会议视频模糊)-凯发体育官方app

用gan消除视频会议模糊,还能降低90%带宽,神奇的vid2vid cameo模型(视频会议视频模糊)

无需会议室和出差,打开手机,登录app,就可以和千里之外的人“面对面”开会。疫情下,这种场景已经成为很多打工人工作的常态。

作为一种实时的网络应用,视频会议对网络的要求比较高。当下视频会议过程中,因网络信号问题,常会导致与会者频频掉线、屏幕共享画面不清晰,影响开会的效率。此外,成像角度不佳、客观原因造成个人形象不佳等问题,也将影响与会者的开会体验。如何在低网络带宽下,进行流畅、清晰的视频会议,成为困扰众多视频会议开发者的难题。

此前,开发者大多通过调整图像分辨率、码流、帧数等方式实现视频数据压缩,解决低网络带宽下视频会议问题。虽然这类方法可以缓解视频会议卡顿问题,但会导致视频图像模糊、不连贯。

而以深度学习为代表的卷积神经网络具有更深的学习层次,能够有效的去除掉冗余数据特征,获得更高的压缩比,开发者们倾向于使用神经网络来替代以前的方法。同时,由于带宽一般很难增加,而增强算力相对容易,所以开发者们也更希望将带宽问题转化为计算问题。

基于此,nvidia 研究团队从ai维度出发,开发了一个用于视频会议软件 nvidia maxine sdk的深度学习模型vid2vid cameo,只需一张照片或卡通头像,就能合成逼真的3d人脸说话视频。

一、视频会议maxine sdk背后的ai生成模型

受疫情影响,远程协作和办公已逐渐成为不可逆转的趋势,这使得各种视频会议app下载量激增,成为打工人的标配。

为了增强用户的视频会议使用体验,nvidia推出了一套基于云的、gpu加速的 ai 视频会议软件maxine。nvidia maxine 包括三个 ai sdk:视频特效 sdk 、音频特效 sdk 和 ar sdk ,每个sdk里面都配有预训练好的深度学习模型,使开发者可以快速构建或增强其实时应用程序。

vid2vid cameo 是基于 nvidia maxine sdk 专为视频会议打造的深度学习模型之一。它使用生成式对抗网络(generative adversarial networks,gan),在一个人的真实照片或卡通头像上合成动态的3d说话视频。

用gan消除视频会议模糊,还能降低90%带宽,神奇的vid2vid cameo模型(视频会议视频模糊)

二、仅需一张照片合成逼真的3d人脸说话视频

nvidia vid2vid cameo只需两个元素:一张参考照片和一个指导图像应该如何动的视频流。其中,把上传的清晰照片作为源图像,从中获取外貌特征;然后把视频中一帧帧画面作为重构视频的依据,从中提取出面部表情和头部姿势等信息。通过这些信息,模型可以将参会者的面部动作映射到静止的照片上,进而合成视频会议上的逼真人脸说话视频。

同时,该模型基于nvidia dgx系统开发,并使用包含18万个高质量人脸说话视频的数据集进行训练。这让该网络学会了识别20个人脸关键点,而这些关键点可以在没有人工标注的情况下用来模拟面部运动,借此修正使用者在会议中低头、看两旁,而未专注于镜头方向的情况,让使用者在会议中看起来更有参与感。

在 nvidia vid2vid cameo 提供的交互式体验demo中,可以在pitch俯仰角(向下/向上)、yaw偏航角(左/右)、roll翻滚角(顺时针/逆时针)三个方向上任意旋转,每个方向上最多旋转30度。甚至眼球也可以上下左右的旋转,每个方向上最多旋转20度。

用gan消除视频会议模糊,还能降低90%带宽,神奇的vid2vid cameo模型(视频会议视频模糊)

现在点击【】试用nvidia vid2vid cameo交互式demo。

此外,nvidia vid2vid cameo还可利用 ai 从专业摄像头或智能手机拍摄的标准 2d 视频中捕捉面部动作和表情,协助动画师、照片编辑师和游戏开发者轻松制作脸部动画。

三、视频会议的网络带宽成本最高可降低90%

nvidia vid2vid cameo能够辨识脸部的20个关键点,而这些关键点可以针对包括眼睛、嘴巴和鼻子在内的位置进行编码。接着模型会从通话者的参考图片中撷取这些关键点,并将这些关键点可以提前发送给其他的视频会议参与者。

如此一来,视频会议平台只需发送参会者脸部关键点的移动情况数据,而不用在每一个与会者之间发送庞大的直播视频流。而对接收者来说,gan 模型在接收端使用这些信息合成一个模仿参考图片外观的视频内容。

由于关键点的分布十分稀疏,比全像素图像的数据量小得多,因此发送的数据要少得多。而vid2vid cameo通过来回压缩及发送头部位置和关键点,而不是完整的视频流,可以让视频会议的网络带宽成本最高可降低90%,从而提供更流畅的用户体验。同时,该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。

四、视频会议和直播软件开发团队的新pick

作为 nvidia 研究团队的重要成果之一, vid2vid cameo 将网络瓶颈问题转化为计算任务,从而借助本地或云端资源更轻松地解决此类问题。vid2vid cameo 也可用于直播软件,制作表演者说话、唱歌或移动头部的视频片段。此外,它还可减少了对高网络带宽的依赖,这不仅为提供商削减了成本,也为最终用户提供了更流畅的视频会议体验,成为视频会议和直播开发团队解决因网络所造成画面卡顿及模糊问题的新选择。

vid2vid cameo 很快将在nvidia video codec sdk中作为ai face codec推出。sdk 支持免费下载,还可与 nvidia jarvis 平台搭配用于对话式 ai 应用,包括转录和翻译;也可与3d 人体姿态估计工具协作,像notch 和 pixotope 等公司,创作者们使用 nvidia vid2vid cameo 和 3d 人体姿态估计工具,将自己的动作传输到虚拟角色,从而快速制作数字角色上的特定动作。

之后,我们还将陆续介绍 nvidia 研究团队推出的计算机视觉、深度学习模型以及有意思的交互式demo,如nvidia gaugan360,可将粗略的草图变成可用于3d场景的360度环境。

用gan消除视频会议模糊,还能降低90%带宽,神奇的vid2vid cameo模型(视频会议视频模糊)

凯发体育官方app的版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2023年4月1日 上午8:27
下一篇 2023年4月1日 上午8:37

相关推荐

  • 为进一步提高机关人员信息编报、协同平台公文系统操作水平,强化保密安全管理工作,8月12日,市妇联举办信息编报、保密工作及协同平台公文系统操作培训,培训邀请了市委办、市保密局、市政府…

    科研百科 2023年12月4日
    101
  • 政治工作打算、中心保障和举措 政治工作是党和国家工作的重要组成部分,其目的是保证党的路线方针政策得到贯彻执行,推动国家经济社会发展。在当前国际和国内形势复杂多变的情况下,我们必须坚…

    科研百科 2024年10月14日
    11
  • 5月23日,在以“探索人效革命” 为主题的apicloud新产品发布会上,apicloud对外发布了全新的it生产力工具“plus mode”,其将进一步对to b行业的it生产力…

    科研百科 2024年5月16日
    69
  • 南阳市党建研究会成立

    河南日报客户端记者 孟向东 刁良梓 3月16日,南阳市党建研究会成立大会(第一次会员代表大会)召开,大会深入学习贯彻党的二十大精神,审议通过了《南阳市党建研究会章程》,选举产生了第…

    科研百科 2023年11月3日
    183
  • 四川省高等教育学会课题结题要求 随着四川省高等教育的不断发展,四川省高等教育学会一直致力于推动高等教育事业的发展。在 recent years, the society has b…

    科研百科 2024年10月14日
    6
  • □罗克军(湖南省委机关医院党支部书记、院长) 感悟真理伟力,强化党建担当。省直机关第57期党支部书记培训示范班,培训时间不长,但主题集中,着眼岗位需要,紧盯短板补课,规范职责行为,…

    科研百科 2024年6月26日
    51
  • a library implements a collection of functions and definitions that can be used by other p…

    科研百科 2023年3月20日
    179
  •   本报讯 (李顺达 喻 博)近日,从山阳县畜牧中心了解到,“今年全县猪、牛、羊、禽的饲养量分别达到91.2万头、2.68万头、40.18万只、3600万只,肉类产量8…

    科研百科 2022年5月30日
    301
  • 在当前复杂变化的国际形势下,网络安全已成为各国必须坚守的“阵地”,大力发展网络安全技术及服务已是全球主流。再加上近期国家层面再次强调安全的重要性,把国家安全放在了更加显著的位置。由…

    科研百科 2023年5月9日
    268
  • 软件开发的历史与发展趋势1940-2024(软件开发的发展历程)

    软件开发作为信息技术领域的核心部分,其历史可以追溯到计算机技术的诞生之初。从最初的机器语言编程到现代的高级编程语言,再到敏捷开发和持续集成/持续部署(ci/cd),软件开发的历程充…

    科研百科 2024年5月21日
    95
网站地图