阿里EMO模型,照片造谣易如反掌

2024-03-01 热点资讯 关注公众号
    在2月28日,阿里巴巴智能计算研究所震撼发布了全新的生成式AI模型——EMO(Emote Portrait Alive)。这款前沿科技突破之作,仅需一张人物肖像照片和一段音频输入,即可实现照片中人物栩栩如生地“开口”唱歌、讲话,其口型与音频高度同步,面部表情及头部动作更是展现出了令人惊叹的自然流畅度。
阿里EMO模型,一张照片就能造谣    EMO的强大之处不仅限于生成歌唱或说话视频,它还具备一项核心特性:在保持角色身份特征稳定性的基础上,能根据输入音频时长自适应地生成相应长度的视频。通过以下实例视频可见一斑:
阿里EMO模型,一张照片就能造谣    1. 角色:张颂文饰演的高启强;声乐来源:法律考试在线课程
阿里EMO模型,一张照片就能造谣    2. 角色:Audrey Hepburn;声乐来源:Ed Sheeran - Perfect (Samantha Harvey翻唱版)
    3. 角色:SORA的AI Lady;声乐来源:Where We Go From Here with OpenAI's Mira Murati
    4. 角色:蔡徐坤;声乐来源:Eminem - Rap God
    5. 角色:张国荣;声乐来源:陈奕迅 - Unconditional粤语版 (AI翻唱)
    EMO的工作流程分两步走,首先运用ReferenceNet从参考图像和动作帧提取关键特征信息,紧接着利用预训练的音频编码器处理声音并嵌入,同时结合多帧噪声与面部区域掩码技术生成逼真的视频。该框架创新融合了双重注意力机制和时间模块,确保生成视频中角色身份的一致性和动作过渡的自然平滑。
    简而言之,就像AI先细致观察照片,然后聆听声音,再逐帧绘制出视频中形象生动的变化画面。
    实验结果证实,EMO的表现力和真实性远超当前同类先进方法DreamTalk、Wav2Lip和SadTalker,无论是在说话视频还是歌唱视频的生成上,均展现出卓越效果。
    尽管研究团队预见EMO将大力提升数字媒体和虚拟制作的技术水平,特别是在追求极致真实感和表现力的场景应用中,但也不乏担忧之声指出,这一模型可能成为恶意使用者手中的工具。
    随着AI生成视频技术日益发展,潜在的风险也日益凸显。如同EMO这类技术,在技术报告中对滥用可能性的讨论相对较少,但实际上基于深度学习和生成模型的技术确实存在被用于制造虚假、侵犯隐私权和个人形象权等风险。
    以近期的Taylor Swift色情图片深度伪造事件为例,AI生成的伪造图片在社交媒体平台上迅速传播,引发了社会对于DeepFake技术滥用问题的高度关注。同样,DeepFake技术也在政治斗争领域造成了一定程度的混乱和误导。
    面对此类挑战,科研人员和开发者必须充分意识到潜在风险,并采取有效措施来减轻风险,例如添加水印和制定严格使用准则。目前,针对深度伪造检测的研究和应对手段正在快速推进,包括运用机器学习和深度学习技术构建检测分类系统,以及各大科技巨头推出实时检测工具,如Intel的FakeCatcher和Google的Assembler平台。
    而阿里巴巴的EMO模型则凭借超过250小时的丰富视频数据集和超过1.5亿张图像进行训练,涵盖了多语言、多种表达风格的。其独特的架构设计采用了类似Stable Diffusion的UNet结构,结合时间模块实现了直接从音频到视频的高效合成,并且在保持身份一致性、无缝帧过渡、捕捉复杂表情变化等方面表现出色。
    总之,EMO模型通过深度融合音频信号、参考图像及时间信息,成功打破了传统技术瓶颈,创造出与输入音频完美同步、表情细腻丰富的动态肖像视频,为人工智能在视觉生成领域的探索开启了新的篇章。然而,在科技进步的同时,如何有效规避DeepFake带来的风险,保障个人隐私和社会秩序,仍然是我们亟待解决的重要课题。

上一篇:李华瑞:史料学、历史文献学视域下对党项与西夏史料的异同认知述评
下一篇:学校、实务部门与家长学生面对面,南财开展“融合式”家访
更多更酷的内容分享
猜你感兴趣
EMO:阿里AI框架,让照片人物“说话”

EMO:阿里AI框架,让照片人物“说话”

阿里巴巴研究团队近日发布了一款名为“EMO”的AI框架,该框架可以将人物照片与输入的音频匹配,让照片中的人物说出相关音频。EMO基于英伟达的Audio2Video扩散模型打造,使用超过250小时的专业视频进行训练。该框架工作过程分为两个阶段,并融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。研究人员声称,EMO不仅能产生令人信服的说话视频,还能生成各种风格的歌唱视频,优于目前的竞品。

热点资讯 03.04
惊人!阿里AI图生视频模型EMO,让高启强普法、蒙拉丽莎唱歌变现实。| 钛媒体AGI

惊人!阿里AI图生视频模型EMO,让高启强普法、蒙拉丽莎唱歌变现实。| 钛媒体AGI

阿里巴巴集团智能计算研究院近日上线AI图片-音频-视频模型技术EMO,只需提供照片和音频文件,即可生成会说话唱歌的AI视频,表情到位,语音、语速、图像均可对应。EMO具有表情丰富的面部表情和各种头部姿势的声音头像视频生成能力,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等功能。该技术主要包括帧编码的初始阶段、扩散过程阶段和使用主干网络来促进去噪操作三个阶段。

热点资讯 02.29
超级GPT-4的近照:新模型曝光,引发阿尔特曼紧急辟谣

超级GPT-4的近照:新模型曝光,引发阿尔特曼紧急辟谣

OpenAI即将在12月推出新一代GPT-4强化版,据报道表现将达到顶级水平;消息人士称微软已积极筹备在Azure平台上部署 Orion 并且与 OpenAI 达成合作;同时,微软计划在未来几个月内推出一系列新的 API,覆盖搜索、视觉和语音识别等领域,挑战OpenAI GPT-4O模型。

热点资讯 10.25
阿里新技能,照片瞬间变视频!

阿里新技能,照片瞬间变视频!

阿里推出AI图片-音频-视频模型技术EMO,只需一张照片和一段音频,即可生成会说话唱歌的AI视频,最长可达1分30秒。该技术可生成表情丰富的面部表情和各种头部姿势的声音头像视频,并能根据输入视频的长度生成任意持续时间的视频。阿里紧跟市场形势,积极布局AI生成视频赛道。

热点资讯 03.01
特斯拉CEO马斯克可能面临一项调查,与他的政治立场有关

特斯拉CEO马斯克可能面临一项调查,与他的政治立场有关

特朗普即将重返白宫时,马斯克成了最大受益者之一。然而,由于他的激进作风,特朗普对他充满疑虑,并将其视为潜在的政治对手。马斯克的行为导致了与中国古人的变法运动相似的举动——大规模削减政府开支。此消息引起了激烈的争论和批评。同时,他的行为也使台湾地区的政治评论家邱毅对其产生了质疑。总之,尽管马斯克成为了受益者之一,但其激进的行为和决策可能会引起政治动荡和分裂。

热点资讯 11.23
特朗普组阁再次遭遇挫折,‘二号关键职位’的候选者迎来滑铁卢?

特朗普组阁再次遭遇挫折,‘二号关键职位’的候选者迎来滑铁卢?

特朗普任命佛罗里达州前总检察长马特·盖茨为司法部长,但这并不意味着他的退出就能解决组阁难题。据透露,盖茨在遭到司法部和众议院道德委员会调查之后,最终选择了放弃提名。此外,其他参议员候选人也有不少污点,这使得特朗普面临的挑战仍然严峻。虽然盖茨退出了司法部长的提名,但他可能还会继续影响其他重要职位的提名。作为社交媒体巨头,腾讯混元大模型使用多种方法来生成文本,包括自然语言处理、语义分析等技术。这种人工智能模型可以帮助我们理解复杂的文本内容,并从中提取关键信息。

热点资讯 11.23
魔兽世界硬核模式全面来袭:全服吃席通知已正式开启,来挑战你的战斗力极限吧!

魔兽世界硬核模式全面来袭:全服吃席通知已正式开启,来挑战你的战斗力极限吧!

"魔兽世界全服吃席通知模式开启后需在聊天设置中打勾:.data_color_scheme_dark{--weui-BTN-ACTIVE-Mask: rgba(255, 255, 255, .1)}.data_color_scheme_dark{--weui-BTN-DEFAULT-ACTIVE-BG: rgba(255, 255, 255, .126)}.data_color_scheme_dark{--weui-DIALOG-LINE-COLOR: rgba(255, 255, 255, .1)}.data_color_scheme_dark{--weui-BG-COLOR-ACTIVE: #373737}.data_color_scheme_dark{--weui-BG-6: rgba(255, 255, 255, .1);--weui-ACTIVE-MASK: rgba(255, 255, 255, .1)}.data_color_scheme_dark{--weui-BG-0: #111;--weui-BG-1: #1e1e1e;--weui-BG-5: #2c2c2c;--weui-RED: #fa5151;--weui-ORangered: #ff6146;--weui-ORANGE: #c87d2f;--weui-YELLOW: #cc9c00;--weui-Green: #74a800;--weui-LIGHTGREEN: #3eb575;--weui-BRAND: #07c160;--weui-BLUE: #10aeff;--weui-INDigo: #1196ff;--weui-PURPLE: #8183ff;--weui-LINK: #7d90a9;--weui-TEXTGREEN:

热点资讯 11.23
热烈庆祝!《S14总决赛》创收视峰值5000万,中国观众占比逾八成

热烈庆祝!《S14总决赛》创收视峰值5000万,中国观众占比逾八成

拳头游戏计划2025年英雄联盟赛事,中国大陆再次成为收视焦点。2024全球总决赛观众峰值5000万人,本土观众贡献最多,突破纪录。虽然总体胜率有所下降,但在疫情期间和EDG夺冠背景下,电竞热度不减。未来英雄联盟赛事有望吸引更多观众关注。

热点资讯 11.23
特鲁多宣布:中国企业将在墨西哥建立工厂!墨西哥总统:北美首个本土制造厂位于加州

特鲁多宣布:中国企业将在墨西哥建立工厂!墨西哥总统:北美首个本土制造厂位于加州

加拿大政府近日频附和特朗普的贸易政策,并声称对在中国在墨西哥投资感到“担忧”,同时呼吁特鲁多与美国达成一项双边贸易协议,把墨西哥排除在外。这引起广泛关注,因为汽车行业是中美两国最大的贸易领域之一,贸易战可能对双方造成影响。

热点资讯 11.23
王传福亲自赠送30辆仰望U8给90位幸运锦鲤,祝贺您的网购之路一帆风顺!

王传福亲自赠送30辆仰望U8给90位幸运锦鲤,祝贺您的网购之路一帆风顺!

比亚迪汽车宣布举办30周年庆典,同时抽出60位车主和30名员工获得仰望U8、腾势Z9 GT以及方程豹豹8三款车型终身免费使用权。王传福将在深圳总部为获奖者交付新车钥匙。

热点资讯 11.23
2021年全球汽车市场排行榜:哪些车企全年表现不佳?- 一句话点评

2021年全球汽车市场排行榜:哪些车企全年表现不佳?- 一句话点评

的。汽车市场依然呈现出了增长趋势,尤其是新能源领域的表现,各自主企业和合资企业在市场占有率方面都有所提升,而特斯拉由于受到其他因素的影响,其销售表现并不理想。本文主要分析了10月份狭义乘用车批发销量的变化情况,以及各大自主和合资企业的表现和趋势。

热点资讯 11.23
蔚来换电冷清无人问津,奇瑞依靠固态电池弯道超车,中国电动汽车再创辉煌!

蔚来换电冷清无人问津,奇瑞依靠固态电池弯道超车,中国电动汽车再创辉煌!

固态电池将是未来新能源车的重要发展趋势。然而,其安全性和生产成本等问题还需解决。据报道,一块搭载固态电池的电动汽车在被切块后仍能正常工作,并有望在2026年上市,预计其纯电续航将达到1500km。尽管如此,固态电池的成本仍较高,且良品率还需提高。对于蔚来的蔚来ET7车型,其搭载的正是全固态电池。

热点资讯 11.23
天弘余额宝投资价值增长放缓:富裕人群流失严重?

天弘余额宝投资价值增长放缓:富裕人群流失严重?

天弘余额宝曾经作为最大的货币基金之一,在2018年开启混合策略,后来逐渐减弱吸引力,至2024年夏天达到最高份额1.95亿份,占比仅为0.03%。同时,与其他货币基金相比,天弘余额宝的收益表现也有所下滑,其7日年化收益已经从历史高峰降至1.31%。 尽管如此,天弘基金在非货基金领域仍然面临挑战。数据显示,目前管理规模超过10亿元的基金经理非常稀少,且在非货基金市场的表现糟糕。 为了提高非货基金的表现,天弘基金将加大培养知名基金经理的努力。事实上,早在成立之初,黄辰立和韩歆毅都是公司的创始人之一,曾共同创立了天弘余额宝。在此之后,两者的关系一度变得复杂,特别是在蚂蚁集团发生合并后,人们对天弘基金的未来持谨慎态度。 近年来,天弘余额宝遭遇了一些挑战,包括如何保持竞争力以及吸引更多的投资者。最近,该公司发布了一项重要信息,即原董事长韩歆毅因为工作原因离职,由黄辰立接替担任公司的新一任董事长。 值得关注的是,黄辰立与韩歆毅均出生于蚂蚁集团(原“蚂蚁金服”),这显示了他们在这家公司内部的密切联系和相互依赖。对于天弘基金来说,接下来的挑战可能会更为复杂和充满不确定性。

热点资讯 11.23
国君集团与海通证券达成合并重组协议,百亿元资金注入重要领域

国君集团与海通证券达成合并重组协议,百亿元资金注入重要领域

国泰君安、海通证券合并重组进度显著,前者吸收后者后,拟募集不超过100亿元配套资金。该交易或将在年底前完成,这标志着中国资本市场史上最快的大规模并购案例。此次收购有望使两公司更快地扩大市场份额,提高在证券市场的竞争力。然而,跨国并购还面临各种挑战,如文化融合、组织结构调整、人员安置和业务协同等。此外,证监会已经批准了该交易,这也表明监管层对此交易持开放态度。这一过程表明,随着中国资本市场的发展,大型金融机构之间的并购交易将会更加频繁。

热点资讯 11.23