阿里EMO模型，照片造谣易如反掌

2024-03-01 热点资讯关注公众号

在2月28日，阿里巴巴智能计算研究所震撼发布了全新的生成式AI模型——EMO（Emote Portrait Alive）。这款前沿科技突破之作，仅需一张人物肖像照片和一段音频输入，即可实现照片中人物栩栩如生地“开口”唱歌、讲话，其口型与音频高度同步，面部表情及头部动作更是展现出了令人惊叹的自然流畅度。
阿里EMO模型，一张照片就能造谣

EMO的强大之处不仅限于生成歌唱或说话视频，它还具备一项核心特性：在保持角色身份特征稳定性的基础上，能根据输入音频时长自适应地生成相应长度的视频。通过以下实例视频可见一斑：
阿里EMO模型，一张照片就能造谣

1. 角色：张颂文饰演的高启强；声乐来源：法律考试在线课程
阿里EMO模型，一张照片就能造谣

    2. 角色：Audrey Hepburn；声乐来源：Ed Sheeran - Perfect (Samantha Harvey翻唱版)
    3. 角色：SORA的AI Lady；声乐来源：Where We Go From Here with OpenAI's Mira Murati
    4. 角色：蔡徐坤；声乐来源：Eminem - Rap God
    5. 角色：张国荣；声乐来源：陈奕迅 - Unconditional粤语版 (AI翻唱)
    EMO的工作流程分两步走，首先运用ReferenceNet从参考图像和动作帧提取关键特征信息，紧接着利用预训练的音频编码器处理声音并嵌入，同时结合多帧噪声与面部区域掩码技术生成逼真的视频。该框架创新融合了双重注意力机制和时间模块，确保生成视频中角色身份的一致性和动作过渡的自然平滑。
    简而言之，就像AI先细致观察照片，然后聆听声音，再逐帧绘制出视频中形象生动的变化画面。
    实验结果证实，EMO的表现力和真实性远超当前同类先进方法DreamTalk、Wav2Lip和SadTalker，无论是在说话视频还是歌唱视频的生成上，均展现出卓越效果。
    尽管研究团队预见EMO将大力提升数字媒体和虚拟制作的技术水平，特别是在追求极致真实感和表现力的场景应用中，但也不乏担忧之声指出，这一模型可能成为恶意使用者手中的工具。
    随着AI生成视频技术日益发展，潜在的风险也日益凸显。如同EMO这类技术，在技术报告中对滥用可能性的讨论相对较少，但实际上基于深度学习和生成模型的技术确实存在被用于制造虚假、侵犯隐私权和个人形象权等风险。
    以近期的Taylor Swift色情图片深度伪造事件为例，AI生成的伪造图片在社交媒体平台上迅速传播，引发了社会对于DeepFake技术滥用问题的高度关注。同样，DeepFake技术也在政治斗争领域造成了一定程度的混乱和误导。
    面对此类挑战，科研人员和开发者必须充分意识到潜在风险，并采取有效措施来减轻风险，例如添加水印和制定严格使用准则。目前，针对深度伪造检测的研究和应对手段正在快速推进，包括运用机器学习和深度学习技术构建检测分类系统，以及各大科技巨头推出实时检测工具，如Intel的FakeCatcher和Google的Assembler平台。
    而阿里巴巴的EMO模型则凭借超过250小时的丰富视频数据集和超过1.5亿张图像进行训练，涵盖了多语言、多种表达风格的。其独特的架构设计采用了类似Stable Diffusion的UNet结构，结合时间模块实现了直接从音频到视频的高效合成，并且在保持身份一致性、无缝帧过渡、捕捉复杂表情变化等方面表现出色。
    总之，EMO模型通过深度融合音频信号、参考图像及时间信息，成功打破了传统技术瓶颈，创造出与输入音频完美同步、表情细腻丰富的动态肖像视频，为人工智能在视觉生成领域的探索开启了新的篇章。然而，在科技进步的同时，如何有效规避DeepFake带来的风险，保障个人隐私和社会秩序，仍然是我们亟待解决的重要课题。

上一篇:李华瑞：史料学、历史文献学视域下对党项与西夏史料的异同认知述评
下一篇:学校、实务部门与家长学生面对面，南财开展“融合式”家访

更多更酷的内容分享

猜你感兴趣

EMO：阿里AI框架，让照片人物“说话”

阿里巴巴研究团队近日发布了一款名为“EMO”的AI框架，该框架可以将人物照片与输入的音频匹配，让照片中的人物说出相关音频。EMO基于英伟达的Audio2Video扩散模型打造，使用超过250小时的专业视频进行训练。该框架工作过程分为两个阶段，并融合了两种注意机制和时间模块，以确保视频中角色身份的一致性和动作的自然流畅。研究人员声称，EMO不仅能产生令人信服的说话视频，还能生成各种风格的歌唱视频，优于目前的竞品。

热点资讯 03.04

惊人！阿里AI图生视频模型EMO，让高启强普法、蒙拉丽莎唱歌变现实。| 钛媒体AGI

阿里巴巴集团智能计算研究院近日上线AI图片-音频-视频模型技术EMO，只需提供照片和音频文件，即可生成会说话唱歌的AI视频，表情到位，语音、语速、图像均可对应。EMO具有表情丰富的面部表情和各种头部姿势的声音头像视频生成能力，支持多种语言和肖像风格，快速节奏同步，跨演员表现转换等功能。该技术主要包括帧编码的初始阶段、扩散过程阶段和使用主干网络来促进去噪操作三个阶段。

热点资讯 02.29

超级GPT-4的近照：新模型曝光，引发阿尔特曼紧急辟谣

OpenAI即将在12月推出新一代GPT-4强化版，据报道表现将达到顶级水平；消息人士称微软已积极筹备在Azure平台上部署 Orion 并且与 OpenAI 达成合作；同时，微软计划在未来几个月内推出一系列新的 API，覆盖搜索、视觉和语音识别等领域，挑战OpenAI GPT-4O模型。

热点资讯 10.25

阿里新技能，照片瞬间变视频！

阿里推出AI图片-音频-视频模型技术EMO，只需一张照片和一段音频，即可生成会说话唱歌的AI视频，最长可达1分30秒。该技术可生成表情丰富的面部表情和各种头部姿势的声音头像视频，并能根据输入视频的长度生成任意持续时间的视频。阿里紧跟市场形势，积极布局AI生成视频赛道。

热点资讯 03.01

特斯拉CEO马斯克可能面临一项调查，与他的政治立场有关

特朗普即将重返白宫时，马斯克成了最大受益者之一。然而，由于他的激进作风，特朗普对他充满疑虑，并将其视为潜在的政治对手。马斯克的行为导致了与中国古人的变法运动相似的举动——大规模削减政府开支。此消息引起了激烈的争论和批评。同时，他的行为也使台湾地区的政治评论家邱毅对其产生了质疑。总之，尽管马斯克成为了受益者之一，但其激进的行为和决策可能会引起政治动荡和分裂。

热点资讯 11.23

特朗普组阁再次遭遇挫折，‘二号关键职位’的候选者迎来滑铁卢？

特朗普任命佛罗里达州前总检察长马特·盖茨为司法部长，但这并不意味着他的退出就能解决组阁难题。据透露，盖茨在遭到司法部和众议院道德委员会调查之后，最终选择了放弃提名。此外，其他参议员候选人也有不少污点，这使得特朗普面临的挑战仍然严峻。虽然盖茨退出了司法部长的提名，但他可能还会继续影响其他重要职位的提名。作为社交媒体巨头，腾讯混元大模型使用多种方法来生成文本，包括自然语言处理、语义分析等技术。这种人工智能模型可以帮助我们理解复杂的文本内容，并从中提取关键信息。

热点资讯 11.23

魔兽世界硬核模式全面来袭：全服吃席通知已正式开启，来挑战你的战斗力极限吧！

"魔兽世界全服吃席通知模式开启后需在聊天设置中打勾：.data_color_scheme_dark{--weui-BTN-ACTIVE-Mask: rgba(255, 255, 255, .1)}.data_color_scheme_dark{--weui-BTN-DEFAULT-ACTIVE-BG: rgba(255, 255, 255, .126)}.data_color_scheme_dark{--weui-DIALOG-LINE-COLOR: rgba(255, 255, 255, .1)}.data_color_scheme_dark{--weui-BG-COLOR-ACTIVE: #373737}.data_color_scheme_dark{--weui-BG-6: rgba(255, 255, 255, .1);--weui-ACTIVE-MASK: rgba(255, 255, 255, .1)}.data_color_scheme_dark{--weui-BG-0: #111;--weui-BG-1: #1e1e1e;--weui-BG-5: #2c2c2c;--weui-RED: #fa5151;--weui-ORangered: #ff6146;--weui-ORANGE: #c87d2f;--weui-YELLOW: #cc9c00;--weui-Green: #74a800;--weui-LIGHTGREEN: #3eb575;--weui-BRAND: #07c160;--weui-BLUE: #10aeff;--weui-INDigo: #1196ff;--weui-PURPLE: #8183ff;--weui-LINK: #7d90a9;--weui-TEXTGREEN:

热点资讯 11.23

热烈庆祝！《S14总决赛》创收视峰值5000万，中国观众占比逾八成

拳头游戏计划2025年英雄联盟赛事，中国大陆再次成为收视焦点。2024全球总决赛观众峰值5000万人，本土观众贡献最多，突破纪录。虽然总体胜率有所下降，但在疫情期间和EDG夺冠背景下，电竞热度不减。未来英雄联盟赛事有望吸引更多观众关注。

热点资讯 11.23

特鲁多宣布：中国企业将在墨西哥建立工厂！墨西哥总统：北美首个本土制造厂位于加州

加拿大政府近日频附和特朗普的贸易政策，并声称对在中国在墨西哥投资感到“担忧”，同时呼吁特鲁多与美国达成一项双边贸易协议，把墨西哥排除在外。这引起广泛关注，因为汽车行业是中美两国最大的贸易领域之一，贸易战可能对双方造成影响。

热点资讯 11.23

王传福亲自赠送30辆仰望U8给90位幸运锦鲤，祝贺您的网购之路一帆风顺！

比亚迪汽车宣布举办30周年庆典，同时抽出60位车主和30名员工获得仰望U8、腾势Z9 GT以及方程豹豹8三款车型终身免费使用权。王传福将在深圳总部为获奖者交付新车钥匙。

热点资讯 11.23

2021年全球汽车市场排行榜:哪些车企全年表现不佳？- 一句话点评

的。汽车市场依然呈现出了增长趋势，尤其是新能源领域的表现，各自主企业和合资企业在市场占有率方面都有所提升，而特斯拉由于受到其他因素的影响，其销售表现并不理想。本文主要分析了10月份狭义乘用车批发销量的变化情况，以及各大自主和合资企业的表现和趋势。

热点资讯 11.23

蔚来换电冷清无人问津，奇瑞依靠固态电池弯道超车，中国电动汽车再创辉煌！

固态电池将是未来新能源车的重要发展趋势。然而，其安全性和生产成本等问题还需解决。据报道，一块搭载固态电池的电动汽车在被切块后仍能正常工作，并有望在2026年上市，预计其纯电续航将达到1500km。尽管如此，固态电池的成本仍较高，且良品率还需提高。对于蔚来的蔚来ET7车型，其搭载的正是全固态电池。

热点资讯 11.23

天弘余额宝投资价值增长放缓：富裕人群流失严重?

天弘余额宝曾经作为最大的货币基金之一，在2018年开启混合策略，后来逐渐减弱吸引力，至2024年夏天达到最高份额1.95亿份，占比仅为0.03%。同时，与其他货币基金相比，天弘余额宝的收益表现也有所下滑，其7日年化收益已经从历史高峰降至1.31%。尽管如此，天弘基金在非货基金领域仍然面临挑战。数据显示，目前管理规模超过10亿元的基金经理非常稀少，且在非货基金市场的表现糟糕。为了提高非货基金的表现，天弘基金将加大培养知名基金经理的努力。事实上，早在成立之初，黄辰立和韩歆毅都是公司的创始人之一，曾共同创立了天弘余额宝。在此之后，两者的关系一度变得复杂，特别是在蚂蚁集团发生合并后，人们对天弘基金的未来持谨慎态度。近年来，天弘余额宝遭遇了一些挑战，包括如何保持竞争力以及吸引更多的投资者。最近，该公司发布了一项重要信息，即原董事长韩歆毅因为工作原因离职，由黄辰立接替担任公司的新一任董事长。值得关注的是，黄辰立与韩歆毅均出生于蚂蚁集团（原“蚂蚁金服”），这显示了他们在这家公司内部的密切联系和相互依赖。对于天弘基金来说，接下来的挑战可能会更为复杂和充满不确定性。

热点资讯 11.23

国君集团与海通证券达成合并重组协议，百亿元资金注入重要领域

国泰君安、海通证券合并重组进度显著，前者吸收后者后，拟募集不超过100亿元配套资金。该交易或将在年底前完成，这标志着中国资本市场史上最快的大规模并购案例。此次收购有望使两公司更快地扩大市场份额，提高在证券市场的竞争力。然而，跨国并购还面临各种挑战，如文化融合、组织结构调整、人员安置和业务协同等。此外，证监会已经批准了该交易，这也表明监管层对此交易持开放态度。这一过程表明，随着中国资本市场的发展，大型金融机构之间的并购交易将会更加频繁。

热点资讯 11.23