阿里EMO模型,照片造谣易如反掌

2024-03-01 热点资讯 关注公众号
    在2月28日,阿里巴巴智能计算研究所震撼发布了全新的生成式AI模型——EMO(Emote Portrait Alive)。这款前沿科技突破之作,仅需一张人物肖像照片和一段音频输入,即可实现照片中人物栩栩如生地“开口”唱歌、讲话,其口型与音频高度同步,面部表情及头部动作更是展现出了令人惊叹的自然流畅度。
阿里EMO模型,一张照片就能造谣    EMO的强大之处不仅限于生成歌唱或说话视频,它还具备一项核心特性:在保持角色身份特征稳定性的基础上,能根据输入音频时长自适应地生成相应长度的视频。通过以下实例视频可见一斑:
阿里EMO模型,一张照片就能造谣    1. 角色:张颂文饰演的高启强;声乐来源:法律考试在线课程
阿里EMO模型,一张照片就能造谣    2. 角色:Audrey Hepburn;声乐来源:Ed Sheeran - Perfect (Samantha Harvey翻唱版)
    3. 角色:SORA的AI Lady;声乐来源:Where We Go From Here with OpenAI's Mira Murati
    4. 角色:蔡徐坤;声乐来源:Eminem - Rap God
    5. 角色:张国荣;声乐来源:陈奕迅 - Unconditional粤语版 (AI翻唱)
    EMO的工作流程分两步走,首先运用ReferenceNet从参考图像和动作帧提取关键特征信息,紧接着利用预训练的音频编码器处理声音并嵌入,同时结合多帧噪声与面部区域掩码技术生成逼真的视频。该框架创新融合了双重注意力机制和时间模块,确保生成视频中角色身份的一致性和动作过渡的自然平滑。
    简而言之,就像AI先细致观察照片,然后聆听声音,再逐帧绘制出视频中形象生动的变化画面。
    实验结果证实,EMO的表现力和真实性远超当前同类先进方法DreamTalk、Wav2Lip和SadTalker,无论是在说话视频还是歌唱视频的生成上,均展现出卓越效果。
    尽管研究团队预见EMO将大力提升数字媒体和虚拟制作的技术水平,特别是在追求极致真实感和表现力的场景应用中,但也不乏担忧之声指出,这一模型可能成为恶意使用者手中的工具。
    随着AI生成视频技术日益发展,潜在的风险也日益凸显。如同EMO这类技术,在技术报告中对滥用可能性的讨论相对较少,但实际上基于深度学习和生成模型的技术确实存在被用于制造虚假、侵犯隐私权和个人形象权等风险。
    以近期的Taylor Swift色情图片深度伪造事件为例,AI生成的伪造图片在社交媒体平台上迅速传播,引发了社会对于DeepFake技术滥用问题的高度关注。同样,DeepFake技术也在政治斗争领域造成了一定程度的混乱和误导。
    面对此类挑战,科研人员和开发者必须充分意识到潜在风险,并采取有效措施来减轻风险,例如添加水印和制定严格使用准则。目前,针对深度伪造检测的研究和应对手段正在快速推进,包括运用机器学习和深度学习技术构建检测分类系统,以及各大科技巨头推出实时检测工具,如Intel的FakeCatcher和Google的Assembler平台。
    而阿里巴巴的EMO模型则凭借超过250小时的丰富视频数据集和超过1.5亿张图像进行训练,涵盖了多语言、多种表达风格的。其独特的架构设计采用了类似Stable Diffusion的UNet结构,结合时间模块实现了直接从音频到视频的高效合成,并且在保持身份一致性、无缝帧过渡、捕捉复杂表情变化等方面表现出色。
    总之,EMO模型通过深度融合音频信号、参考图像及时间信息,成功打破了传统技术瓶颈,创造出与输入音频完美同步、表情细腻丰富的动态肖像视频,为人工智能在视觉生成领域的探索开启了新的篇章。然而,在科技进步的同时,如何有效规避DeepFake带来的风险,保障个人隐私和社会秩序,仍然是我们亟待解决的重要课题。

上一篇:李华瑞:史料学、历史文献学视域下对党项与西夏史料的异同认知述评
下一篇:学校、实务部门与家长学生面对面,南财开展“融合式”家访
更多更酷的内容分享
猜你感兴趣
EMO:阿里AI框架,让照片人物“说话”

EMO:阿里AI框架,让照片人物“说话”

阿里巴巴研究团队近日发布了一款名为“EMO”的AI框架,该框架可以将人物照片与输入的音频匹配,让照片中的人物说出相关音频。EMO基于英伟达的Audio2Video扩散模型打造,使用超过250小时的专业视频进行训练。该框架工作过程分为两个阶段,并融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。研究人员声称,EMO不仅能产生令人信服的说话视频,还能生成各种风格的歌唱视频,优于目前的竞品。

热点资讯 03.04
惊人!阿里AI图生视频模型EMO,让高启强普法、蒙拉丽莎唱歌变现实。| 钛媒体AGI

惊人!阿里AI图生视频模型EMO,让高启强普法、蒙拉丽莎唱歌变现实。| 钛媒体AGI

阿里巴巴集团智能计算研究院近日上线AI图片-音频-视频模型技术EMO,只需提供照片和音频文件,即可生成会说话唱歌的AI视频,表情到位,语音、语速、图像均可对应。EMO具有表情丰富的面部表情和各种头部姿势的声音头像视频生成能力,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等功能。该技术主要包括帧编码的初始阶段、扩散过程阶段和使用主干网络来促进去噪操作三个阶段。

热点资讯 02.29
超级GPT-4的近照:新模型曝光,引发阿尔特曼紧急辟谣

超级GPT-4的近照:新模型曝光,引发阿尔特曼紧急辟谣

OpenAI即将在12月推出新一代GPT-4强化版,据报道表现将达到顶级水平;消息人士称微软已积极筹备在Azure平台上部署 Orion 并且与 OpenAI 达成合作;同时,微软计划在未来几个月内推出一系列新的 API,覆盖搜索、视觉和语音识别等领域,挑战OpenAI GPT-4O模型。

热点资讯 10.25
阿里新技能,照片瞬间变视频!

阿里新技能,照片瞬间变视频!

阿里推出AI图片-音频-视频模型技术EMO,只需一张照片和一段音频,即可生成会说话唱歌的AI视频,最长可达1分30秒。该技术可生成表情丰富的面部表情和各种头部姿势的声音头像视频,并能根据输入视频的长度生成任意持续时间的视频。阿里紧跟市场形势,积极布局AI生成视频赛道。

热点资讯 03.01
3家公司前三季度净利润皆超18亿!A股最新排行榜:游戏股中青宝却遭遇亏损,股价涨势喜人

3家公司前三季度净利润皆超18亿!A股最新排行榜:游戏股中青宝却遭遇亏损,股价涨势喜人

这是一篇报道,详细讲述了30家A股上市游戏企业今年前三季度的营收情况。文章提到了四家公司的情况,分别是世纪华通、三七互娱和完美世界。其中,世纪华通以155.29亿元的营收居首,三七互娱以133.39亿元的营收紧随其后,完美世界则以45.14亿元的营收位列第三。此外,文章还提到游戏企业的研发支出情况,有三家公司的研发投入超过了10亿元,其中完美世界的研发支出最高,达到了13.86亿元,占比达到了34.03%。最后,文章也提及了这款游戏版号审批的数量和发放节奏,以及国内游戏市场的总体趋势。

热点资讯 11.10
提高网页浏览体验:删除沉睡账户的必要性

提高网页浏览体验:删除沉睡账户的必要性

清理银行沉睡账户行动加强监管力度,维护金融系统安全稳定。

热点资讯 11.10
最新政策解读:房价是否会继续下跌?看这几点你能得判断

最新政策解读:房价是否会继续下跌?看这几点你能得判断

财政部部长蓝佛安在会上明确了两项房地产增量政策,包括支持房地产市场健康发展的相关税收政策和专项债券支持回收闲置存量土地、新增土地储备。这些政策将进一步降低购房成本,促进楼市的活力。同时,针对下一步财政政策的取向和力度,财政部正抓紧研究明确与取消普通住宅和非普通住宅标准相衔接的增值税、土地增值税政策,并加大支持力度。此外,他还提出专项债在优化存量方面的积极作用,有助于解决城中村改造安置房领域的风险和消化现房库存或准现房库存的房源的问题,有利于提高保障性住房的供给。

热点资讯 11.10
【持仓暴增5000亿!短线炒家中不乏爆款题材!】龙虎榜老熟人扎堆的优质标的分享

【持仓暴增5000亿!短线炒家中不乏爆款题材!】龙虎榜老熟人扎堆的优质标的分享

北向资金对绩优股加大了加仓力度,尤其偏爱电力设备、食品饮料、银行、电子和医药生物等板块。此外,在牛市初期,北向资金也积极涌入了一些业绩亮眼的行业龙头股。这些股票在第三季度的表现良好,而且拥有较高的股息回报,因此成为了北向资金的宠儿。然而,也有部分权重较大的行业和个股受到北向资金减持的影响,如煤炭、有色金属和家用电器板块。在整体上看,北向资金的投资风格偏谨慎且侧重于价值投资。

热点资讯 11.10
即时响应:打造全球规模最庞大的端到端个性化超大规模模型

即时响应:打造全球规模最庞大的端到端个性化超大规模模型

国内初创公司X Square正在训练世界上最大规模的端到端统一具身大模型WALL-A。X Square是一家拥有清华背景的研究团队创立的初创公司,致力于推动具身智能的发展。据悉,该模型已超出了现有所有模型的表现水平,包括处理长序列复杂任务以及泛化性、通用性等。公司计划通过将其应用于更多的产品中,推动具身智能的持续发展。

热点资讯 11.10
腾讯云服务全球万家金融机构:汤道生谈新加坡金融科技周

或者

探索金融科技的新高度:汤道生视角下的新加坡金融科技周与腾讯云服务全球万店金融机构的解析

腾讯云服务全球万家金融机构:汤道生谈新加坡金融科技周 或者 探索金融科技的新高度:汤道生视角下的新加坡金融科技周与腾讯云服务全球万店金融机构的解析

11月6日至8日,全球金融科技节在新加坡举行。腾讯高管汤道生与MAS首席金融科技官莫汉蒂深入探讨了云与AI助力金融创新等话题,并分享了其在全球金融市场的服务经验。他们认为,通过全球化的云基础设施、全场景的企业软件和适配标准化的硬件架构,腾讯云可以助力全球企业降低金融服务运营成本。腾讯混元大模型还可以帮助金融机构提高运营效率、增强安全性,助力金融产品和业务创新。未来,腾讯将继续探索云与AI在金融科技领域的应用。

热点资讯 11.10
揭秘直播间的“非法荐股”陷阱:如何避免被诈骗的网络投资策略分享

揭秘直播间的“非法荐股”陷阱:如何避免被诈骗的网络投资策略分享

该段文字的主要信息是近期国内股市的活跃和部分投资者的关注点。此外,文章也指出了一些财经主播的行为问题,如涉嫌违规荐股并遭到封禁。这段文字强调了非法荐股对投资者的危害,并呼吁加强对直播间的监管,保护投资者权益。

热点资讯 11.10
谷歌Vids上线:AI帮你写剪片,寻找最优质的素材

谷歌Vids上线:AI帮你写剪片,寻找最优质的素材

谷歌公司推出Google Vids应用,用于客户服务、公司公告、员工培训、市场营销和项目管理等领域,通过Gemini大模型帮助用户快速生成故事板。

热点资讯 11.10
字节跳动新技术上线,让你轻松掌握情绪调节技巧

字节跳动新技术上线,让你轻松掌握情绪调节技巧

"精准表达面部表情细节,实现轻松生成高质量短视频"的方向发展。字节跳动推出X-Portrait 2单图视频驱动技术,只需一张静态图片和一段驱动视频,即可生成高质量、电影级的视频片段,具有高精确度和真实感,有助于提升影视作品的观赏性和情感共鸣。同时,借助深度学习和神经网络的技术,该技术还能够根据表情编码器模型和生成扩散模型来捕捉到驱动视频中演员的细微表情,使视频画面更加生动丰富。这项技术的成功应用,无疑将推动肖像生成技术向前迈进。

热点资讯 11.10
爱立信视角:移动通信行业如何破局,向差异化发展迈进?

爱立信视角:移动通信行业如何破局,向差异化发展迈进?

大幅提高。对此,王浩博提出了建议,即寻求深度差异化服务,进入良性循环。 首先,王浩博指出,随着5G网络基础设施的发展和规模效应的显现,运营商可以通过提供不同层次的服务满足用户多样化的需求。其次,他建议运营商之间开展合作,共享资源和技术,以提高整体效率和竞争力。此外,他还强调了网络能力和开放的重要性,认为只有通过开放,才能推动不同用户体验和多样化性能需求的实现。 总的来说,王浩博对于当前5G发展的困境及其解决方案给出了深刻的见解和建设性的建议,对于推动全球移动通信服务市场的健康发展具有重要意义。

热点资讯 11.10