智东西(公众号:zhidxcom)
| ZeR0
| 漠影
智东西3月24日报道,在本周举行的英伟达GTC大会期间,英伟达(NVIDIA)首席科学家兼研究高级副总裁Bill Dally、英伟达AI研究副总裁Sanja Fidler与智东西等全球媒体进行交流,分享了NVIDIA Research的进展,并现场演示英伟达最新文生3D模型LATTE3D。
LATTE3D模型就像一台虚拟3D打印机。只需在文本框输入文字描述,在单张消费级GPU上运行,不到1秒时间,该模型就能按要求生成对应的物体和动物的几个不同的3D形状,供创建者选择,再在几分钟内优化成更高的质量。而3D形状可以随意放大、旋转,360度无死角。
“一年前,AI模型需要1小时才能生成这种质量的3D视觉效果,而目前的技术水平大约是10到12秒。”Sanja Fidler说。
现场演示了让LATTE3D生成小蛋糕、猪猪气球、踩滑板且戴着高帽子的针织鸭、踩着滑雪板并戴着聚会帽的小兔子。全程都很丝滑迅速,接近实时生成。生成的3D素材能直接导入图形软件应用程序或平台中,比如Omniverse平台。
对于开发视频游戏、广告活动、设计项目或虚拟机器人训练场地等应用来说,这都是个看起来很有吸引力的3D素材创建工具。
Bill Dally说,NVIDIA Research为未来的成功播下种子,既有登月项目,又有很多研究小组,研究方向包括GPU存储系统、编程系统、网络、架构、超大规模集成电路(VLSI)、图形、感知与学习等。这些研究塑造了英伟达的与众不同。
据Bill Dally分享,NVIDIA Research团队有三个原则:1、希望以最少的努力获得最大的回报;2、提高影响力,而不是出版物记录;3、希望与产品保持紧密的联系。
NVIDIA Research由全球数百名科学家和工程师组成,专注于AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人等主题。很多源自研究院的技术,如OptiX、CuDNN、光线追踪算法和硬件、Volta SM、Flip-Flops、NVSwitch、DLSS等,都成功转化成商业用途。
其研究团队分布在世界各地。面向3D生成式AI模型的新模型LATTE3D便是由英伟达位于加拿大多伦多的AI实验室团队研发的。该团队还研发过GANverse3D、GET3D、Magic3D、ASE、GameGAN、VideoLDM等模型。
LATTE3D使用英伟达A100 GPU进行训练,模型先生成神经3D形状,然后用图像扩散模型作为老师来对渲染图像进行反馈。除了3D形状外,该模型还接受了使用ChatGPT生成的各种文本提示词的训练,以提高模型处理用户描述特定3D对象的各种短语的能力。比如,它能理解以各种犬类为特征的提示应该都生成类似狗的形状。
当研究人员在特定的动物和日常用品数据集上训练LATTE3D时,开发人员可使用相同的模型架构在其他数据类型上训练AI。
例如,如果在3D植物数据集上进行训练,LATTE3D可帮助景观设计师在与客户进行头脑风暴时快速填充树木,开花灌木和多肉植物的花园渲染。如果对家用物品进行训练,该模型可以生成物品来填充家庭场景的3D模拟,开发人员可以用它来训练个人助理机器人,然后再在现实世界中进行测试和部署。
根据Bill Dally和Sanja Fidler的观点,现有的AI模型虽然已经能够生成高质量的3D视觉效果,但是仍然存在一些限制。他们强调,尽管NVIDIA Research已经在多个领域取得了显著成果,但仍有大量的研究和技术有待突破。
建议:
- 加大对AI技术的研究投入,特别是在深度学习和计算机视觉方面,以便在未来能够开发出更先进的AI模型。
- 提高人工智能的应用范围,例如将其应用于更多的行业领域,如医疗、教育、零售等。
- 在不断发展的科技领域推动创新,鼓励更多的科研团队投入到AI技术的研发中来。
- 完善AI模型的数据收集和预处理流程,使其更加准确、可靠。