谷歌的AI工具画像允许您生成高分辨率的视频从一个文本提示|科技时代万博体育登录首页

华金维克多Tacla,科万博体育登录首页技时代2022年10月07,12:10

AI-generated艺术品最近一直在上升。工具,如DALL-E、MidJourney和稳定的扩散已经改变景观的艺术,随着越来越多的人可以生成数字艺术作品与纯粹的文本提示。

但是如果这种text-to-image代趋势水平视频?如果类型提示:“牛跳过月亮”,并获得运动片段文本?

也许我们可以更史诗的“飞行通过海盗船在汹涌的大海之间的一场激烈的战斗。”

多亏了谷歌的video-generating AI工具,这些提示现在可以转换为电影。

很高兴能释放# ImagenVideo今天!惊人的工作与一个了不起的团队!https://t.co/Cdv8hKCGGk

高保真文本视频与扩散模型:“飞越海盗船在汹涌的大海之间的一场激烈的战斗。”https://t.co/0uxNTIoiFY pic.twitter.com/M3lAQPJG1K
——蒂姆Salimans (@TimSalimans)2022年10月5日

画像的视频

谷歌的画像的视频,text-to-video生成人工智能模型,可以从文本输入创建高清视频,只有在10月5日宣布。

text-conditioned视频扩散模型能产生最大分辨率的视频的帧率1280768 24 fps,首次报道了VentureBeat。

在其最近发布的论文画像,“视频:高清晰度与扩散模型生成,“谷歌表示,画像视频有一个高度的可控性和世界知识和能产生与高保真的视频。

生成模型可以产生各种各样的动画电影和文本在不同的审美风格,诠释3 d,渲染和动画文本。模型已经在研究阶段,但其介绍的五个月,画像强调了快速发展的综合模型。

画像视频包含一个交错时空超分辨率扩散模型中,一个基本的视频扩散模型和一个文本编码器(冷冻T5-XXL)。根据谷歌,这个设计是创建使用获得的知识从过去的研究diffusion-based图像生成。

研究团队还包含进步蒸馏快速,高质量的抽样到视频模式分类器的没有方向。

text-conditional视频生产、空间超分辨率和时间进行视频的超分辨率功能生成框架通过级联七sub-video扩散模型。

整个级联生产高清1280768电影24帧每秒128帧或约1.26亿像素。

在模型的许多令人印象深刻的创新技能的能力创建视频受到知名艺术家像梵高的画作,显示旋转的物体在3 d的同时保持它们的结构,并呈现文本不同的动画风格。

兴奋地宣布画像视频,我们的新text-conditioned视频扩散模型,生成1280 x768 24 fps高清视频!# ImagenVideo https://t.co/JWj3L7MpBU
w /工作@wchan212 @Chitwan_Saharia @jaywhang_@RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I
——乔纳森·何(@hojonathanho)2022年10月5日