当我还在跟chatgpt聊天时,aigc圈子里已经刷起了新玩意儿。
ai生成的乔布斯,仿佛从画中醒来,对着镜头侃侃而谈chatgpt,嗓音也颇似原声。
据作者“汗青”介绍,视频中的文案选自于他与chatgpt的对话,乔布斯的形象由ai作图工具midjourney生成,ai拟声工具elevenlabs提供了嗓音复刻,最后通过工具d-id将图像转为视频。
借助类似的ai工具,网友用“魔法”生成的纸片人都能动起来了,甚至还能轻松创造一个自己的数字分身。
aigc降低了创作门槛,越来越多的人正试图让ai参与内容创作,从文案、录制到配音、剪辑,几乎可以让ai全包了。据国外商业咨询机构acumen research and consulting预测,若考虑下一代互联网对内容需求的迅速提升,2030年aigc市场规模将达到1100亿美元。
近年来,ai对话、ai绘画、ai语音技术其实都有一定的发展,而相对来说,视频领域的ai模型研发和应用才起步不久。像d-id这样仅需一张静态图片就能创建虚拟人视频的技术,属实令人惊奇。
图源:国泰君安证券研究
目前国内外有哪些ai视频创作工具?ai又将给视频内容生产和交互体验带来什么改变?本文对此进行了盘点和分析。
01 ai拼接素材,套上模板秒出视频
一般视频创作包括这些环节:写脚本/文案,拍摄视频或寻找第三方素材,剪辑素材,配音,配乐,添加转场、特效、字幕、标题、封面图等。
其中,ai现在已经可以辅助完成很多任务了,比如图文智能匹配视频素材、ai自动剪辑、ai抠像、ai换脸、画质优化修复。
“图文成片”的功能在各平台推出的剪辑应用中十分常见,抖音的剪映、快手的快影、百度的百家号、b站的必剪都支持根据文案,一键拼接图片和视频素材,并同步生成字幕和配音。
输入的文案可以参考ai助手的回答。举个例子,“养猫会对一个人产生什么影响”,chatgpt回答说养猫能减压缓解焦虑、增强社交能力、提高心理健康、增加运动量,我们可以在此基础上进行修改再导入剪映。
剪映不到一分钟就自动生成了视频,画面跟文案内容基本符合。如果对素材不满意,比如想把静态图片换成视频,可以到在线素材库中搜索更合适的进行替换。
值得注意的是,这些素材往往来源于网络或第三方服务,比如免尊龙凯时ag旗舰厅的版权图库unsplash、pexels,ai剪辑应用所做的是通过ai和机器学习对文案进行语义分析,分镜头处理,智能匹配相应的画面。
因此,一键图文成片对创作者最大的帮助是节省搜集素材的时间,减少人工剪辑劳动量,通过自动化、模板化的方式提高视频生产效率。
类似的视频自动剪辑工具还有“lumen5”,主打长图文转视频,提供了大量视频模板,操作上门槛更低,像制作ppt一样拖曳文字即可转成画面。lumen5自2017年推出至今,尊龙凯时ag旗舰厅官网介绍已有超100万家企业客户将其作用于社交媒体营销和传播。
图源lumen5
“vidyo”出自于印度的ai初创团队,支持长视频转短视频,通过ai语音识别技术可以从素材中自动剪辑出精彩片段,适用于直播视频切片、播客剪辑,不过目前视频语言仅支持英文。
尽管目前视频创作软件的ai功能以文字匹配视频素材为主,但之后可能会加入更多aigc工具。
例如海外的ai视频工具“fliki”,擅长短图文转视频,输入twitter等博客链接即可快速生成短视频,在图片素材上它还提供文字生成ai图像,由dall·e提供ag尊龙凯时的技术支持。
图源fliki
“copydone”出自于国内aigc初创公司,支持小红书、淘宝等各平台ai营销文案生成,同时也能根据文案自动生成配图或拼接视频。
图源copydone
海外ai视频网站“quickvid”集成了gpt-3、dall·e 2等ai生成图文的能力,用户只需给定一个视频主题,剩下的都可以自动生成。不过它在二次编辑上的自由度和丰富性比较有限。
此外,视频创作中的特定需求也可以尝试用ai实现。比如ai修复老视频已有很多热门案例,历史资料、早年的影视片段都能通过“video enhance ai”等视频增强软件提升画质和分辨率。
02 让照片说话,跨模态ai做到了
现在的ai只能算是辅助视频创作的小助手,如果想要原创度更高、从无到有地快速创作视频还比较困难,但更强大的跨模态生成视频的模型(例如文字生成视频,图像生成视频)已经在路上了。
文字生成视频,除了从已有素材库中拼接而成,实际上还有更接近于人类的工作方式,就像ai绘画模型一样学习文本和图像的抽象概念。
2022年5月,清华大学曾联合智源研究院发布“cogvideo”,这是国内首个开源的文本生成视频模型。在其demo网站中,选择“青年女子在餐厅里喝奶茶”就可以看到ai生成的4秒视频,分辨率为480×480。
图源cogvideo
在设计模型上,cogvideo含94亿参数,将预训练文本-图像模型(cogview2)有效地利用到文本-视频模型,并使用了多帧率分层训练策略。
cogvideo生成的32帧的4秒剪辑
从技术本质上来看,视频就是一帧帧的连续图像,ai文字生成视频也可看作文字生成图像的一种延伸。大致原理就是通过文本生成几个单帧的图像,再用插值算法在几个帧之间绘制图像,生成前后连贯的视频。
之前disco diffusion走红时就有玩家利用其动画模式生成2d或3d视频,由此也延伸出一些使用门槛更低、创作更简便的ai生成视频应用。
比如ai视频网站“kaiber”,用户输入图像或文本描述,也可以从预设中选择几个词,就能快速生成4种视频结果。
图源kaiber
近期美国流行摇滚乐队linkin park发布的新mv《lost》,就是由kaiber为其制作的动画。
图源《lost》
不过目前跨模态生成视频的ai模型仍处于探索阶段,谷歌、meta等大厂去年都发布了相关研究论文,只有演示案例,具体产品还未上线。
据meta尊龙凯时ag旗舰厅官网介绍,“make-a-video”加速了文本到视频模型的训练(它不需要从头开始学习视觉和多模态表示),也不需要成对的文本-视频数据,却可以实现丰富的文字生成视频,图像生成视频(让单个图像或两个图像间动起来),以及改变原始视频的风格。
图源make-a-video
谷歌发布的“imagen video”和“phenaki”也能实现类似以上的效果,并且phenaki可以根据一系列提示生成2分钟以上的长视频。
人工智能公司runway曾参与构建了第一个版本的stable diffusion,最近他们又发布了一个新的视频生成器“gen-1”,即将开放内测,宣称可以把视频转换成任意风格。
图源gen-1
根据gen-1尊龙凯时ag旗舰厅官网演示,用户提供一张参考图,就能对原视频进行指定风格化的渲染,或者用文字指示修改视频中的部分素材,甚至还可以输出3d模型渲染和定制视频。
在ai生成3d短视频方面,近期国内的深氧科技完成了千万元级天使轮融资,引入gpt3.5、transformer、diffusion model等ai技术红利,其发布的o3.xyz引擎v1.0版本支持一站式生成3d短视频内容,百万粉博主“特效卡卡西”等创作者已加入内测。
图源o3.xyz
可见跨模态ai生成视频正在加速发展中,“用嘴做视频”,未来在短视频、影视、设计、游戏、电商等诸多行业都存在应用的可能。
回到开头提到的“d-id”,生成数字人/虚拟分身也属于图像生成视频的一种类型,这类工具目前在企业培训和营销方面的应用案例比较多。
2020年推出的ai视频创作产品“synthesia”显示已有数千家公司在使用,用户可以从现有演员库中选择或上传自己的视频来创建ai形象,然后输入脚本,让ai配音、拼接素材就能输出视频了。
图源synthesia
synthesia通过训练神经网络来达成逼真的合成效果,相比传统视频制作来说,减少了真人出镜录制等环节,能节省制作费用和周期,而且能一键生成多国语言的视频,便于本土化服务。因此,企业多用于大规模生成员工培训、产品入门演示、市场营销等视频。
d-id则在更早以前就开始研发图像处理技术,曾与myheritage合作推出“深度怀旧”计划而闻名,借助ai工具,用户可以让已故亲人的静态照片变成栩栩如生的动态视频。
最近乘着chatgpt的热潮,多种ai工具组合制作的视频被更多人看见了,d-id的体验门槛较低,即使是不懂视频创作的新手,只要上传一张图片,几分钟内就可以生成有人物解说的视频。
d-id自动为人物添加了一系列面部动作,会模拟一些轻微的头部运动,不过有时表情显得有点怪异,太逼真的照片可能会令人产生“恐怖谷”的反应。
同时,用户无法上传涉及政治、性、犯罪、名人、歧视性图像,d-id会提示违规风险。这意味着ai生成视频技术同其他生成内容一样会面临尊龙凯时ag旗舰厅的版权、伦理等问题。
03 下一波aigc浪潮,我们如何应对
去年stability ai的cto tom mason曾判断,继文字生成图像后,下一波浪潮肯定是视频、音频和3d。
当ai可以写文章、画画、做视频,试图包揽大部分创作任务时,人类接下来该做什么呢?
这里仅谈谈我的思考,首先技术人员可以继续开发和完善ai模型。在tiktok的尊龙凯时ag旗舰厅官网上,已经挂出了aigc方向机器学习工程师的招聘需求。
图源tiktok career
tiktok表示,“aigc最近的突破使我们相信可以将aigc技术用于商业目的,尤其是创意制作。想想ai生成/辅助的广告创意脚本,甚至是ai生成的商业图像和视频,它们将永远改变创意制作行业。”
当下的ai视频模型还不能很快生成像ai绘图那样高质量的作品,比如存在视频模糊、动作不自然、缺少细节等问题。但随着国内aigc的技术发展,相关场景应用生态可能有很大的想象空间,包括上文提到的一些ai技术公司目前已经开始提供付费服务了,为个人和企业有针对性地提高内容生产效率。
对于内容创作者来说,与其担忧会不会被ai取代,不如去学习认识和使用ai工具,让ai代替重复性的琐碎工作,将更多时间花在自己的核心优势上,产生更高质量的内容。
的确有了ai的加入,内容竞争会愈发激烈。有创作者说d-id出现后,“所有念稿式、新闻播报式的纯搬运类视频都将受到巨大冲击”。
从用户角度出发,我想只要是高质量内容,即使是ai批量生成的又如何?我们担忧的其实是低质内容的泛滥。
平台和用户都需要避免ai被滥用,比如生成虚假、仇恨、歧视或有害的内容,甚至是引发诈骗等犯罪行为。谷歌曾提到出于安全和伦理的考虑,在imagen video的内部试验中应用了输入文本提示过滤和输出视频内容过滤,但目前仍存在重要的相关风险,暂时不会发布两个视频生成模型的代码或demo。
总之,ai技术一方面大大降低了从文本到视频内容创作的门槛,另一方面aigc也推动着内容行业革新,目前至少能达到一定程度的降本增效,但发展初期还未建立起新的规则和秩序,最终如何改变行业还得看人的作用。

站在“寒武纪大爆炸”的前夜——对aigc产业进展的感想

aigc的技术传播如何出圈?

aigc出击研发、营销,文心一言要改变鞋服行业产业链条?

aigc产业研究报告2023——三维生成篇

aigc写网文,阅文、掌阅慌了

aigc写网文,阅文、掌阅慌了

从gpt-3.5到gpt-4.0:ai的巨变,你准备好了

aigc热浪中的媒体变革

aigc,难救四小龙

多样内容,智能生产,元宇宙世界如此奇妙!
