可灵AI使用指南~视频生成
<p class="ql-block">一、基础功能</p> <p class="ql-block">A.文生视频:</p><p class="ql-block">输入一段文字,可灵大模型根据文本表达生成五秒或十秒视频。将文字转变为视频画面,现已支持标准与高品质两个生成模式。标准模式生成速度更快,高品质模式画面质量更佳。可灵同时支持16:9、9:16与1:1三种画幅比例,更多元满足大家的视频创作需求。</p> <p class="ql-block">提示词公式</p><p class="ql-block">提示词等于主体(主体描述)+运动+加场景(场景描述)+(镜头语言+光影+氛围)</p><p class="ql-block">括号里的内容可选填</p><p class="ql-block">主体:</p><p class="ql-block">主体是视频中的主要表现对象,是画面主题的重要体现者,如人,动物,植物以及物体等。</p><p class="ql-block">主体描述:</p><p class="ql-block">对主体外貌细节和肢体姿态等的描述,可通过多个短句进行例举,如运动表现,发型发色,服饰穿搭,五官形态,肢体姿态等。</p><p class="ql-block">主体运动</p><p class="ql-block">对主体运动状态的描述,包括静止和运动等,运动状态不宜过于复杂,符合五秒视频内可以展现的画面即可。</p><p class="ql-block">场景</p><p class="ql-block">场景是主体所处的环境,包括前景,背景等。</p><p class="ql-block">场景描述</p><p class="ql-block">对主体所处环境的细节描述。可通过多个短句进行例举,但不宜过多,符合五秒视频内可以展现的画面即可。如室内场景,室外场景,自然场景等。</p><p class="ql-block">镜头语言</p><p class="ql-block">是指通过镜头的各种应用以及镜头之间的衔接和切换来传达故事或信息,并创造出特定的视觉效果和情感氛围,如超大远景拍摄,背景虚化,特写,长焦镜头拍摄,地面拍摄,顶部拍摄,航拍,景深等。(注意:这里与运镜控制做区分)</p><p class="ql-block">光影</p><p class="ql-block">光影是赋予摄影作品灵魂的关键元素。光影的运用可以使照片更具深度,更具情感,我们可以通过光影创造出富有层次感和情感表达力的作品。如氛围,光照,晨光,夕阳,光影,丁达尔效应,灯光等。</p><p class="ql-block">氛围</p><p class="ql-block">对预期视频画面的氛围描述,如热闹的场景,电影级调色,温馨美好等。</p><p class="ql-block"><br></p><p class="ql-block">以上公式最核心的构成就是主体、运动和场景。这也是描述一个视频画面最简单,最基本的单元。当我们希望更细节的描述主体与场景时,只需要通过例举多个描述句短句,保持希望出现要素的完整性即可。可灵会根据我们的表达进行提示词扩写,生成符合预期的视频。</p><p class="ql-block">如“一只大熊猫在咖啡厅里看书”。我们可以增加主体和场景的细节描述“一只大熊猫带着黑框眼镜在咖啡厅看书,书本放在桌子上,桌子上还有一杯咖啡,冒着热气,旁边是咖啡厅的窗户”,这样可灵生成的画面会更具体可控。如果想要增加一些镜头语言和光影氛围,我们也可以尝试“镜头中景拍摄,背景虚化,氛围光照,一只大熊猫带着黑框眼镜在咖啡厅看书,书本放在桌子上,桌子上还有一杯咖啡,冒着热气,旁边是咖啡厅的窗户,电影级调色”这样生成的视频质感会进一步提升,有可能会得到超出预期的结果。</p> <p class="ql-block">公式的意义旨在帮助大家更好的描述想要的视频画面,我们同样可以尽情的发挥想象力,不被公式限制,去自由大胆的与可灵交流,可能会有更加惊醒的结果。</p> <p class="ql-block">一些使用小技巧。</p><p class="ql-block">1.尽量使用简单词语和句子结构。避免使用过于复杂的语言。</p><p class="ql-block">2.画面内容尽可能简单,可以在5秒到十秒内完成。</p><p class="ql-block">3.用“东方意境,中国,亚洲”等词语更容易生成中国风和中国人。</p><p class="ql-block">4.当前视频大模型对数字还不敏感,比如十个小狗在海滩上数量很难保持一致。</p><p class="ql-block">5.分屏场景,可以用Prompt:四个机位,春夏秋冬。</p><p class="ql-block">6.现阶段较难生成复杂的物理运动。比如球类的弹跳,高空抛物等。</p> <p class="ql-block">B、图生视频</p><p class="ql-block">输入一张图片。可灵大模型根据图片理解生成五秒或十秒视频,将图片转变为视频画面。输入一张图片加文本描述,可灵大模型根据文本表达将图片生成一段视频。现已支持标准与高品质两个生成模式,以及16:9 、9:16与1:1三种画幅比例。更多元满足大家的视频创作需求。</p> <p class="ql-block">图声视频是当前创作者使用频率最高的功能,这是因为从视频创作角度来看图声视频更可控,极大降低了专业视频的创作成本与门槛;而从视频创意角度来看,可灵为大家提供了另外一种创意平台,用户可以通过文本来控制图片的主体进行运动。如最近网上爆火的“老照片复活”、“与小时候的自己拥抱”,以及“蘑菇变企鹅”等,体现出可灵作为一个创意工具的属性,给用户的创意实现提供了无限可能。</p><p class="ql-block">对图声视频来说,控制图像的主体运动是核心。我们为大家提供了以下公式,可供参考:</p> <p class="ql-block">提示词=主体+运动、背景+运动……</p><p class="ql-block">主体</p><p class="ql-block">画面中的人物,动物,物体等主体。</p><p class="ql-block">运动</p><p class="ql-block">指目标主体希望实现的运动轨迹。</p><p class="ql-block">背景</p><p class="ql-block">画面中的背景。</p> <p class="ql-block">以上公式最核心的构成是主体和运动,与文生视频不同,图生视频已经有了场景,因此只需要描述图像中的主体与希望主体实现的运动。如果涉及多个主体的多个运动,依次列举即可。可灵会根据我们的表达与对图像画面的理解进行提示词扩写,生成符合预期的视频。</p> <p class="ql-block">如果想要“让画中的蒙娜丽莎戴上墨镜”,当我们只输入“戴墨镜”时,模型较难理解指令,因此更可能通过自己的判断进行视频生成。当可灵判断这是一幅画时,会更可能生成具有运镜的效果的画展展览,这也是照片类的图片容易生成静止不动视频的原因。(不要上传带有相框的图片)。</p> <p class="ql-block">因此我们需要通过描述“主体+运动”来让模型理解指令,如“蒙娜丽莎用手戴上墨镜”,或者对于多主体“蒙娜丽莎用手戴上墨镜背景出现一道光”,模型会更容易响应。</p> <p class="ql-block">同样,公式的意义旨在帮助大家更好的使用图生视频能力,提高视频抽卡率,更多创意还需大家共同探索,去自由大胆的与可灵交流。</p> <p class="ql-block">注意点:</p><p class="ql-block">1.尽量使用简单词语和句子结构。避免使用过于复杂的语言。</p><p class="ql-block">2.运动符合物理规律,尽量用图片中可能发生的运动描述。</p><p class="ql-block">3.描述与图片相差较大,可能会引起镜头切换。</p><p class="ql-block">4.现阶段较难生成复杂的物理运动,比如球类的弹跳,高空抛物等。</p> <p class="ql-block">视频延长。</p><p class="ql-block">对于AI生成后的视频可续写4到5秒,支持多次续写,最长三分钟。可通过微调提示词进行视频续写创作。</p> <p class="ql-block">视频延长功能位于视频生成后左下角的tab。有“自动延长”与“自定义创意延长”两种模式。“自动延长”是指无需输入Prompt,模型根据对视频本身的理解进行视频续写,“自定义创意延长”是用户可以通过文本控制延长后的视频,这里prompt需要与原视频相关,写明原视频的“主体加运动”,才能尽量实现延长后的视频不崩坏。</p><p class="ql-block">我们为大家提供了以下公式,可供参考。</p> <p class="ql-block">提示词(Prompt)等于主体加运动</p> <p class="ql-block">主体</p><p class="ql-block">指上传图片中希望运动的主体。为了保持较好的文本响应能力,选一个主体效果会好一些。</p><p class="ql-block">运动</p><p class="ql-block">指目标主体希望实现的运动轨迹。</p> <p class="ql-block">注意点:</p><p class="ql-block">1.视频“自定义创意延长”里Prompt需要与原视频主体保持一致。不相关的文本可能会引起镜头切换。</p><p class="ql-block">2.延长具有一定概率,可能需要多次延长才能生成符合预期的视频。</p> <p class="ql-block">二、进阶功能</p><p class="ql-block"><br></p> <p class="ql-block">标准模式与高品质模式。</p><p class="ql-block">标准模式是视频生成速度更快,推理成本更低的模型。可以通过标准模式快速验证模型效果,满足用户创意实现需求。</p><p class="ql-block">高品质模式是视频生成细节更丰富,推理成本更高的模型,可以通过高品质模式生产高质量视频,满足创作者高阶作品需求。</p> <p class="ql-block">对于标准模式和高品质模式分别有以下优势,我们可以根据实际情况选择模型生成。</p><p class="ql-block"><br></p> <p class="ql-block">标准模式</p><p class="ql-block">视频生成速度快,推理成本更低,擅长生成人物,动物以及动态幅度较大的场景。生成的动物更亲切,画面调色柔和,也是可灵刚发布时就获得好评的一款模型。</p> <p class="ql-block">高品质模式</p><p class="ql-block">视频生成细节更丰富,推理成本更高。擅长生成人像、动物,建筑,风景类等视频,细节更丰富,构图与色彩氛围更高级,是可灵现阶段对于精细视频创作使用最多的一款模型。</p> <p class="ql-block">运镜控制</p><p class="ql-block">运镜控制现已支持包括“水平运镜,垂直运进,推进/拉远,垂直遥镜,旋转摇镜,水平遥镜”六个基本运镜,以及“左旋推进,右旋推进,推进上移,下移,拉远”四个大师运镜,帮助创作者生成具有明显运镜效果的视频画面。</p> <p class="ql-block">运镜控制属于镜头语言的一种。为了满足视频创作的多元性,让模型更好响应创作者对镜头的控制,平台增加运镜控制功能,以绝对命令控制视频画面的运镜行为,可以通过位移参数的调节进行运镜幅度的选择。</p> <p class="ql-block">以下是对“一只大熊猫在湖边弹钢琴”的不同运镜举例。</p> <p class="ql-block">首尾帧能力</p><p class="ql-block">首尾帧功能,即上传两张图片,模型将这两张图片作为首帧和尾帧生成视频,通过点击“图生视频”功能右上角的“增加尾帧”进行体验。</p> <p class="ql-block">首尾针功能可以实现对视频的更精细控制。现阶段主要应用于视频创作中对首帧尾帧有控制要求的视频生成,能够较好实现预期生成视频的动态过渡,但需要注意的是,首帧尾帧视频内容需要尽量相似,如果差别较大会引起镜头切换。</p> <p class="ql-block">注意点</p><p class="ql-block">1.尽量选择两张相同主题且近似的图,这种模型容易在五秒内进行流畅衔接,如果两张图片相差较大,可能会触发镜头切换。</p><p class="ql-block">2.很多创作者会通过图像生成来进行相似图片的选择,随后利用首尾帧能力进行视频生成。</p> <p class="ql-block">运动笔刷能力</p><p class="ql-block">运动笔刷功能,即上传任意一张图片,用户可以在图片中通过“自动选区”或者“涂抹”对某一个区域或主体进行选中,添加运动轨迹。同时输入符合预期的运动Pronpt(主体加运动),点击生成后模型将为用户生成添加指定运动后的图生视频效果,以此来控制特定主体的运动表现,补足进阶的图生视频可控生成。</p> <p class="ql-block">运动笔刷功能作为图生视频更强的可控生成能力,可以进一步按照用户意愿生存期望的区域或主体的指定运动,比如图生视频比较难实现的“球类运动”,以及对“人物/动物转向和行走路线”的生成等。支持六种主体和轨迹的同时设置,另外,本次支持“静态笔刷”功能,用静态笔刷涂抹后,模型将固定涂抹区域的像素点,避免运镜发生,如果不希望运动轨迹可能引起的镜头运动,建议在图片底部添加静态笔刷。</p><p class="ql-block">输入文字提示</p><p class="ql-block">1.帆船在海上缓慢行驶,大海泛起波浪。</p><p class="ql-block">2.小草被风吹动,两只狗向不同方向转头看向远方。</p><p class="ql-block">3.苹果下落,掉进水里。</p><p class="ql-block"><br></p><p class="ql-block"><br></p> <p class="ql-block">注意点</p><p class="ql-block">A、建议使用运动笔刷功能时,尽量添加Prompt描述,且Prompt描述与区域/主体的运动保持一致。比如“小狗在路上跑”,同样遵循主体加运动提示词的写法。</p><p class="ql-block">使用案例</p><p class="ql-block">1.用户意图:让这只猫跳过盘子。</p><p class="ql-block">选中物体的关键性局部(比如动物的头),能够实现更加准确的运动控制。</p><p class="ql-block">2.用户意图:让哈士奇的头左右摇摆坐下去。</p><p class="ql-block">B、对于物理世界中无法运动的物体来说,如果我们给予运动轨迹设置,模型对图片和运动指令理解后生成运镜效果。</p><p class="ql-block">如果希望避免模型生成运镜效果,需要使用“静态笔刷”功能,涂抹后该区域的像素会固定。</p> <p class="ql-block">关于图像选区域的建议</p><p class="ql-block">1.单个动态笔刷只选中类别一致的单个物体。</p><p class="ql-block">2.单个动态笔刷只画一个相互连通的区域,而不是相互分离的多个区域。</p><p class="ql-block">3.静态笔刷可以选中多个彼此不联通的区域,但仍然建议每个独立选区内是同一类别。</p> <p class="ql-block">关于运动轨迹的建议</p><p class="ql-block">1.轨迹曲线的方向和长度都会起作用。假设轨迹曲线的起点在选区内部,那么轨迹的终点预期将会是视频结束时物体停留的位置。</p><p class="ql-block">2.选中物体的中间运动过程会严格按照绘制的轨迹移动。</p> <p class="ql-block">对口型</p><p class="ql-block">“对口型”功能,支持你在可灵AI生成人物视频后,上传本地配音/歌唱文件,或者通过文本朗读功能在线生成配音,可灵AI就能让你的视频人物口型和音频完美同步,仿佛真人在说话/唱歌,视频瞬间栩栩如生。</p> <p class="ql-block">使用方法</p><p class="ql-block">1.使用可灵AI,生成包含完整的人物面容的视频,点击预览视频下的“对口型”</p><p class="ql-block">2.在打开的对口型弹窗内,使用文本朗读生成配音,或者上传本地配音/歌唱文件。</p><p class="ql-block">文本朗读的音色均为说话超拟真的大模型音色,并支持在0.8到2.0倍数范围内调节说话快慢。</p><p class="ql-block">3.点击对口型按钮,等待视频生成,即可得到视频人物口型和音频完美同步的结果。</p><p class="ql-block">注意:</p><p class="ql-block">对口型为付费功能,价格和角色视频的长度有关。五秒的视频对口型需要花费5灵感值,十秒的视频对口型需要花费10灵感值。</p><p class="ql-block">如果你上传的音频,或者文本朗读生成的音频超过了画面长度,也可以用裁剪音频长度的功能。</p> <p class="ql-block">注意点</p><p class="ql-block">1.可灵1.0模型,可灵1.5模型生成的视频,只要满足视频画面的人脸条件,均支持对口型。</p><p class="ql-block">2.目前可能灵AI支持人物类角色(真实3D /2D)进行对口型,动物类角色对口型暂不支持。</p> <p class="ql-block">三、场景应用</p><p class="ql-block">影视短片、商业广告、创意短片、</p><p class="ql-block">音乐MV、动物奇遇、真实世界、</p><p class="ql-block">科幻未来、东方神韵、人物深沉、</p><p class="ql-block">古风仙侠、动漫生成。</p><p class="ql-block"><br></p> <p class="ql-block">图生视频</p><p class="ql-block">人像写真、水墨名画、动画创意、</p><p class="ql-block">表情生成、老照片、品牌创意、</p><p class="ql-block">live photo</p><p class="ql-block"><br></p>