昨天举行的中国首部AI动画片《千秋诗颂》启播暨中央广播电视总台人工智能工作室揭牌仪式上,上海人工智能实验室研发的文生视频大模型“书生·筑梦”亮相。这个AI模型已经开源,授权用户单位免费商用。它的参数量超过30亿,可根据输入的提示词生成有故事性、含多镜头的分钟级视频,具有转场流畅、故事连贯、画质高清等特点。
“由于数据、算力等资源限制,‘筑梦’在视频生成能力、时长、质量上与Sora还存在差距。”上海人工智能实验室领军科学家林达华博士说,“但另一方面,随着同总台的深度合作,实验室研发的模型在对中华文化的理解表现,以及与媒体编创实际生产流程的融合上,逐渐显露出特色优势。这类产研结合的新技术发展模式,将使我国AI技术发展走出差异化道路,并形成我们的文化特色。”
国内首部AIGC系列动画片问世
上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科研和技术攻关,旨在突破人工智能的重要基础理论和关键核心技术,支撑我国人工智能产业实现跨越式发展。目前,实验室已联合高校和企业,开发出“书生·浦语”“书生·浦语灵笔”“书生·浦语数学”等一系列大模型,并通过GitHub等平台实现开源,并给予企业和开发者免费商用授权,打造大模型开源创新生态。
“书生·筑梦”是“书生”系列大模型之一,可赋能视频创作。它与文生视频框架AnimateDiff以及可控图像生成、图像驱动等技术结合,在动画片等视频领域有广阔的应用前景。其中,文生视频框架AnimateDiff无需额外的数据收集和定制化训练,就能一次性、快速地为大多数个性化文本转图像模型提供动画效果。用这个框架制作的AI视频已亮相今年央视春晚,成为歌曲《枕着光的她》中温馨的动画背景。
去年,上海人工智能实验室与中央广播电视总台开始合作。去年7月,双方联合发布“央视听媒体大模型”。这是国内首个专注于视听媒体内容生产的大模型,集聚了总台的海量视听数据和实验室的原创先进算法、大模型训练基础设施优势。
林达华介绍,“央视听媒体大模型”包含新闻助手、数字人、文生视频、动画制作、场景渲染等功能板块,融合了“书生·浦语”大语言模型、“书生·筑梦”文生视频大模型等AI多模态产品。
如今,利用“书生·筑梦”等AI工具制作的系列动画片《千秋诗颂》已完成,将从2月26日起在总台综合频道(CCTV-1)播出。这一国内首部AIGC(人工智能生成内容)系列动画片共26集,每集约7分钟,其美术设计、动效生成和后期成片均由人工智能辅助制作,具有里程碑意义。
让大模型生成中国风人物和场景
《千秋诗颂》聚焦国家统编语文教材里的200多首诗词,依托“央视听媒体大模型”,将这些诗词转化制作为国风动画。节目首批推出《咏鹅》等6集诗词动画,再现古典诗词中凝聚的家国情怀和人间真情,让观众特别是青少年感受到中华文化的恒久魅力,在内心厚植文化自信。
大模型是如何生成这部动画片的?林达华展示了一些制作环节:在“央视听媒体大模型·AIGC动画制作”界面上,上传一张唐朝青年男子的“参考风格图片”,随后在“概念设计描述”文本框里输入“中国风,唐朝,中年,清秀,男性,淡绿色衣服”,几秒钟后,一个符合这些提示词的动画人物形象就出现在屏幕上。
按照这个流程,动画片里的各种唐朝人物很快诞生,节省了动画人物美术设计的大量人力和时间成本。“中国风,唐朝,女孩,圆润,粉白色裙子”“中国风,唐朝,军官,年纪较大,男性,严肃”“中国风,唐朝,壮年,男性,灰色帽子和灰色服装”……记者看到,大模型生成的人物形象都与提示词相符,画风也颇为精美。
据介绍,这些动画人物的服饰都符合唐代服饰特点。不仅如此,动画片里的建筑、器皿、摆件等道具也都有历史依据,参考了博物馆文物和相关图片。如片中的熏香炉源自陕西历史博物馆的“透雕忍冬纹五足银熏炉”,孟浩然桌上的茶具是由AI技术复原的唐代“七星盘”,城门则是在参考唐代丹凤门的基础上,用AI技术风格化处理后创作而成。
在训练“书生·筑梦”时,科研团队和节目导演给它输入了大量包含中国传统文化的精准数据,让它能生成有历史依据的人物、场景等图片,其美术风格具有中国水墨画和工笔画的特质。
在场景和建筑美术设计环节,输入“中国风,唐朝,官员宴客厅”等提示词后,“书生·筑梦”即可再现大唐场景。在辅助动效生成环节,选取一张官员图片,再输入“唐朝,一个官员,哈哈大笑”,就生成了官员端起酒杯大笑的短视频。
AIGC技术制作的动画片质量到底如何?近日播出后,将由观众评判。在林达华看来,这种科研机构与传媒机构合作的技术发展模式,有望形成差异化的国际竞争力,实现科技和文化的协同创新。