- ClipText: 用于文本编码。输入: 文本。输出: 77个token embeddings向量,每个向量有768维。UNet+调度程序: 在信息(潜在)空间中逐步处理信息。输入: 文本embeddings和一个初始化的多维数组(结构化的数字列表,也称为张量)组成的噪声。输出:经过处理的信息数组。自动编码解码器(Autoencoder Decoder): 使用经过处理的信息数组绘制最终图像。输入:经过处理的信息数组(维数:(4,64,64))输出: 生成的图像(维数:(3,512,512),即(红/绿/蓝;宽,高))。
- UNet是一系列用于转换latents数组的layers每一layer都对前一个layer的输出进行操作Some of the outputs are fed (via residual connections) into the processing later in the network通过残差连接(residual connections),将网络前面的layer输出送入到后面的layer进行处理时间步长被转化为embedding向量,在网络层中使用
ABOUT
关于我们
深蓝学院是专注于人工智能的在线教育平台,已有数万名伙伴在深蓝学院平台学习,很多都来自于国内外知名院校,比如清华、北大等。