Stability AI最新推出的功能强大的文本到图像生成模型,它在处理多文本提示、图像质量以及文本渲染能力方面都有显著改进。这款模型采用了重新加权的矩形流形式以改善模型性能,并使用新的多模态扩散Transformer(MMDiT)架构,这一架构通过独立的权重集合来处理图像和语言表示,显著提升了文本理解和拼写能力。Stable Diffusion 3的参数量从800M到8B不等,支持高质量图片生成,并具备拼写错误纠正等功能。
Stable Diffusion 3在排版和提示遵循等方面表现出色,超越了DALL·E 3、Midjourney v6和Ideogram v1等先进的文本到图像生成系统。其强大的理解和创作能力使其成为新一代安全、开放、普惠的生成式AI的典范。无论是数字艺术创作、图片编辑还是游戏和电影制作,Stable Diffusion 3都能提供理想的解决方案,满足用户在不同场景下的需求。
在使用方面,用户只需输入简单的文本提示,Stable Diffusion 3即可生成对应的高质量图像。尽管该模型在硬件方面并未进行特定优化,但其在24GB显存的RTX 4090消费级GPU上仍能高效运行。
一款国内的AI绘图网站