近期在社交媒体上掀起一阵热潮的扩散模型视错觉画,以其令人叹为观止的创造力引起广泛关注。不论是将玛丽莲·梦露逆时针旋转180°变成爱因斯坦,还是通过反色处理将一个男子神奇地转变成女子,这项技术似乎能通过任意两组不同的提示词呈现出截然不同的画面。
英伟达高级AI科学家Jim Fan惊叹道:“这是我近期见到最酷的扩散模型!”而社交媒体上的网友也纷纷感叹这种技术的艺术性和独创性,将其视为一种引领视觉艺术革命的力量。
试玩体验
我们也迫不及待地尝试了这一神奇的模型。通过Colab,我们成功绘制了一组令人叹为观止的Lowpoly风格的画,正面看是一座山,而反过来则呈现出城市的天际线。然而,与作者展示的效果相比,我们的尝试似乎略显平庸,除了清晰度稍高外,并未显示出显著的优势。
ChatGPT(DALL·E-3)也参与了画作尝试,结果显示在清晰度上略有优势,但整体表现并未引起太多惊喜。
画面效果展示
作者自己的展示更为丰富和精彩。一座雪后的山峰,旋转90度后变成了一匹奔马;一张餐桌换个角度竟成了瀑布。尤其引人瞩目的是一张图,在上下左右四个角度看,每个方向的内容都截然不同。读者是否能准确识别出这四种动物呢?
以兔子为初始状态,每逆时针旋转90度,依次呈现鸟、长颈鹿和泰迪熊。还有两张图展示了三个不同的方向,通过切割和重组图像,以及变换风格,创造出千变万化的效果。
体验小贴士
在体验过程中,我们发现这个模型对提示词的要求相对较高。作者也提供了一些提示词技巧,但需要注意手动调整代码来选择效果和修改提示词。提供的三种效果仅为冰山一角,如果想要尝试其他效果,需要手动替换代码。
技术原理解析
这一神奇效果的背后是密歇根大学研究团队的一项新研究,采用了深度分布式扩散模型(DDPM)。核心原理是通过训练模型,将图像通过“噪点图”的方式打碎重组,从而生成新的图像。具体而言,对原始图像和变换后的图像,通过扩散模型进行“打碎”处理形成“噪点图”,然后取平均生成新的“噪点图”以生成不同的视觉效果。
应用前景
这一视错觉技术的应用前景不可限量。从艺术创作到图像处理,从电子娱乐到广告设计,都有可能受益于这一技术的突破。然而,也有摄影师指出,当前AI生成的图像在细节上仍有不足,但对于大多数观众而言,这些微小差异并不影响其观感。
AI的视错觉图像生成引领了视觉艺术的新时代。通过独特的技术原理和高度创造性的应用,这一技术展示了巨大的潜力。然而,随着技术的发展,我们也期待能看到更多创新和改进,让这一领域取得更为引人瞩目的成果。