变身“神笔马良”,国产AI只需要15秒_ZAKER新闻
出品|虎嗅科技组
作者|余杨
编辑|苗正卿
头图|视觉中国
8 月 29 日, Midjourney 宣布将涉足硬件领域,并在社交媒体 X 上发布消息广揽人才,来充实其新成立的硬件部门。
AI 绘画似乎要卷出新形态。
这并不奇怪。Midjourney 创始人 David Holz 曾任 Leap Motion 的首席技术官,具备丰富的硬件经验。他的前同事——现为 Midjourney 硬件部门负责人—— Ahmad Abbas 也曾在苹果公司工作过五年,担任硬件经理,参与了 Vision Pro 头显的研发。
在此之前,我曾问过一众美术、设计相关专业的从业者,Midjourney 对 ta 们来说意味着什么。得到最多的答案是:灵感。
而对非艺术专业的,比如我,或是为了配插图,或是出于好奇,抽卡自娱,也弥补弥补应试教育那些年没能开发自己艺术细菌的遗憾。
但由于 Midjourney 的使用有一定的门槛(比如魔法,比如一些些米),也劝退了不少人。
好在,随着 AI 产品的国产化,国内大模型的 AI 绘画也成长了起来。那么今天,我们就来横向测评几个国产文生图的 AI 模型,并静候 AI 绘画的新形态。
今天参与测评的玩家有:快手可灵 AI、字节即梦 AI、商汤秒画。
为了更好地揭示各家大模型的所长,测评的系列则混合人像、绘画、写实、3D、再创作等几个方面。
考虑到方便对比,接下来即以系列主题为纲,所生成的条目按可灵、即梦、秒画的顺序排列,图像比例都设置为 1:1,其他参数默认。
最后,结合操作过程中的使用体验和特点给出总评,着急的朋友可以直接下拉到操作体验和总评环节。
人像
1. 摄影,中景,穿着传统汉服的中国女性,手持折扇,优雅含笑,在古典园林中漫步。
2. 特写,夜景,时尚芭莎杂志,金发碧眼的欧洲女孩,黑色夹克,酷辣风格,站在巴黎埃菲尔铁塔前,手里有一杯咖啡。
从人像模块可以看到,第 1 个 prompt 里,我的命令是手持折扇,即梦给了我一个团扇;
第 2 个 prompt 里,三家似乎都没有 get 到我金发碧眼的命令,生成的图片都是蓝瞳。
绘画
1. 中国水墨画," 孤舟蓑笠翁,独钓寒江雪 ",意境悠远,云雾缭绕。
2. 人物脸部速写,铅笔画,中年男子,穿着宇航服,有着爱因斯坦一样吐舌头的表情。
绘画的功力在第 1 个 prompt 里其实高下立见。
第 2 个 prompt 里没有秒画的图并不是我漏了,而是秒画提示我非法字符,我换掉了 " 爱因斯坦 " 和 " 脸部 ",都没有成功生成,姑且这样,也提醒一下想借助 AI 完成工作的朋友,把此类不确定因素考虑在内。
写实
1. 动物:一只威武的狮子,卧在非洲大草原上,慵懒地晒着太阳。
2. 车:一辆经典的老爷车,行驶在 60 年代的美国公路上,周围是广阔的沙漠景观。
在写实这个版块,狮子的光影层次可灵表现得更好。
秒画似乎并没有 get 到 " 写实 " 的味道,保持着绘画的风格。不过,后面也会说到,相对于可灵没得选,即梦 6 种迭代模型外,秒画有着 29 种基模型可以选择风格化的定制生图。
不知道哪位选手画出了你心中的老爷车。
3D 虚拟
1. 动漫风格,一位拥有超能力的动漫少女,眼睛闪烁着神秘光芒,背景是未来都市。
2. 动画风格,一个充满魔法书籍的图书馆,书架上的书籍漂浮在空中,书架之间有魔法生物在穿梭。
在这个版块,除了提示词所要求的魔法生物外,即梦是唯一画出了人的形象的 AI。
再创作
在这个版块,我原本想看看 AI 生图的想象力和对文化的理解能力,顺便把我喜欢的影视作品中 be(bad ending)的遗憾变成 he(happy ending),但是 ……。
prompt1:画一个至尊宝和紫霞仙子在一起的结局。
但是没想到我也 be 了,嗯,还是别在一起了。
我想再给 ta 们一次机会,考虑到我说得不够确切,不死心的我再次输入一个 prompt。
prompt2:画一个《海上钢琴师》中主角 1900 最终上岸了的生活场景。(虽然我也站不上岸)
好的,我明白了,涉及人文领域,AI 多半要 be。
不过,我乐于见到的是,创造力这种东西,仍然属于人类。AI 或许能够提供灵感,但它的纯文本想象力,目前仍然止步于为人类打辅助。
再创作也向我再次确证,只有与人类发生关联的一切才有意义。
操作体验
首先是功能区一览,我把可灵、即梦和秒画的操作区拼在了一起。
从操作上看,三位选手都是支持垫图的,可灵和秒画都可以选择生成 1 张 or 多张,即梦只能一次性生成 4 张,再从中选出自己中意的图。
即梦和秒画同时支持调节比例和尺寸,可灵只支持调节比例。
从使用体验感来说,可灵和秒画的生成速度大约在 15 秒,即梦有时耗时 20 秒,有时耗时一分多钟,并且发生这种情况的概率是 3:7。不过,它生成的图也更多。
如果氪金的话,可灵在图片生成之后,还可以进一步画质增强,而 " 生成视频 " 这个按钮,将一键直达 " 图生视频 ",也就是说,在 sora 的中间插了一步画面风格选择。
即梦生成图片之后,除了同样可以生成视频之外,支持画布编辑、超清图、细节修复、局部重绘、扩图和消除笔等功能。
而秒画,则在 prompt 的细节上有着较为 "Midjourney" 的表现,如优化提示词、负向提示词以及加速模式等,大有对标 Midjourney 的意图。
值得一提的是,除了上述的 29 个基模型,在模型广场中,一共呈现了 74 个不同风格的模型(包含 29 个基模型在内)。
公平起见,在上述测评中,我使用的仍然是默认的 Artist v1.0 Alpha 模型。大家在使用时可以自取所需,反复探索。
总评环节
总的来说,可灵、即梦和秒画在 AI 绘画这个产品上各有特点。
在我看来,人像模块,可灵对中国面孔有着更好的理解,更少的 " 网红感 ",更多的东方味道。外国面孔,秒画有着更好的细节。
绘画里,三位选手对传统诗歌内容都有着较好的理解能力,秒画对水墨画的艺术概念更清晰,但在人像速写中,可能会出现不稳定的情况,可灵则表现得更好。
写实中,可灵和即梦都理解了需求,而秒画似乎还沉浸在绘画的命令里。
3D 虚拟版块,三家难分伯仲,不难理解,AI 绘画为何会成为创作者的灵感来源。
再创作领域,可能需要提前垫图,不然可能会得到相当魔性的画风。AI 的理解力,尚未延伸到我们的文化生活。
使用门槛上,三家的操作都较为流畅,可灵和即梦有着基础 66 分左右的灵感值(通行货币名称),省着点用,可灵可以生成大约 300 次,即梦 60 多次,两者每天签到都送积分。秒画则是每天免费 10 次生成,更多次数或可邀请好友一起领 3 天无限卡。
还没有评论,来说两句吧...