前天sex5.,写了一篇对于 ChatGPT 文生图功能的著述。
发到知乎后,一位 2021 年的年度新知答主 提议了质疑,认为我使用的可能不是最新的模子,因为新旧版块差距很大。
他指出,最新版文生图才能很强,而我展示的收尾辅导词知道差,生成的翰墨也失实许多。
他例如说,像辅导词「两个东谈主互相推对方」这种浅薄意见,确切最新版模子应该能准确证实。他还建议我搜检是否使用了新模子,并给了我一个连结,称那是最新版的界面。
他还共享了一个考证门径:
输入 100+ 个英文单词,若是翰墨全乱即是其他模子(如 DALL·E),若是只错一两个字母才是最新版的 ChatGPT。
他还晒出了两次按我的辅导词生成的收尾,质疑不可王人用"马上性"来证明。被他这样一说,我怀疑我方用错了模子,我之前用的 ChatGPT 客户端,拿它生成的来比,着力的确有有互异,于是,决定再行试一下。
领先,我用了这位新知答主给我的辅导词,如下:
Alright, here ’ s a shorter version:12 flowers in a 4x3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom
ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon
英文快乐相比长,翻译成缩减的中语是:
从正上方俯拍的 12 种花,呈四行三列摆放。第一转有依兰、桂花和黄缅栀子;第二行有晚香玉、栀子花和茉莉;
第三行有康乃馨、牡丹和粉色风信子;第四行有蓝鸢尾、紫罗兰和紫藤。扫数的花王人放在一个带玻璃底的木质托盘上,玻璃上有一层透明的动物脂肪。像片拍摄于一个阳光明媚的下昼,托盘被阳光透顶照亮。
ChatGPT 很快给出了谜底。此次生成与以往不同的是,它补充了一句话:笔据你的描述,这是由 DALL·E 创建的。DALL·E 是 OpenAI 的图像生成模子。
看来,不仅我遭遇过前天提到的模子浑浊问题,揣度海外友东谈主也遭遇过肖似情况。
从这里可以得出一个论断:ChatGPT 官方提到的免费试用最新的非自追想模子(Non-autoregressive models)似乎并不解救,或者说作念了一定规模。
于是,我平直把问题抛给了 ChatGPT:如何利用最新的文生图模子?"它给出了三种谜底:
第一种是平直使用 ChatGPT 内置的图像生告捷能,平直输入详备的描述,它会用最新的模子生成图像。你可以优化辅导词(Prompt),比如:
具体描述主体、配景、光照、立场等指定构图,比如"俯瞰图""广角镜头"遴选艺术立场,如"油画风""赛博一又克风"
第二种是使用 API,你可以进行批量生成或将其集合到作品中;第三种则是纯先容,它提到新的文生图模子作念了多模态集合,生成带有故事性的一语气图像,用 AI 先生成草图,再细化成良好插画等。
不想太多,我平直按照它的条件,把任务交给了 Kimi,让 Kimi 帮我生成一个辅导词:
在晦暗的相持书斋里,一盏台灯散漫着柔软的暖光,照亮了一张迂腐的木质书桌。书桌上洒落着几本泛黄的竹素和一支羽羊毫,摆布是一杯冒着热气的红茶。画面摄取油画立场,营造出宁静而怀旧的氛围,仿佛时候在这里静止。
ChatGPT 生成的图片如下,然则,它已经照旧那句话,这是由 DALL·E 生成的图像,展现了你描述的相持书斋氛围;很快,ChatGPT 将推出新的图像生成模子,带来更好的细节和立场戒指。
是以,论断是:ChatGPT 模子是无法使用最新的文生图模子的。怎么办?为了考证准确度,好久莫得给 ChatGPT 充值的我,索性再来了一个月会员。
科罚后,切换到 ChatGPT 4o 对话界面,输入辅导词:
在一派宁静的海边小镇,夕阳的余光洒在迂腐的灯塔上,灯塔的影子拉得很长。迢遥的海面上,几艘划子在金色的波光中逐渐飞动,天外中飘着几朵粉色的云。画面摄取水彩画立场,色调柔软而仁和,营造出一种宁静而黑甜乡的氛围。
反应速率有点慢,不外,生成的图片的确有境界:
是以,必须 ChatGPT 4o 才可以用,GPT 照旧老版块的 DALL·E 模子。随后,我又给它了一个卡通东谈主物的辅导词:
一个清明可人的卡通小猫,有着大大的蓝色眼睛和柔嫩的粉色耳朵,身上穿戴一件红色的小背带裤,脚上蹬着一对黄色的小靴子。
它正站在一个充满魔法的丛林里,周围是五颜六色的蘑菇和耀眼的萤火虫。画面摄取卡通立场,色调飘逸亮堂,营造出一种魔幻又中意的氛围。画面比例为 4:3。
我很趣味它能生成什么样的画面。你合计怎么样呢?
我确乎不太好评价,只可说这张图立场可人、充满童趣,色调温馨。若是用在儿童读物、绘本,或者早教、幼教的互动课件、手工素材里,确定是实足的。
接着我把图片拿给豆包,让他深度想考一下,说:你评价一下着力怎么样?我用的是 ChatGPT 4o 的最新文生图模子。
豆包说:
这幅图还挺可以。小猫的神采和衣服细节画得挺灵活,蘑菇和萤火虫也很有嗅觉。暖色调的小猫配上冷色的夜景,色调搭配融合,营造出一种黑甜乡又可人的氛围。
小猫在画面中间,构图看着很得志,主题也很凸起。画面全体质地挺高,能用到不少地点,这模子生成的着力挺好。"
日本鬼父第三季然则,问题来了,测试文生图也看不出它的犀利之处,试试它两张图的会通才能怎么样?
我从百度上马上下载了两个水杯的图片,这两个水杯王人处于确切的场景中,且每个水杯王人有手拿着。我想望望它是否能把手抠掉,把两个杯子放在吞并个平面上。
然后给到 Kimi,让 Kimi 帮我写个辅导词:
请将两张水杯图片中的手部部分去除,仅保留水杯自己,确保水杯的细节显著竣工。配景保持简略,以便用于电商海报策画。水杯的光影和质感需要保留,确保全体画面当然且具有眩惑力。
第一次它好像卡住了,跟我说:对不起,我处理不了你的条件,要不你再试试?
揣度是用的东谈主太多了。我再行开个窗口,这回它很快就有反应了。问题是,第一张像片处理得挺干净,但第二张平直被忽略了。
这下我可不干了,平直把条件说得明剖释白,一共四点:
把两只手王人去掉,只留住水杯;水杯的细节、质感和光影得保留好,看着得当然;配景要简分工净,凸起水杯;两个水杯放在一齐,比例要配合,画面得颜面。还非凡提醒它,尺寸要 4:3 的。
收尾它花了大略 40 秒,就科罚了。看到收尾时,确切只可陈赞:"这也太犀利了",策画师要下岗了。
你合计怎么样?速率、着力远比东谈主工抠图搞的快。
我又试了试 Chat GPT 4o 新出的学问图功能,官方吹的吹得妙趣横生,说有了这功能,AI 生成图片能把施行全国里的学问用起来,更懂用户想啥,作念出来的图也更靠谱、更稳妥常理。
浅薄说:AI 画画会酌量施行里的那些细节,比如地点在哪儿、啥文化配景,还有物理措施那些。
此次,让 deepseek 来,我说,你帮我写一个带因果逻辑的文生图的辅导词。有一个细节即是图片比例已经是 4:3。这是它马上给到的:
本色是一个阳光明媚的下昼,一个小男孩坐在公园的长椅上,手里拿着一个冰淇淋,脸上浮现快活的笑颜。
因为他刚在游乐场玩得很快活,咫尺正享受着厚味的冰淇淋。画面摄取温馨的色调,配景是绿树成荫的公园,迢遥有几个小一又友在玩耍。图片比例为 4:3,整身形度极新当然。
额,这看不出什么因果逻辑。怎么办?再行来过。索性平直把「定律」加在图中间。这是 deepseek 给我的两个辅导词:
一个是杠杆定律:生成一张图,一个小孩在跷跷板上,通过杠杆旨趣把一个重物抬起来。小孩使劲往下压,重物被举高,体现杠杆旨趣。配景浅薄,比例 4:3。
如上图。这看着像吗?的确很杠杆。给豆包后,它说:
这图是说,有个小孩在压跷跷板一头,想把另一头的大重物撬起来。就像玩跷跷板,坐一头能把另一头的东谈主翘起来,利用这个门径,无须费老无须费老迈劲就能把重东西抬起来,是一种省力的小秘诀。
的确有点强。不外兴许有些浅薄,换一个:就拿「相对论的时候彭胀效应」来测试。
辅导词:
生成一张图,展示两个东谈主:Alice 在地球上,Bob 在高速飞翔的寰宇飞船里。因为相对论的时候彭胀效应,Bob 看起来比 Alice 年青。地球上 Alice 在逐渐变老,而飞船里的 Bob 险些没变。配景浅薄,比例 4:3。
你能看得出来吗?
归正我能看得懂。不外,第一次生成时,Alice 的名字被放在了脚底下,看起来有点奇怪。过程二次对话微调后,告捷地把名字放到了正确的位置。
我认为还能在进化,比如:指定东谈主物的性别等等。
除了文生图、图片与图片合成、以及生成知道物理全国措施的图除外,还有莫得其他玩法呢?
试试立场革新。比如:将一张东谈主物像片革新为动漫立场,或者将一张图片的立场与另一张图片的本色会通,这种工夫在艺术创作和策画时非凡受用。
问题是怎么革新呢?我咫尺有一张个东谈主形象照,把问题甩给 DeepSeek,让它帮我想想。
DeepSeek 说:若是你想测试 OpenAI 的 ChatGPT 文生图模子的才能,可以出一个略略复杂极少但又具体明确的问题,这样既能覆按模子的知道才能,又能测试它的生成才能。
比如:我有一张个东谈主形象照,我想把它形成动漫立场。但愿你能帮我把像片里的我形成一个动漫变装,头发换成深蓝色的,整身形度有点赛博一又克那种酷酷的嗅觉。图片比例是 4:3 就行。
不论了,一股脑甩给 ChatGPT 4o 来处理。这好像有点翻车了。不外,可能我条件太高了。
的确有点抽象,你怎么看?
不论怎么说,非自追想模子(Non-autoregressive models)的进化速率确乎很快,它篡改了中枢架构。
这个架构会先知道通盘图的结构和细节,有点像学生先听完憨厚讲完题目,把整张画的玄虚勾画出来,然后再极少点填充细节。
国内许多居品也在用这种才能了,但愿能捏紧时候赶上并杰出它。四肢个东谈主,咱们也要想考一下:
如何快速掌抓 AI 生成图片的才能,并把它用到责任场景中。说到这儿sex5.,问题就来了:你会用它作念什么呢?快去试试吧,记起,用 ChatGPT 4o 模子才有。