sex5. 被误导两天，GPT-4o文生图模子强到可怕

你的位置：幼女调教 > 天天影视圈 > sex5. 被误导两天，GPT-4o文生图模子强到可怕

sex5. 被误导两天，GPT-4o文生图模子强到可怕

发布日期：2025-07-06 11:17 点击次数：171

前天sex5.，写了一篇对于 ChatGPT 文生图功能的著述。

发到知乎后，一位 2021 年的年度新知答主提议了质疑，认为我使用的可能不是最新的模子，因为新旧版块差距很大。

他指出，最新版文生图才能很强，而我展示的收尾辅导词知道差，生成的翰墨也失实许多。

他例如说，像辅导词「两个东谈主互相推对方」这种浅薄意见，确切最新版模子应该能准确证实。他还建议我搜检是否使用了新模子，并给了我一个连结，称那是最新版的界面。

他还共享了一个考证门径：

输入 100+ 个英文单词，若是翰墨全乱即是其他模子（如 DALL·E），若是只错一两个字母才是最新版的 ChatGPT。

他还晒出了两次按我的辅导词生成的收尾，质疑不可王人用"马上性"来证明。被他这样一说，我怀疑我方用错了模子，我之前用的 ChatGPT 客户端，拿它生成的来比，着力的确有有互异，于是，决定再行试一下。

领先，我用了这位新知答主给我的辅导词，如下：

Alright， here ’ s a shorter version:12 flowers in a 4x3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom

ylang-ylang， osmanthus， yellow champaca; tuberose， gardenia， jasmine; carnation， peony， pink hyacinth; blue iris， violet， wisteria. Photo taken on a sunny afternoon

英文快乐相比长，翻译成缩减的中语是：

从正上方俯拍的 12 种花，呈四行三列摆放。第一转有依兰、桂花和黄缅栀子；第二行有晚香玉、栀子花和茉莉；

第三行有康乃馨、牡丹和粉色风信子；第四行有蓝鸢尾、紫罗兰和紫藤。扫数的花王人放在一个带玻璃底的木质托盘上，玻璃上有一层透明的动物脂肪。像片拍摄于一个阳光明媚的下昼，托盘被阳光透顶照亮。

ChatGPT 很快给出了谜底。此次生成与以往不同的是，它补充了一句话：笔据你的描述，这是由 DALL·E 创建的。DALL·E 是 OpenAI 的图像生成模子。

看来，不仅我遭遇过前天提到的模子浑浊问题，揣度海外友东谈主也遭遇过肖似情况。

从这里可以得出一个论断：ChatGPT 官方提到的免费试用最新的非自追想模子（Non-autoregressive models）似乎并不解救，或者说作念了一定规模。

于是，我平直把问题抛给了 ChatGPT：如何利用最新的文生图模子？"它给出了三种谜底：

第一种是平直使用 ChatGPT 内置的图像生告捷能，平直输入详备的描述，它会用最新的模子生成图像。你可以优化辅导词（Prompt），比如：

具体描述主体、配景、光照、立场等指定构图，比如"俯瞰图""广角镜头"遴选艺术立场，如"油画风""赛博一又克风"

第二种是使用 API，你可以进行批量生成或将其集合到作品中；第三种则是纯先容，它提到新的文生图模子作念了多模态集合，生成带有故事性的一语气图像，用 AI 先生成草图，再细化成良好插画等。

不想太多，我平直按照它的条件，把任务交给了 Kimi，让 Kimi 帮我生成一个辅导词：

在晦暗的相持书斋里，一盏台灯散漫着柔软的暖光，照亮了一张迂腐的木质书桌。书桌上洒落着几本泛黄的竹素和一支羽羊毫，摆布是一杯冒着热气的红茶。画面摄取油画立场，营造出宁静而怀旧的氛围，仿佛时候在这里静止。

ChatGPT 生成的图片如下，然则，它已经照旧那句话，这是由 DALL·E 生成的图像，展现了你描述的相持书斋氛围；很快，ChatGPT 将推出新的图像生成模子，带来更好的细节和立场戒指。

是以，论断是：ChatGPT 模子是无法使用最新的文生图模子的。怎么办？为了考证准确度，好久莫得给 ChatGPT 充值的我，索性再来了一个月会员。

科罚后，切换到 ChatGPT 4o 对话界面，输入辅导词：

在一派宁静的海边小镇，夕阳的余光洒在迂腐的灯塔上，灯塔的影子拉得很长。迢遥的海面上，几艘划子在金色的波光中逐渐飞动，天外中飘着几朵粉色的云。画面摄取水彩画立场，色调柔软而仁和，营造出一种宁静而黑甜乡的氛围。

反应速率有点慢，不外，生成的图片的确有境界：

是以，必须 ChatGPT 4o 才可以用，GPT 照旧老版块的 DALL·E 模子。随后，我又给它了一个卡通东谈主物的辅导词：

一个清明可人的卡通小猫，有着大大的蓝色眼睛和柔嫩的粉色耳朵，身上穿戴一件红色的小背带裤，脚上蹬着一对黄色的小靴子。

它正站在一个充满魔法的丛林里，周围是五颜六色的蘑菇和耀眼的萤火虫。画面摄取卡通立场，色调飘逸亮堂，营造出一种魔幻又中意的氛围。画面比例为 4:3。

我很趣味它能生成什么样的画面。你合计怎么样呢？

我确乎不太好评价，只可说这张图立场可人、充满童趣，色调温馨。若是用在儿童读物、绘本，或者早教、幼教的互动课件、手工素材里，确定是实足的。

接着我把图片拿给豆包，让他深度想考一下，说：你评价一下着力怎么样？我用的是 ChatGPT 4o 的最新文生图模子。

豆包说：

这幅图还挺可以。小猫的神采和衣服细节画得挺灵活，蘑菇和萤火虫也很有嗅觉。暖色调的小猫配上冷色的夜景，色调搭配融合，营造出一种黑甜乡又可人的氛围。

小猫在画面中间，构图看着很得志，主题也很凸起。画面全体质地挺高，能用到不少地点，这模子生成的着力挺好。"

日本鬼父第三季

然则，问题来了，测试文生图也看不出它的犀利之处，试试它两张图的会通才能怎么样？

我从百度上马上下载了两个水杯的图片，这两个水杯王人处于确切的场景中，且每个水杯王人有手拿着。我想望望它是否能把手抠掉，把两个杯子放在吞并个平面上。

然后给到 Kimi，让 Kimi 帮我写个辅导词：

请将两张水杯图片中的手部部分去除，仅保留水杯自己，确保水杯的细节显著竣工。配景保持简略，以便用于电商海报策画。水杯的光影和质感需要保留，确保全体画面当然且具有眩惑力。

第一次它好像卡住了，跟我说：对不起，我处理不了你的条件，要不你再试试？

揣度是用的东谈主太多了。我再行开个窗口，这回它很快就有反应了。问题是，第一张像片处理得挺干净，但第二张平直被忽略了。

这下我可不干了，平直把条件说得明剖释白，一共四点：

把两只手王人去掉，只留住水杯；水杯的细节、质感和光影得保留好，看着得当然；配景要简分工净，凸起水杯；两个水杯放在一齐，比例要配合，画面得颜面。还非凡提醒它，尺寸要 4:3 的。

收尾它花了大略 40 秒，就科罚了。看到收尾时，确切只可陈赞："这也太犀利了"，策画师要下岗了。

你合计怎么样？速率、着力远比东谈主工抠图搞的快。

我又试了试 Chat GPT 4o 新出的学问图功能，官方吹的吹得妙趣横生，说有了这功能，AI 生成图片能把施行全国里的学问用起来，更懂用户想啥，作念出来的图也更靠谱、更稳妥常理。

浅薄说：AI 画画会酌量施行里的那些细节，比如地点在哪儿、啥文化配景，还有物理措施那些。

此次，让 deepseek 来，我说，你帮我写一个带因果逻辑的文生图的辅导词。有一个细节即是图片比例已经是 4:3。这是它马上给到的：

本色是一个阳光明媚的下昼，一个小男孩坐在公园的长椅上，手里拿着一个冰淇淋，脸上浮现快活的笑颜。

因为他刚在游乐场玩得很快活，咫尺正享受着厚味的冰淇淋。画面摄取温馨的色调，配景是绿树成荫的公园，迢遥有几个小一又友在玩耍。图片比例为 4:3，整身形度极新当然。

额，这看不出什么因果逻辑。怎么办？再行来过。索性平直把「定律」加在图中间。这是 deepseek 给我的两个辅导词：

一个是杠杆定律：生成一张图，一个小孩在跷跷板上，通过杠杆旨趣把一个重物抬起来。小孩使劲往下压，重物被举高，体现杠杆旨趣。配景浅薄，比例 4:3。

如上图。这看着像吗？的确很杠杆。给豆包后，它说：

这图是说，有个小孩在压跷跷板一头，想把另一头的大重物撬起来。就像玩跷跷板，坐一头能把另一头的东谈主翘起来，利用这个门径，无须费老无须费老迈劲就能把重东西抬起来，是一种省力的小秘诀。

的确有点强。不外兴许有些浅薄，换一个：就拿「相对论的时候彭胀效应」来测试。

辅导词：

生成一张图，展示两个东谈主：Alice 在地球上，Bob 在高速飞翔的寰宇飞船里。因为相对论的时候彭胀效应，Bob 看起来比 Alice 年青。地球上 Alice 在逐渐变老，而飞船里的 Bob 险些没变。配景浅薄，比例 4:3。

你能看得出来吗？

归正我能看得懂。不外，第一次生成时，Alice 的名字被放在了脚底下，看起来有点奇怪。过程二次对话微调后，告捷地把名字放到了正确的位置。

我认为还能在进化，比如：指定东谈主物的性别等等。

除了文生图、图片与图片合成、以及生成知道物理全国措施的图除外，还有莫得其他玩法呢？

试试立场革新。比如：将一张东谈主物像片革新为动漫立场，或者将一张图片的立场与另一张图片的本色会通，这种工夫在艺术创作和策画时非凡受用。

问题是怎么革新呢？我咫尺有一张个东谈主形象照，把问题甩给 DeepSeek，让它帮我想想。

DeepSeek 说：若是你想测试 OpenAI 的 ChatGPT 文生图模子的才能，可以出一个略略复杂极少但又具体明确的问题，这样既能覆按模子的知道才能，又能测试它的生成才能。

比如：我有一张个东谈主形象照，我想把它形成动漫立场。但愿你能帮我把像片里的我形成一个动漫变装，头发换成深蓝色的，整身形度有点赛博一又克那种酷酷的嗅觉。图片比例是 4:3 就行。

不论了，一股脑甩给 ChatGPT 4o 来处理。这好像有点翻车了。不外，可能我条件太高了。

的确有点抽象，你怎么看？

不论怎么说，非自追想模子（Non-autoregressive models）的进化速率确乎很快，它篡改了中枢架构。

这个架构会先知道通盘图的结构和细节，有点像学生先听完憨厚讲完题目，把整张画的玄虚勾画出来，然后再极少点填充细节。

国内许多居品也在用这种才能了，但愿能捏紧时候赶上并杰出它。四肢个东谈主，咱们也要想考一下：

如何快速掌抓 AI 生成图片的才能，并把它用到责任场景中。说到这儿sex5.，问题就来了：你会用它作念什么呢？快去试试吧，记起，用 ChatGPT 4o 模子才有。

相关资讯

热点资讯

友情链接：