Featured image of post OpenAI 最新圖片生成功能整理:現在不只是生圖,還能改圖、修字、做透明背景

OpenAI 最新圖片生成功能整理:現在不只是生圖,還能改圖、修字、做透明背景

如果你對 OpenAI 的印象還停在 DALL·E 3,那已經有點過時了。這篇用一般人看得懂的方式,整理 OpenAI 最新圖片生成功能到底進步在哪。

如果你對 OpenAI 圖片功能的印象還停在「輸入一句 prompt,AI 幫你畫一張圖」,那現在已經不太一樣了。

截至 2026 年 4 月 22 日,OpenAI 官方文件已經把圖片能力往「生成 + 編修 + 多輪修改 + 可整合進產品」這條路推得很完整。

而且重點不是只有「畫得更漂亮」,而是它開始更像一個真的可以工作的圖片工具。


先講結論:現在 OpenAI 的圖片功能強在哪?

如果用最白話的方式講,最新一代方向有 4 個重點:

  1. 不只是生圖,還很強調改圖
  2. 對文字的理解和輸出更穩
  3. 可以把圖片當輸入,做參考、重製、局部修改
  4. 不只給人手動玩,也很適合接進 App 或工作流程

這是它跟早期圖片模型最大的差別。

以前很多 AI 生圖工具的體驗是:

第一次很驚豔,第二次開始就發現它常常「知道你想幹嘛,但做不準」。

現在 OpenAI 官方主推的 GPT Image 路線,明顯是在解這個問題。


如果你只記得 DALL·E 3,現在要更新一下印象

很多人一提到 OpenAI 生圖,腦中第一個名字還是 DALL·E 3

但如果看官方現在的 API 文件,主力方向已經不是「DALL·E 系列是主角」了,而是 GPT Image 系列

官方文件目前已經列出:

  • gpt-image-2
  • gpt-image-1.5
  • gpt-image-1
  • gpt-image-1-mini

其中 gpt-image-1 在模型頁已經被標成 previous image generation model,意思很明確:

現在的新方向不是回到舊的 DALL·E 命名,而是把圖片能力整合進 GPT 系列能力裡。

這個變化很重要,因為它代表 OpenAI 不再把圖片當成一個獨立、孤立的模型功能,而是把它變成整體多模態能力的一部分。


不是只會「畫圖」,而是會「照你的要求修改」

這大概是一般使用者最有感的進步。

以前很多 AI 生圖工具的問題是:

  • 第一次生成還不錯
  • 但你一改需求,它就整張重來
  • 你想保留某個元素,它常常保不住
  • 你要它只改一小塊,它卻順手把別的地方也改掉

現在 OpenAI 官方文件很明確強調的能力包括:

  • generate images:從文字直接生成圖片
  • edit images:修改既有圖片
  • image inputs:可以把圖片本身當成輸入
  • multi-turn editing:可以一輪一輪慢慢修

這代表你比較像是在跟一個設計工具合作,而不是每次都在抽卡。

例如你原本有一張商品圖,你可以要求它:

  • 把背景改成純白
  • 把杯子顏色改成霧黑
  • 保留 logo 不要變
  • 幫我加上透明背景版本
  • 把海報上的標題字改正

這些需求的價值,不在於「炫」,而在於真的有工作用途


為什麼大家會特別在意「文字能不能畫對」?

因為這是早期 AI 圖片模型最容易翻車的地方之一。

以前你叫它做一張海報、價目表、封面圖、社群貼文,常常畫面很漂亮,但字一放上去就變成亂碼。

OpenAI 在官方介紹 API 圖片模型時,特別強調了幾件事:

  • better instruction following
  • accurately render text
  • use world knowledge

翻成白話就是:

  • 你叫它做什麼,它比較聽得懂
  • 圖裡的文字比較有機會真的寫對
  • 它對現實世界物件、情境、風格的理解更強

這對一般人來說,意義非常直接。

因為圖片 AI 真正有商業價值的場景,很多都不是純藝術創作,而是:

  • 社群貼文圖
  • 活動宣傳圖
  • 商品示意圖
  • App mockup
  • 簡報封面
  • 教學圖卡

這些東西幾乎都跟「字要對、版面要穩」有關。


它現在比較像 Photoshop + AI,不只是 Midjourney 式的靈感機器

這句話不是在做產品比較,而是在講使用心智。

很多人以前對 AI 生圖工具的期待是:

幫我畫一張很酷的圖。

但 OpenAI 現在這條路更像是:

幫我把這張圖做成我真的能用的版本。

差別很大。

前者偏創意發想,後者偏工作流。

所以 OpenAI 這套圖片能力特別適合下面這些人:

  • 要快速做視覺素材的內容創作者
  • 要產商品圖、行銷圖的電商團隊
  • 要做封面、插圖、概念圖的自媒體或設計師
  • 想把生圖功能整合進產品的開發者

開發者視角:現在可以怎麼接進產品?

如果你是工程師,這一段比較重要。

OpenAI 目前把圖片能力放在兩種主要用法裡:

1. Image API

適合這種需求:

  • 單次生成一張圖
  • 單次改一張圖
  • 後端明確控制輸入與輸出

這種模式比較像:

我知道我要做什麼,直接呼叫 API 執行。

2. Responses API + image_generation tool

適合這種需求:

  • 對話中順手生成圖片
  • 讓模型自己判斷現在該不該出圖
  • 在多輪流程中反覆改圖
  • 做聊天型產品、助理型產品、創作工具

這種模式比較像:

我不是只做一次生圖,而是要把圖片能力放進整個互動流程裡。

這也是現在 OpenAI 很明顯在推的方向:圖片不是單獨功能,而是 Agent / Assistant / Workflow 的一部分。


具體可控制哪些東西?

根據官方文件,現在圖片輸出可以控制的面向包含:

  • 尺寸:例如方圖、直式圖、橫式圖
  • 品質:低、中、高
  • 格式:不同輸出格式
  • 壓縮:JPEG / WebP 可調整壓縮程度
  • 背景:透明或不透明
  • 動作:自動判斷、直接生成、或編輯圖片

這代表它不是只有「給你一張圖」,而是可以更接近實際產品需求。

例如:

  • 電商商品卡需要透明背景
  • 部落格首圖要橫式比例
  • App 內縮圖要控制檔案大小
  • 編輯器產品需要保留原圖細節再微調

這些都比「能不能畫出一隻貓」更接近真實世界。


一般人現在最適合怎麼用?

如果你不是開發者,最實際的使用方式其實不是追求最複雜 prompt,而是先從「明確任務」開始。

比方說:

1. 做社群圖

不要只寫:

幫我畫一張科技感圖片

比較好的寫法是:

幫我做一張 16:9 的科技風社群首圖,主題是 AI 自動化,背景乾淨,標題預留空間在左上角。

2. 改現有圖片

如果你已經有圖,通常比從零開始生更穩。

例如:

保留人物與構圖,把背景改成簡潔辦公室風格,顏色改冷色調。

3. 做有字的圖

請把文字內容直接寫清楚,並拆成層次。

例如:

做一張活動海報。主標題是「React 前端讀書會」,副標題是「週三晚上 7:30」,底部加上「台北市大安區」。

這種寫法通常會比只丟一個模糊句子好很多。


這一波更新真正代表什麼?

我覺得重點不是「OpenAI 也能生圖了」。

那早就不是新聞。

真正重要的是:

OpenAI 正在把圖片能力從展示型功能,推進到可工作的基礎能力。

也就是說,它不是只拿來玩,而是越來越像:

  • 可接進產品的 API
  • 可放進團隊流程的工具
  • 可反覆修改的視覺工作台

如果你是一般使用者,感受到的會是:

它比較不再像一次性玩具,而比較像真的能幫你省時間。

如果你是開發者,感受到的會是:

圖片生成不再只是附加功能,而是可以變成產品功能本身。


最後整理

如果用一句話總結:

OpenAI 最新圖片生成功能的重點,不只是更會畫,而是更會照要求生成、修改,並且更容易接進真實工作流程。

所以如果你最近才重新注意到 OpenAI 的圖片能力,可以先更新三個印象:

  1. 主力已經是 GPT Image 系列,不只是 DALL·E
  2. 重點能力是生成 + 編修 + 多輪修改
  3. 它的價值正在從「好玩」轉向「好用」

如果你後面想看,我也可以再補一篇:

  • OpenAI 圖片 API 怎麼串?前端工程師快速上手版
  • ChatGPT 生圖 prompt 怎麼寫,成功率比較高?
  • OpenAI 生圖 vs Midjourney vs Flux,差別到底在哪?

參考資料

使用 Hugo 建立
主題 StackJimmy 設計