<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>圖片生成 on EricChung的程式勇者村</title><link>https://ericchung24.github.io/blog/tags/%E5%9C%96%E7%89%87%E7%94%9F%E6%88%90/</link><description>Recent content in 圖片生成 on EricChung的程式勇者村</description><generator>Hugo -- gohugo.io</generator><language>zh-tw</language><lastBuildDate>Wed, 22 Apr 2026 00:30:00 +0800</lastBuildDate><atom:link href="https://ericchung24.github.io/blog/tags/%E5%9C%96%E7%89%87%E7%94%9F%E6%88%90/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenAI 最新圖片生成功能整理：現在不只是生圖，還能改圖、修字、做透明背景</title><link>https://ericchung24.github.io/blog/p/openai-%E6%9C%80%E6%96%B0%E5%9C%96%E7%89%87%E7%94%9F%E6%88%90%E5%8A%9F%E8%83%BD%E6%95%B4%E7%90%86%E7%8F%BE%E5%9C%A8%E4%B8%8D%E5%8F%AA%E6%98%AF%E7%94%9F%E5%9C%96%E9%82%84%E8%83%BD%E6%94%B9%E5%9C%96%E4%BF%AE%E5%AD%97%E5%81%9A%E9%80%8F%E6%98%8E%E8%83%8C%E6%99%AF/</link><pubDate>Wed, 22 Apr 2026 00:30:00 +0800</pubDate><guid>https://ericchung24.github.io/blog/p/openai-%E6%9C%80%E6%96%B0%E5%9C%96%E7%89%87%E7%94%9F%E6%88%90%E5%8A%9F%E8%83%BD%E6%95%B4%E7%90%86%E7%8F%BE%E5%9C%A8%E4%B8%8D%E5%8F%AA%E6%98%AF%E7%94%9F%E5%9C%96%E9%82%84%E8%83%BD%E6%94%B9%E5%9C%96%E4%BF%AE%E5%AD%97%E5%81%9A%E9%80%8F%E6%98%8E%E8%83%8C%E6%99%AF/</guid><description>&lt;img src="https://images.unsplash.com/photo-1516321318423-f06f85e504b3?auto=format&amp;fit=crop&amp;w=1200&amp;q=80" alt="Featured image of post OpenAI 最新圖片生成功能整理：現在不只是生圖，還能改圖、修字、做透明背景" /&gt;&lt;p&gt;如果你對 OpenAI 圖片功能的印象還停在「輸入一句 prompt，AI 幫你畫一張圖」，那現在已經不太一樣了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;截至 2026 年 4 月 22 日，OpenAI 官方文件已經把圖片能力往「生成 + 編修 + 多輪修改 + 可整合進產品」這條路推得很完整。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;而且重點不是只有「畫得更漂亮」，而是它開始更像一個真的可以工作的圖片工具。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="先講結論現在-openai-的圖片功能強在哪"&gt;先講結論：現在 OpenAI 的圖片功能強在哪？
&lt;/h2&gt;&lt;p&gt;如果用最白話的方式講，最新一代方向有 4 個重點：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;不只是生圖，還很強調改圖&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;對文字的理解和輸出更穩&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可以把圖片當輸入，做參考、重製、局部修改&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;不只給人手動玩，也很適合接進 App 或工作流程&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;這是它跟早期圖片模型最大的差別。&lt;/p&gt;
&lt;p&gt;以前很多 AI 生圖工具的體驗是：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;第一次很驚豔，第二次開始就發現它常常「知道你想幹嘛，但做不準」。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;現在 OpenAI 官方主推的 GPT Image 路線，明顯是在解這個問題。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="如果你只記得-dalle-3現在要更新一下印象"&gt;如果你只記得 DALL·E 3，現在要更新一下印象
&lt;/h2&gt;&lt;p&gt;很多人一提到 OpenAI 生圖，腦中第一個名字還是 &lt;strong&gt;DALL·E 3&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;但如果看官方現在的 API 文件，主力方向已經不是「DALL·E 系列是主角」了，而是 &lt;strong&gt;GPT Image 系列&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;官方文件目前已經列出：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;gpt-image-2&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-image-1.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-image-1&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-image-1-mini&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;其中 &lt;code&gt;gpt-image-1&lt;/code&gt; 在模型頁已經被標成 &lt;strong&gt;previous image generation model&lt;/strong&gt;，意思很明確：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;現在的新方向不是回到舊的 DALL·E 命名，而是把圖片能力整合進 GPT 系列能力裡。&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;這個變化很重要，因為它代表 OpenAI 不再把圖片當成一個獨立、孤立的模型功能，而是把它變成整體多模態能力的一部分。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="不是只會畫圖而是會照你的要求修改"&gt;不是只會「畫圖」，而是會「照你的要求修改」
&lt;/h2&gt;&lt;p&gt;這大概是一般使用者最有感的進步。&lt;/p&gt;
&lt;p&gt;以前很多 AI 生圖工具的問題是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;第一次生成還不錯&lt;/li&gt;
&lt;li&gt;但你一改需求，它就整張重來&lt;/li&gt;
&lt;li&gt;你想保留某個元素，它常常保不住&lt;/li&gt;
&lt;li&gt;你要它只改一小塊，它卻順手把別的地方也改掉&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;現在 OpenAI 官方文件很明確強調的能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;generate images&lt;/strong&gt;：從文字直接生成圖片&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;edit images&lt;/strong&gt;：修改既有圖片&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;image inputs&lt;/strong&gt;：可以把圖片本身當成輸入&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;multi-turn editing&lt;/strong&gt;：可以一輪一輪慢慢修&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這代表你比較像是在跟一個設計工具合作，而不是每次都在抽卡。&lt;/p&gt;
&lt;p&gt;例如你原本有一張商品圖，你可以要求它：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;把背景改成純白&lt;/li&gt;
&lt;li&gt;把杯子顏色改成霧黑&lt;/li&gt;
&lt;li&gt;保留 logo 不要變&lt;/li&gt;
&lt;li&gt;幫我加上透明背景版本&lt;/li&gt;
&lt;li&gt;把海報上的標題字改正&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些需求的價值，不在於「炫」，而在於&lt;strong&gt;真的有工作用途&lt;/strong&gt;。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="為什麼大家會特別在意文字能不能畫對"&gt;為什麼大家會特別在意「文字能不能畫對」？
&lt;/h2&gt;&lt;p&gt;因為這是早期 AI 圖片模型最容易翻車的地方之一。&lt;/p&gt;
&lt;p&gt;以前你叫它做一張海報、價目表、封面圖、社群貼文，常常畫面很漂亮，但字一放上去就變成亂碼。&lt;/p&gt;
&lt;p&gt;OpenAI 在官方介紹 API 圖片模型時，特別強調了幾件事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;better instruction following&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;accurately render text&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;use world knowledge&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;翻成白話就是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你叫它做什麼，它比較聽得懂&lt;/li&gt;
&lt;li&gt;圖裡的文字比較有機會真的寫對&lt;/li&gt;
&lt;li&gt;它對現實世界物件、情境、風格的理解更強&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這對一般人來說，意義非常直接。&lt;/p&gt;
&lt;p&gt;因為圖片 AI 真正有商業價值的場景，很多都不是純藝術創作，而是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;社群貼文圖&lt;/li&gt;
&lt;li&gt;活動宣傳圖&lt;/li&gt;
&lt;li&gt;商品示意圖&lt;/li&gt;
&lt;li&gt;App mockup&lt;/li&gt;
&lt;li&gt;簡報封面&lt;/li&gt;
&lt;li&gt;教學圖卡&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些東西幾乎都跟「字要對、版面要穩」有關。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="它現在比較像-photoshop--ai不只是-midjourney-式的靈感機器"&gt;它現在比較像 Photoshop + AI，不只是 Midjourney 式的靈感機器
&lt;/h2&gt;&lt;p&gt;這句話不是在做產品比較，而是在講使用心智。&lt;/p&gt;
&lt;p&gt;很多人以前對 AI 生圖工具的期待是：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;幫我畫一張很酷的圖。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;但 OpenAI 現在這條路更像是：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;幫我把這張圖做成我真的能用的版本。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;差別很大。&lt;/p&gt;
&lt;p&gt;前者偏創意發想，後者偏工作流。&lt;/p&gt;
&lt;p&gt;所以 OpenAI 這套圖片能力特別適合下面這些人：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;要快速做視覺素材的內容創作者&lt;/li&gt;
&lt;li&gt;要產商品圖、行銷圖的電商團隊&lt;/li&gt;
&lt;li&gt;要做封面、插圖、概念圖的自媒體或設計師&lt;/li&gt;
&lt;li&gt;想把生圖功能整合進產品的開發者&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="開發者視角現在可以怎麼接進產品"&gt;開發者視角：現在可以怎麼接進產品？
&lt;/h2&gt;&lt;p&gt;如果你是工程師，這一段比較重要。&lt;/p&gt;
&lt;p&gt;OpenAI 目前把圖片能力放在兩種主要用法裡：&lt;/p&gt;
&lt;h3 id="1-image-api"&gt;1. Image API
&lt;/h3&gt;&lt;p&gt;適合這種需求：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;單次生成一張圖&lt;/li&gt;
&lt;li&gt;單次改一張圖&lt;/li&gt;
&lt;li&gt;後端明確控制輸入與輸出&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這種模式比較像：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;我知道我要做什麼，直接呼叫 API 執行。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3 id="2-responses-api--image_generation-tool"&gt;2. Responses API + &lt;code&gt;image_generation&lt;/code&gt; tool
&lt;/h3&gt;&lt;p&gt;適合這種需求：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;對話中順手生成圖片&lt;/li&gt;
&lt;li&gt;讓模型自己判斷現在該不該出圖&lt;/li&gt;
&lt;li&gt;在多輪流程中反覆改圖&lt;/li&gt;
&lt;li&gt;做聊天型產品、助理型產品、創作工具&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這種模式比較像：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;我不是只做一次生圖，而是要把圖片能力放進整個互動流程裡。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;這也是現在 OpenAI 很明顯在推的方向：&lt;strong&gt;圖片不是單獨功能，而是 Agent / Assistant / Workflow 的一部分。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="具體可控制哪些東西"&gt;具體可控制哪些東西？
&lt;/h2&gt;&lt;p&gt;根據官方文件，現在圖片輸出可以控制的面向包含：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;尺寸&lt;/strong&gt;：例如方圖、直式圖、橫式圖&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;品質&lt;/strong&gt;：低、中、高&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;格式&lt;/strong&gt;：不同輸出格式&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;壓縮&lt;/strong&gt;：JPEG / WebP 可調整壓縮程度&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;背景&lt;/strong&gt;：透明或不透明&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;動作&lt;/strong&gt;：自動判斷、直接生成、或編輯圖片&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這代表它不是只有「給你一張圖」，而是可以更接近實際產品需求。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;電商商品卡需要透明背景&lt;/li&gt;
&lt;li&gt;部落格首圖要橫式比例&lt;/li&gt;
&lt;li&gt;App 內縮圖要控制檔案大小&lt;/li&gt;
&lt;li&gt;編輯器產品需要保留原圖細節再微調&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些都比「能不能畫出一隻貓」更接近真實世界。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一般人現在最適合怎麼用"&gt;一般人現在最適合怎麼用？
&lt;/h2&gt;&lt;p&gt;如果你不是開發者，最實際的使用方式其實不是追求最複雜 prompt，而是先從「明確任務」開始。&lt;/p&gt;
&lt;p&gt;比方說：&lt;/p&gt;
&lt;h3 id="1-做社群圖"&gt;1. 做社群圖
&lt;/h3&gt;&lt;p&gt;不要只寫：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;幫我畫一張科技感圖片&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;比較好的寫法是：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;幫我做一張 16:9 的科技風社群首圖，主題是 AI 自動化，背景乾淨，標題預留空間在左上角。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3 id="2-改現有圖片"&gt;2. 改現有圖片
&lt;/h3&gt;&lt;p&gt;如果你已經有圖，通常比從零開始生更穩。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;保留人物與構圖，把背景改成簡潔辦公室風格，顏色改冷色調。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3 id="3-做有字的圖"&gt;3. 做有字的圖
&lt;/h3&gt;&lt;p&gt;請把文字內容直接寫清楚，並拆成層次。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;做一張活動海報。主標題是「React 前端讀書會」，副標題是「週三晚上 7:30」，底部加上「台北市大安區」。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;這種寫法通常會比只丟一個模糊句子好很多。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="這一波更新真正代表什麼"&gt;這一波更新真正代表什麼？
&lt;/h2&gt;&lt;p&gt;我覺得重點不是「OpenAI 也能生圖了」。&lt;/p&gt;
&lt;p&gt;那早就不是新聞。&lt;/p&gt;
&lt;p&gt;真正重要的是：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;OpenAI 正在把圖片能力從展示型功能，推進到可工作的基礎能力。&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;也就是說，它不是只拿來玩，而是越來越像：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可接進產品的 API&lt;/li&gt;
&lt;li&gt;可放進團隊流程的工具&lt;/li&gt;
&lt;li&gt;可反覆修改的視覺工作台&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你是一般使用者，感受到的會是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;它比較不再像一次性玩具，而比較像真的能幫你省時間。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;如果你是開發者，感受到的會是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;圖片生成不再只是附加功能，而是可以變成產品功能本身。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="最後整理"&gt;最後整理
&lt;/h2&gt;&lt;p&gt;如果用一句話總結：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;OpenAI 最新圖片生成功能的重點，不只是更會畫，而是更會照要求生成、修改，並且更容易接進真實工作流程。&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;所以如果你最近才重新注意到 OpenAI 的圖片能力，可以先更新三個印象：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;主力已經是 GPT Image 系列，不只是 DALL·E&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;重點能力是生成 + 編修 + 多輪修改&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;它的價值正在從「好玩」轉向「好用」&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果你後面想看，我也可以再補一篇：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;OpenAI 圖片 API 怎麼串？前端工程師快速上手版&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;ChatGPT 生圖 prompt 怎麼寫，成功率比較高？&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;OpenAI 生圖 vs Midjourney vs Flux，差別到底在哪？&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="參考資料"&gt;參考資料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://developers.openai.com/api/docs/guides/image-generation" target="_blank" rel="noopener"
&gt;OpenAI 官方圖片生成指南&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://developers.openai.com/api/docs/guides/tools-image-generation" target="_blank" rel="noopener"
&gt;OpenAI 官方 image generation tool 文件&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/image-generation-api/" target="_blank" rel="noopener"
&gt;OpenAI 圖片模型介紹：Introducing our latest image generation model in the API&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://developers.openai.com/api/docs/models/gpt-image-1" target="_blank" rel="noopener"
&gt;OpenAI 模型頁：GPT Image 1&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>