如何透過 OpenRouter 使用 Gemini 2.5 Flash Image (Nano Banana) 進行影像生成與編輯

在人工智慧影像生成領域,Google 最新推出的 Gemini 2.5 Flash Image 模型(暱稱「Nano Banana」)正在改變遊戲規則。這個模型不僅能快速生成高品質影像,更擅長精確的影像編輯與多影像融合。更棒的是,透過 OpenRouter 的 API,我們可以用與 OpenAI 相容的方式來呼叫這個強大的工具。

為什麼選擇 Nano Banana?

從實務角度來看,Gemini 2.5 Flash Image 最大的優勢在於它結合了大型語言模型的世界知識與擴散模型的高品質輸出。這意味著當你要求模型進行編輯時,它不只是盲目地修改像素,而是真正理解你想要什麼。舉例來說,當你要求「在雨中的人行道上增加霓虹燈反射」時,模型會理解物理光線的運作方式,創造出更逼真的效果。

這個模型特別適合需要保持角色一致性的工作流程。如果你需要為同一個角色生成多個場景,或是在不同的背景中保持品牌視覺的一致性,Nano Banana 的表現會讓你驚艷。對於需要大量影像編輯的專案來說,它的成本效益和處理速度也是重要考量。

核心功能概覽

Nano Banana 主要提供三大核心能力:

快速影像生成 - 從文字描述直接生成高品質影像,適合需要快速產出視覺素材的場景。

精確影像編輯 - 針對現有影像進行局部或整體的調整,包括色調、光線、物件的增減等。這個功能特別適合需要微調產品照片或調整視覺風格的情況。

多影像融合 - 可以同時處理多張影像,將不同來源的視覺元素整合在一起,同時保持角色或物件的一致性。

API 規格總覽

項目 說明
模型代號 google/gemini-2.5-flash-image-preview
API 端點 /api/v1/chat/completions
基礎 URL OpenRouter
輸入模式 需設定 modalities 包含 “text” 和 “image”
影像輸入格式 使用 image_url 類型,支援公開 URL 或 base64 資料
輸出格式 影像會在聊天訊息內容中回傳
選用標頭 HTTP-Referer 和 X-Title 用於顯示在排行榜

開始使用前的準備

首先,你需要從 OpenRouter 取得 API 金鑰。OpenRouter 的優勢在於它提供了統一的介面來存取數百個不同的 AI 模型,而 Nano Banana 正是透過這個平台首次開放給廣大開發者使用。

設定過程很簡單:將你的 SDK 或 HTTP 客戶端指向 https://openrouter.ai/api/v1,這樣就能使用與 OpenAI 相容的聊天完成 API。雖然不是必要的,但建議加入 HTTP-Referer 和 X-Title 標頭,這樣可以在 OpenRouter 排行榜上追蹤你的使用情況。

基礎影像生成範例

使用 cURL 來生成一張全新的影像非常直觀。以下範例展示如何創建一個黃昏時分的街景:

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -H "HTTP-Referer: https://example.com" \
  -H "X-Title: Nano Banana Demo" \
  -d '{
    "model": "google/gemini-2.5-flash-image-preview",
    "modalities": ["text", "image"],
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "生成一個黃昏時分的寫實街景,有溫暖的霓虹招牌和細雨" }
        ]
      }
    ]
  }'

執行呼叫後,你需要遍歷回應中的 choices.message.content,找到影像項目來下載和儲存輸出的影像。

影像編輯實戰

影像編輯是 Nano Banana 真正發揮實力的地方。你可以透過 image_url 提供輸入影像,然後用自然語言描述你想要的修改。這個功能支援構圖調整、色彩校正,甚至是物件層級的變更。

更厲害的是,你可以在同一個請求中包含多張影像,讓模型進行影像融合或在不同場景中保持角色的一致性。這對於創建系列視覺內容或維持品牌視覺統一性特別有用。

INPUT_IMAGE_URL="https://example.com/original.jpg"

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash-image-preview",
    "modalities": ["text", "image"],
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "image_url", "image_url": { "url": "'"$INPUT_IMAGE_URL"'" } },
          { "type": "text", "text": "在濕潤的人行道上增加淡淡的霓虹燈反射,將招牌改為柔和的青色,並保持人物臉部的一致性" }
        ]
      }
    ]
  }'

JavaScript 整合方式

OpenRouter 與 OpenAI SDK 完全相容,這表示你可以使用熟悉的工具,只需要更改基礎 URL 和 API 金鑰即可:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.OPENROUTER_API_KEY,
  baseURL: "https://openrouter.ai/api/v1",
});

const resp = await client.chat.completions.create({
  model: "google/gemini-2.5-flash-image-preview",
  modalities: ["text", "image"],
  messages: [
    {
      role: "user",
      content: [
        { type: "text", text: "生成一個雨窗邊的舒適閱讀角落,溫暖的鎢絲燈光,柔和的藍綠色調" },
      ],
    },
  ],
});

在回應中找到影像內容並下載即可。進行編輯時,只需要在用戶內容中加入一個或多個 image_url 部分,然後再提供文字編輯指示。

Python 實作範例

Python 開發者同樣可以使用官方的 OpenAI 客戶端,只要切換 base_url 到 OpenRouter:

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["OPENROUTER_API_KEY"],
    base_url="https://openrouter.ai/api/v1",
)

resp = client.chat.completions.create(
    model="google/gemini-2.5-flash-image-preview",
    modalities=["text", "image"],
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "創建一個現代產品英雄照,放在光滑的黑色表面上,有柔和的輪廓光"}
            ],
        }
    ],
)

從回應的 choices[0].message.content 中提取影像內容並儲存即可。

實務經驗與注意事項

在實際使用過程中,我發現幾個需要注意的地方:

確認模式設定 - 如果生成時只回傳文字而沒有影像,請確認 modalities 包含了 “image”,並且確認所選的模型在 OpenRouter 的模型清單中支援影像輸出。

提示詞的品質 - 結果的品質和穩定性會隨著提示詞的精確度而變化。建議使用迭代式的提示方法,並提供更清晰的編輯指示。我發現使用具體的視覺描述(如「柔和的青色霓虹燈」而非「漂亮的燈光」)會得到更穩定的結果。

大規模應用 - 對於需要大量影像編輯的工作流程,Nano Banana 的成本效益相當出色,特別是當你從單一來源影像開始進行變化時,它在保持角色一致性方面的表現讓人印象深刻。

定價考量

OpenRouter 的模型卡會列出即時定價和每張影像的計費方式,實際費用可能因路由選擇或更新而有所不同。根據 Google 的公告,透過 Gemini API 使用 Gemini 2.5 Flash Image 的費用約為每張影像 $0.039 美元,而 OpenRouter 則透過自己的統一定價和路由層來提供這個模型。

為什麼這個工具值得關注

Nano Banana 的獨特之處在於它將大型語言模型的世界知識與擴散模型品質的輸出結合在一起。這讓它能夠進行更符合語義的編輯,並在不同場景和變化版本中保持高度一致性。

透過 OpenRouter 的整合,你可以用同一套程式碼來呼叫這個模型以及其他數百個模型,大大簡化了整合流程。同時,它支援在單一請求中進行多影像生成,這在許多實際應用場景中都非常實用。

實務建議

根據我的使用經驗,Nano Banana 最適合作為超快速的編輯器來使用,而且它具備世界知識的控制能力。最好的做法是提供一張高品質的基礎影像,然後使用精確的編輯提示來獲得可靠且符合品牌調性的結果。

當你在處理需要保持視覺一致性的系列內容時,先建立一個滿意的基準影像,然後用它來生成變化版本,這樣可以確保整體風格的統一。對於需要快速迭代的專案,這個工具的速度優勢會讓你的工作流程更加順暢。


讓您的數位專案更上一層樓

在這個 AI 影像生成技術快速發展的時代,掌握正確的工具和方法能為您的品牌帶來巨大優勢。如果您正在尋找專業的數位策略夥伴,協助您將這些創新技術整合到實際的行銷和品牌建設中,Tenten 提供全方位的數位代理服務,從品牌策略、視覺設計到技術整合,我們都能為您提供專業的解決方案。

無論您是想要建立更有效的視覺內容工作流程,或是需要專業團隊協助您探索 AI 工具在品牌應用上的可能性,我們都樂意與您討論。立即預約諮詢,讓我們一起探討如何運用創新技術為您的品牌創造更大價值。