置放事項多個媒體檔案改善以下指示少量的鏡頭範例邊界框偵測更豐富的輸出或樣式將文件內容擷取至 Markdown 用於視覺理解的推論參數設定影片分類

視覺理解提示技巧

下列視覺提示技巧可協助您為 Amazon Nova 建立更好的提示。

主題

置放事項
具有視覺元件的多個媒體檔案
使用使用者指示來改善以下指示，以理解視覺任務
少量的鏡頭範例
邊界框偵測
更豐富的輸出或樣式
將文件內容擷取至 Markdown
用於視覺理解的推論參數設定
影片分類

置放事項

我們建議您在新增任何文件之前放置媒體檔案（例如影像或影片），接著是指示文字或提示來引導模型。雖然在文字之後放置或與文字相交的影像仍然可以充分執行，但如果使用案例允許，則 {media_file}-then-{text} 結構是慣用的方法。

執行視覺理解時，下列範本可用於在文字之前放置媒體檔案。


{
      "role": "user",
      "content": [
        {
          "image": "..."
        },
        {
          "video": "..."
        },
        {
          "document": "..."
        },
        {
          "text": "..."
        }
      ]
}

	未遵循結構化	最佳化提示
使用者	說明影像中發生的情況【Image1.png】	【Image1.png】說明影像中發生什麼情況？

未遵循結構化

最佳化提示

使用者

說明影像中發生的情況【Image1.png】

【Image1.png】

說明影像中發生什麼情況？

具有視覺元件的多個媒體檔案

在輪流提供多個媒體檔案的情況下，請介紹每個具有編號標籤的影像。例如，如果您使用兩個影像，請標記它們Image 1:和 Image 2:。如果您使用三個影片，請標記 Video 1:、 Video 2:和 Video 3:。影像之間或影像與提示之間不需要換行。

下列範本可用來放置多個媒體檔案：


messages = [
        {
            "role": "user",
            "content": [
                {"text":"Image 1:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}},
                {"text":"Image 2:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}},
                {"text":"Image 3:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}},
                {"text":"Image 4:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}},
                {"text":"Image 5:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}},
                {"text":user_prompt},
            ],
        }
    ]

未最佳化提示	最佳化提示
描述您在第二個影像中看到的內容。【Image1.png】【Image2.png】	【Image1.png】【Image2.png】描述您在第二個影像中看到的內容。
是否在隨附的文件中描述了第二個影像？【Image1.png】【Image2.png】【Document1.pdf】	【Image1.png】【Image2.png】【Document1.pdf】是否在隨附的文件中描述了第二個影像？

未最佳化提示

最佳化提示

描述您在第二個影像中看到的內容。

【Image1.png】【Image2.png】

【Image1.png】

【Image2.png】

描述您在第二個影像中看到的內容。

是否在隨附的文件中描述了第二個影像？

【Image1.png】【Image2.png】【Document1.pdf】

【Image1.png】

【Image2.png】

【Document1.pdf】

是否在隨附的文件中描述了第二個影像？

由於媒體檔案類型的長內容字符，在某些情況下可能不會遵守提示開頭指出的系統提示。在此情況下，建議您將任何系統指示移至使用者轉彎，並遵循 {media_file}-then-{text} 的一般指引。這不會影響使用 RAG、客服人員或工具用量的系統提示。

使用使用者指示來改善以下指示，以理解視覺任務

為了了解影片，內容中的字符數量使得中的建議置放事項非常重要。使用系統提示來輸入更一般的內容，例如音調和風格。我們建議您在使用者提示中保留影片相關指示，以獲得更好的效能。

下列範本可用於以取得改善的指示：


{
    "role": "user",
    "content": [
       {
           "video": {
                "format": "mp4",
                "source": { ... }
           }
       },
       {
           "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..."
       }
    ]
}

如同文字，我們建議對影像和影片套用chain-of-thought，以獲得改善的效能。我們也建議您將chain-of-thought指令放在系統提示中，同時在使用者提示中保留其他指示。

重要

Amazon Nova Premier 模型是 Amazon Nova 系列中的更高智慧模型，能夠處理更複雜的任務。如果您的任務需要進階chain-of-thought，我們建議您使用給予 Amazon Nova 思考時間 (chain-of-thought中提供的提示範本。這種方法有助於增強模型的分析和問題解決能力。

少量的鏡頭範例

如同文字模型，我們建議您提供影像範例，以改善影像理解效能（由於single-video-per-inference限制，無法提供影片範例）。我們建議您在媒體檔案之後，將範例放在使用者提示中，而不是在系統提示中提供。

	0-Shot	2-Shot
User		[Image 1]
Assistant		The image 1 description
User		[Image 2]
Assistant		The image 2 description
User	【影像 3】說明影像中發生的情況	【影像 3】說明影像中發生的情況

邊界框偵測

如果您需要識別物件的週框方塊座標，您可以使用 Amazon Nova 模型以【0， 1000) 的規模輸出週框方塊。取得這些座標之後，您就可以根據影像維度調整其大小，做為後製處理步驟。如需如何完成此後製處理步驟的詳細資訊，請參閱 Amazon Nova Image Grounding 筆記本。

以下是週框方塊偵測的範例提示：


Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format.
Output example:
[
    {"{item_name}": [x1, y1, x2, y2]},
    ...
]

Result:

更豐富的輸出或樣式

影片理解輸出可能非常短。如果您想要較長的輸出，建議您為模型建立角色。您可以指示此角色以您想要的方式回應，類似於使用系統角色。

對回應的進一步修改可以使用一次性和少量擷取技術來實現。提供良好回應的範例，模型可以在產生答案時模擬其中的層面。

將文件內容擷取至 Markdown

Amazon Nova Premier 示範了增強功能來了解內嵌在文件中的圖表，以及從科學論文等複雜網域讀取和理解內容的能力。此外，Amazon Nova Premier 會在擷取文件內容時顯示改善的效能，並可將此資訊輸出為 Markdown Table 和 Latex 格式。

下列範例提供映像中的資料表，以及 Amazon Nova Premier 將映像內容轉換為 Markdown 資料表的提示。建立 Markdown （或 Latex 表示法）之後，您可以使用工具將內容轉換為 JSON 或其他結構化輸出。


Make a table representation in Markdown of the image provided.

以下是模型提供的輸出：


| No. | DATE       | DESCRIPTION | AMOUNT |
|-----|------------|-------------|--------|
| 1   | 2021-04-19 | Guest room  | $180   |
| 2   | 2021-04-19 | Breakfast   | $30    |
| 3   | 2021-04-20 | Guest room  | $180   |
| 4   | 2021-04-20 | Laundry     | $15    |
| 5   | 2021-04-20 | Dinner      | $70    |
| 6   | 2021-04-20 | Breakfast   | $30    |
| 7   | 2021-04-21 | Guest room  | $180   |
| 8   | 2021-04-21 | Breakfast   | $30    |
| 9   | 2021-04-21 | Dinner      | $70    |
| 10  | 2021-04-21 | Laundry     | $15    |
|     |            | Subtotal    | $800   |
|     |            | Discounts   | $24    |
|     |            | Taxes       | $68.9  |
|     |            | Total       | $844.9 |

此輸出使用自訂資料表表示法，其中 || 用作資料欄分隔符號，而 && 用作資料列分隔符號。

用於視覺理解的推論參數設定

為了了解視覺使用案例，我們建議您從將推論參數temperature設定為 0並topK設定為開始1。觀察模型的輸出後，您就可以根據使用案例調整推論參數。這些值通常取決於所需的任務和變異數，請提高溫度設定，以引發答案的更多變異。

影片分類

若要將影片內容有效排序為適當的類別，請提供模型可用於分類的類別。請考慮下列範例提示：


[Video]

Which category would best fit this video? Choose an option from the list below:
\Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles

標記影片

Amazon Nova Premier 展示了建立視訊標籤的改進功能。為了獲得最佳結果，請使用下列指示請求逗號分隔標籤，「使用逗號分隔每個標籤」。以下是範例提示：


[video]

"Can you list the relevant tags for this video? Use commas to separate each tag."

影片的密集字幕

Amazon Nova Premier 示範了增強功能以提供密集字幕 - 影片中多個區段產生的詳細文字描述。以下是範例提示：


[Video]

Generate a comprehensive caption that covers all major events and visual elements in the video.

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

視覺理解

一般提示提示