本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
視覺理解提示技巧
下列視覺提示技巧可協助您為 Amazon Nova 建立更好的提示。
置放事項
我們建議您在新增任何文件之前放置媒體檔案 (例如影像或影片),接著是指示文字或提示來引導模型。雖然在文字之後放置或與文字相交的影像仍然可以充分執行,但如果使用案例允許,則 {media_file}-then-{text} 結構是慣用的方法。
執行視覺理解時,下列範本可用於在文字之前放置媒體檔案。
{ "role": "user", "content": [ { "image": "..." }, { "video": "..." }, { "document": "..." }, { "text": "..." } ] }
未遵循結構化 |
最佳化提示 |
|
---|---|---|
使用者 |
說明影像中發生的情況 【Image1.png】 |
【Image1.png】 說明影像中發生什麼情況? |
具有視覺元件的多個媒體檔案
在輪流提供多個媒體檔案的情況下,請介紹每個具有編號標籤的影像。例如,如果您使用兩個影像,請標記它們Image 1:
和 Image 2:
。如果您使用三個影片,請標記 Video 1:
、 Video 2:
和 Video 3:
。影像之間或影像與提示之間不需要換行。
下列範本可用來放置多個媒體檔案:
messages = [ { "role": "user", "content": [ {"text":"Image 1:"}, {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}}, {"text":"Image 2:"}, {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}}, {"text":"Image 3:"}, {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}}, {"text":"Image 4:"}, {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}}, {"text":"Image 5:"}, {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}}, {"text":
user_prompt
}, ], } ]
未最佳化提示 |
最佳化提示 |
---|---|
描述您在第二個影像中看到的內容。 【Image1.png】 【Image2.png】 |
【Image1.png】 【Image2.png】 描述您在第二個影像中看到的內容。 |
是否在隨附的文件中描述了第二個影像? 【Image1.png】 【Image2.png】 【Document1.pdf】 |
【Image1.png】 【Image2.png】 【Document1.pdf】 是否在隨附的文件中描述了第二個影像? |
由於媒體檔案類型的長內容字符,在某些情況下可能不會遵守提示開頭指出的系統提示。在此情況下,建議您將任何系統指示移至使用者轉彎,並遵循 {media_file}-then-{text} 的一般指引。這不會影響使用 RAG、客服人員或工具用量的系統提示。
使用使用者指示來改善以下指示,以理解視覺任務
為了了解影片,內容中的字符數量使得 中的建議置放事項非常重要。使用系統提示來輸入更一般的內容,例如音調和風格。我們建議您在使用者提示中保留影片相關指示,以獲得更好的效能。
下列範本可用於 以取得改善的指示:
{ "role": "user", "content": [ { "video": { "format": "mp4", "source": { ... } } }, { "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..." } ] }
如同文字,我們建議對影像和影片套用chain-of-thought,以獲得改善的效能。我們也建議您將chain-of-thought指令放在系統提示中,同時在使用者提示中保留其他指示。
重要
Amazon Nova Premier 模型是 Amazon Nova 系列中的更高智慧模型,能夠處理更複雜的任務。如果您的任務需要進階chain-of-thought,我們建議您使用 給予 Amazon Nova 思考時間 (chain-of-thought中提供的提示範本。這種方法有助於增強模型的分析和問題解決能力。
少量的鏡頭範例
如同文字模型,我們建議您提供影像範例,以改善影像理解效能 (由於single-video-per-inference限制,無法提供影片範例)。我們建議您在媒體檔案之後,將範例放在使用者提示中,而不是在系統提示中提供。
0-Shot | 2-Shot | |
---|---|---|
User | [Image 1] | |
Assistant | The image 1 description | |
User | [Image 2] | |
Assistant | The image 2 description | |
User | 【影像 3】 說明影像中發生的情況 |
【影像 3】 說明影像中發生的情況 |
邊界框偵測
如果您需要識別物件的週框方塊座標,您可以使用 Amazon Nova 模型以 【0, 1000) 的規模輸出週框方塊。取得這些座標之後,您就可以根據影像維度調整其大小,做為後製處理步驟。如需如何完成此後製處理步驟的詳細資訊,請參閱 Amazon Nova Image Grounding 筆記本
以下是週框方塊偵測的範例提示:
Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format. Output example: [ {"{item_name}": [x1, y1, x2, y2]}, ... ] Result:
更豐富的輸出或樣式
影片理解輸出可能非常短。如果您想要較長的輸出,建議您為模型建立角色。您可以指示此角色以您想要的方式回應,類似於使用系統角色。
對回應的進一步修改可以使用一次性和少量擷取技術來實現。提供良好回應的範例,模型可以在產生答案時模擬其中的層面。
將文件內容擷取至 Markdown
Amazon Nova Premier 示範了增強功能來了解內嵌在文件中的圖表,以及從科學論文等複雜網域讀取和理解內容的能力。此外,Amazon Nova Premier 會在擷取文件內容時顯示改善的效能,並可將此資訊輸出為 Markdown Table 和 Latex 格式。
下列範例提供映像中的資料表,以及 Amazon Nova Premier 將映像內容轉換為 Markdown 資料表的提示。建立 Markdown (或 Latex 表示法) 之後,您可以使用工具將內容轉換為 JSON 或其他結構化輸出。
Make a table representation in Markdown of the image provided.

以下是模型提供的輸出:
| No. | DATE | DESCRIPTION | AMOUNT | |-----|------------|-------------|--------| | 1 | 2021-04-19 | Guest room | $180 | | 2 | 2021-04-19 | Breakfast | $30 | | 3 | 2021-04-20 | Guest room | $180 | | 4 | 2021-04-20 | Laundry | $15 | | 5 | 2021-04-20 | Dinner | $70 | | 6 | 2021-04-20 | Breakfast | $30 | | 7 | 2021-04-21 | Guest room | $180 | | 8 | 2021-04-21 | Breakfast | $30 | | 9 | 2021-04-21 | Dinner | $70 | | 10 | 2021-04-21 | Laundry | $15 | | | | Subtotal | $800 | | | | Discounts | $24 | | | | Taxes | $68.9 | | | | Total | $844.9 |
此輸出使用自訂資料表表示法,其中 ||
用作資料欄分隔符號,而 &&
用作資料列分隔符號。
用於視覺理解的推論參數設定
為了了解視覺使用案例,我們建議您從將推論參數temperature
設定為 0
並topK
設定為 開始1
。觀察模型的輸出後,您就可以根據使用案例調整推論參數。這些值通常取決於所需的任務和變異數,請提高溫度設定,以引發答案的更多變異。
影片分類
若要將影片內容有效排序為適當的類別,請提供模型可用於分類的類別。請考慮下列範例提示:
[Video] Which category would best fit this video? Choose an option from the list below: \Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
標記影片
Amazon Nova Premier 展示了建立視訊標籤的改進功能。為了獲得最佳結果,請使用下列指示請求逗號分隔標籤,「使用逗號分隔每個標籤」。以下是範例提示:
[video] "Can you list the relevant tags for this video? Use commas to separate each tag."
影片的密集字幕
Amazon Nova Premier 示範了增強功能以提供密集字幕 - 影片中多個區段產生的詳細文字描述。以下是範例提示:
[Video] Generate a comprehensive caption that covers all major events and visual elements in the video.