PixelLLM
P
Pixelllm
簡介 :
PixelLLM是一種用於圖像定位任務的視覺 - 語言模型。該模型可以根據輸入的位置生成描述性文字,也可以根據輸入的文字生成像素座標進行密集的定位。通過在 Localized Narrative 數據集上進行預訓練,模型學習了單詞與圖像像素之間的對齊關係。PixelLLM 可應用於多種圖像定位任務,包括指示定位、位置條件描述和密集物體描述,並在 RefCOCO 和 Visual Genome 等數據集上達到了最先進的性能。
需求人群 :
適用於圖像定位任務,如位置條件描述、指示定位和密集物體描述。
總訪問量: 963
佔比最多地區: US(100.00%)
本站瀏覽量 : 71.8K
產品特色
位置條件描述
指示定位
密集物體描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase