PixelLLM
国外

PixelLLM翻译站点

PixelLLM是一种用于图像定位任务的视觉 - 语言模型。该模型可以根据输入的位置生成描述性文字,也可以根据输入的文字生成像素坐标进行密集的定位。通过在 Localized Narrative 数...

标签:
PixelLLM是一种用于图像定位任务的视觉 - 语言模型。该模型可以根据输入的位置生成描述性文字,也可以根据输入的文字生成像素坐标进行密集的定位。通过在 Localized Narrative 数据集上进行预训练,模型学习了单词与图像像素之间的对齐关系。PixelLLM 可应用于多种图像定位任务,包括指示定位、位置条件描述和密集物体描述,并在 RefCOCO 和 Visual Genome 等数据集上达到了最先进的性能。

数据统计

相关导航

暂无评论

暂无评论...