多模态理解

InternLM-XComposer2

InternLM-XComposer2是一款领先的视觉语言模型，擅长自由形式文本图像合成与理解。该模型不仅能够理解传统的视觉语言，还能熟练地从各种输入中构建交织的文本图像内容，如轮廓、详细的文本规范和参考图像，实现高度可定制的内容创作。InternLM-XComposer2提出了一种部分LoRA（PLoRA）方法，专门将额外的LoRA参数应用于图像标记，以保留预训练语言知识的完整性，实现精确的视觉理解和具有文学才能的文本构成之间的平衡。实验结果表明，基于InternLM2-7B的InternLM-XComposer2在生成高质量长文本多模态内容方面优越，以及在各种基准测试中其出色的视觉语言理解性能，不仅明显优于现有的多模态模型，还在某些评估中与甚至超过GPT-4V和Gemini Pro。这凸显了它在多模态理解领域的卓越能力。InternLM-XComposer2系列模型具有7B参数，可在https://github.com/InternLM/InternLM-XComposer 上公开获取。

34 0

引领智能未来，探索无限AI应用