SlowFast-LLaVA是一个无需训练的多模态大型语言模型,专为视频理解和推理设计。它无需在任何数据上进行微调,就能在多种视频问答任务和基准测试中达到与最先进视频大型语言模型相当甚至更好的性能。目标受众为研究人员和开发者,特别是那些专注于视频理解和人工智能领域的专业人士。该模型能够帮助他们快速部署和测试视频问答系统,而无需进行耗时的模型训练过程。

搜索