字节跳动联合浙江大学提出了能够输出可靠视频描述的多模态大语言模型 Vista-LLaMA。Vista-LLaMA 专门针对视频内容的复杂性设计,能够有效地将视频帧转换为准确的语言描述,从而极大地提高了视频内容分析和生成的质量。
IT产业网 2024/01/10 18:21
关于我们┊联系我们┊友情链接┊网站地图┊内容联系┊最新报道┊法律声明
鄂ICP备18015839号-1专注IT产业报道,IT产业网 IT产业生态价值发现平台|IT榜单|IT活动|IT峰会|IT直播
风险提示:文章内容仅供阅读,不构成投资建议,请谨慎对待。
IT产业网&WWW.CITMT.CN © 2016-2024
