您当前的位置:首页 >> 资讯 >  >> 
世界要闻:阿里达摩院开源Video-LLaMA 帮大语言模型加上“眼睛”“耳朵”
来源: 商业新知网      时间:2023-06-13 09:02:19

来源: 网络 ,如有侵权请联系删除。如果您觉得对你有帮助的话,记得关注我们,我们会出更好的内容。

12日讯,阿里达摩院的研究人员提出了Video-LLaMA,一个具有综合视听能力大模型。Video-LLaMA能够感知和理解视频中的视频和音频信号,并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音/视频描述,写作,问答等。目前论文,代码,交互demo都已开放。另外,在Video-LLaMA的项目主页中,该研究团队还提供了中文版本的模型,让中文用户的体验更好。


(资料图片仅供参考)

论文链接:

代码地址:https://github.com/DAMO-NLP-SG/Video-LLaMA

Demo 地址:

Modelscope: https://modelscope.cn/studios/damo/video-llama/summary

Huggingface: https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA

样例输入文件地址:

https://github.com/DAMO-NLP-SG/Video-LLaMA/tree/main/examples

T HE EN D

温馨提醒&广告

郑重声明: 本文绝非小编编写,版权归原作者所有,转载文章仅为传播更多信息之目的,如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容!

标签:

X 关闭

X 关闭