多模态
模态编码器|CLIP详细解读
下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma
Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用
近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR 2025公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。 Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。 此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。
3/21/2025 5:14:00 PM
新闻助手
智源开源多模态向量模型BGE-VL,助力多模态检索!
智源研究院开源了多模态向量模型BGE-VL,助力主要多模态检索任务达到SOTA。 论文地址:: : :现有的多模态检索模型大多基于预训练的视觉-语言模型,这些模型主要通过文本-图像匹配任务进行预训练,对于其他常见的多模态任务(如组合图像检索和多模态文档检索)表现不足。 为了增强模型的多任务能力,研究者们开始采用指令微调的方法,但高质量的指令微调数据稀缺且难以大规模获取。
3/19/2025 9:30:00 AM
Glodma
谷歌大招网友玩疯了!Gemini原生图像输出抢先推出,OpenAI一年领先优势归零
谷歌推出Gemini原生图像生成,测试版瞬间引爆网络。 如果你迟到了,但没有好的借口,甚至还没有出家门——只需要一张自拍,然后让AI把你P到地铁故障现场。 图片也可以凭空生成一个人物形象,把它放到原神游戏画面中(不用上传游戏截图),让角色往前走两步,再把视角往左移,走近一个建筑,开始爬墙。
3/14/2025 12:14:38 PM
【多模态&LLM】POINTS多模态大模型浅谈
NaViT概述NaViT利用序列打包训练,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。 图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结:数据预处理:如上图展示了NaViT在处理任意分辨率的方法,将不同分辨率的图像分割成补丁(patches),然后应用令牌丢弃(token drop)操作,类似于dropout,以加速训练过程。 预处理后,将三张图像生成的补丁展平为一个序列,不足的部分用填充(padding)补充。
1/8/2025 8:21:16 AM
余俊晖
智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了
2024年12月28日,智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中,宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。 上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。 加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。
1/2/2025 4:20:00 PM
新闻助手
网页多模态建模思考
1.综述网页本质上是一种超文本,一般由超文本标记语言来定义(例如HTML)。 HTML是一种基础技术,常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面 。 网页浏览器内核通过解释HTML文件,通过视觉引擎将其渲染成可视化网页。
12/26/2024 1:20:53 AM
百度Geek说
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
李飞飞谢赛宁再发新成果:直接把o1式思考拉至下一个level——多模态大语言模型的空间思维! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现:当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。 图片更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现,反而会使性能下降。
12/23/2024 12:37:34 PM
为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘
多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办? 像文生图那样有ControlNet即可解决。 这就是由360人工智能研究院提出的IAA的核心思路。
12/17/2024 12:08:21 PM
实时音视频领域拓荒者的十年
2015 年,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC(实时视音频)大会。 在大会开始的前夕,现任声网市场VP、RTC大会主策人彭小欢失眠了,她非常担心明天会不会有人来。 一晃十年过去了,当年的RTC大会早已升级为RTE(实时互联网)大会, 10 月 25 日RTE 2024也如期而至,但早已不用担心是否有人光顾,现场可谓是座无虚席。
10/31/2024 10:31:00 AM
张进
视频生成赛道再添“猛将”,智谱清影正式上线
年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。 但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。 随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角逐,并逐步实现落地。
7/31/2024 2:36:00 PM
朱可轩
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
GPT
开源
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
AI设计
Anthropic
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
模态
苹果
AI视频
驾驶
文本
搜索
xAI
Copilot
人形机器人
神器推荐
具身智能
LLaMA
大语言模型
字节跳动
Claude
算力
安全
应用
视频生成
科技
视觉
干货合集
亚马逊
2024
AGI
特斯拉
DeepMind
架构