
多模态
文章平均质量分 93
JasonLiu1919
微信公众号《小窗幽记机器学习》。却顾所来径,苍苍横翠微。个人微信号:onepieceand
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
原生GPT-4o生图OpenAI官方透露了哪些信息?
OpenAI于2025年3月25日发布了GPT-4o(GPT-4o Native Image Generation) 系统卡的增补内容,重点介绍了其全新的原生图像生成方法——4o图像生成。更重要的是,由于4o图像生成原生嵌入在全能的GPT-4o模型架构深处,它能够利用其全面的知识以细致入微且富有表现力的方式实现这些功能,创造出既美观又实用的图像。赋予了它强大的图像处理和理解能力。通过图像到图像的转换、照片级真实感和精确的指令遵循,4o图像生成展现了广泛的应用潜力。4o图像生成的新能力也带来了新的安全风险。原创 2025-04-20 11:07:43 · 1055 阅读 · 0 评论 -
实测Llama 4,究竟是王者归来,还是廉颇老矣?
相比于之前的模型,Llama 4系列模型是混合专家架构(MoE)的多模态模型,能够支持文本和多模态体验(输入支持文本和图片,但是输出结果尚未支持图片)。截至目前(4月6日)官方开放Llama 4系列的两个高效模型的下载。1、。具有16个专家,170亿激活参数,总参数量109B,支持10M长度的上下文(即1000 万上下文窗口)。在广泛报告的基准测试中优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。Llama 4 Scout号称是同类产品中最好的多模态模型。原创 2025-04-20 11:06:20 · 5948 阅读 · 0 评论 -
端侧多模态 | “袖珍战神“SmolVLM技术报告深度解读
SmolVLM是一系列为资源受限环境设计的紧凑型多模态模型,其核心在于通过创新的架构设计、高效的token化策略和优化的数据管理,实现了在极低计算成本下的卓越性能。研究者们系统地探索了影响小型视觉语言模型效率和能力的多个因素,包括编码器与语言模型的参数分配、上下文长度、视觉token压缩以及针对图像和视频数据的特定处理方法。实验结果表明,SmolVLM在多个视觉语言理解和视频理解基准测试中表现出色,甚至超越了一些参数量远大于它的大型模型,这证明了精心设计的轻量级模型在资源受限的应用场景中具有巨大的潜力。原创 2025-04-19 21:43:31 · 1107 阅读 · 0 评论 -
全面深入解读Movie Gen技术原理5部曲:4-精准视频编辑
随着视频内容的普及,对易用、可控且精确的视频编辑工具的需求日益增长。文本引导的视频编辑模型成为热点研究方向,旨在让用户通过自然语言简单快速地编辑视频。然而,受限于有监督视频编辑数据的稀缺,高性能模型的开发面临挑战。本节介绍 Movie Gen Edit 模型及其无监督训练方法。Movie Gen Edit 的训练基于两个假设:显式训练模型进行视频编辑可显著提升性能。全面控制输入视频需要处理整个视频,而非仅处理有限特征。收集大规模视频编辑监督数据困难,导致训练-测试场景差异。原创 2024-12-07 15:17:37 · 1080 阅读 · 0 评论