🎯 名称: Wan 2.1 - 开源视频生成模型

2025-02-26

🖼 功能:

免费开源: 提供开放的权重和轻量级工具包。
多语言支持: 除中文外，还支持多种语言，适用于全球应用。
高质量输出: 支持1080P分辨率，提供高质量视频输出。
物理模拟与特效: 模型在模拟物理规律和生成复杂场景上表现出色。

✨ 亮点:

文本到视频生成: 支持从文本描述动态生成视频，是首个实现中文文本到视频生成的AI模型。
图像到视频生成: 能将静态图像转换为动态视频，确保对象一致性与多样运动轨迹。
多种生成模式: 支持多种视频生成模式，适用于创意内容制作、教育和娱乐等领域。

🚀 资源:
博客文章：点击打开博文
在线体验: 免费HuggingFace Spaces
官方网站: 访问Tongyi Wanxiang官网
获取权重: HuggingFace

💡 描述: Wan 2.1 是由阿里巴巴同意万象团队开发的尖端视频生成模型，旨在通过AI驱动的视觉内容创作实现重大突破。其创新特性和易用性预计将在AI视频生成领域引领潮流。计划于2025年第二季度开源，Wan 2.1 将成为AI驱动视频生成的基石。

🎯 名称 : R1-OneVision - 基于Qwen-VL的轻量级推理视觉模型

2025-02-25

🎯 名称 : R1-OneVision - 基于Qwen-VL的轻量级推理视觉模型
🖼 功能 :

多模态推理增强 : 集成Qwen-VL架构，支持图像与文本联合推理，突破传统视觉模型对单一模态的依赖
轻量化设计 : 7B参数规模实现高效推理，在保持性能的同时降低计算资源需求
端到端可解释性 : 提供可视化推理路径分析，揭示模型决策逻辑与特征关注机制
动态知识更新 : 支持增量式微调，适应快速演变的视觉任务需求
✨ 亮点 :

学术创新突破 : 首创基于Transformer的视觉-语言融合推理框架，实现跨模态语义对齐
工业适配性强 : 7B参数量级完美平衡精度与算力需求，适配移动端/边缘计算场景
开源生态共建 : 提供完整技术文档与预训练权重，推动社区协作研发
科研加速工具 : 支持自定义数据集蒸馏，助力学术研究快速构建专用视觉模型
🚀 资源 :

博客文章 : 点击打开博文
Hugging Face模型库 : https://huggingface.co/Fancy-MLLM/R1-Onevision-7B
实时推理演示 : https://huggingface.co/spaces/Fancy-MLLM/R1-Onevision

💡 描述 :
R1-OneVision是由浙江大学Fancy-MLLM团队推出的新一代轻量级推理视觉模型，通过融合Qwen-VL的先进架构与自研优化技术，在7B参数量级实现了突破性性能表现。该模型不仅支持精准的图像内容理解，更开创性地具备跨模态推理能力，可解析复杂场景中的视觉-文本关联关系。其模块化设计允许开发者灵活部署于各类终端设备，配合开源社区的支持体系，为学术研究、工业应用及消费级AI产品开发提供了强有力的技术底座。通过持续的技术迭代，R1-OneVision正重塑轻量化视觉智能的边界。

Message 1592

2025-02-24

Prompt ✏️: A cute chubby little white cat wearing headphones is riding a bicycle on a circular country path filled with blooming flowers. The warm sunlight is shining brightly on the earth. The shot is taken from a 45-degree side angle of the cat, in 4K ultra-high-definition quality. The cat’s fur is delicate and smooth. The cat is carrying vegetables on its back, heading home after shopping.

🎯 名称 : WanX 2.1 - 阿里巴巴先进视频生成模型

2025-02-24

🎯 名称 : WanX 2.1 - 阿里巴巴先进视频生成模型
🖼 功能 :

文本到视频生成 : 支持从文字描述生成动态视频，尤其擅长中文文本到视频的生成，满足多语言需求。
图像到视频生成 : 能将静态图片转化为动态视频，采用两阶段生成技术确保对象一致性与多样化运动轨迹。
高质量输出 : 支持 1080P 分辨率，结合高效编码/解码和时空上下文建模，提供视觉连贯性极佳的视频内容。
物理模拟与特效 : 擅长模拟物理规律并生成复杂场景，如粒子效果、动态光影等，避免传统模型中的肢体扭曲等问题。
多语言支持 : 不仅支持中文，还兼容多种语言，适合全球化应用场景。
✨ 亮点 :

卓越的生成能力 : 在单一模型中实现高质量的文本到视频和图像到视频生成，显著提升创意内容制作效率。
高效的计算性能 : 基于混合 VAE 和 DiT 架构优化，兼具实时性能与高保真度，降低计算成本。
领先的基准表现 : 在 VBench 视频生成基准测试中排名第二，超越 OpenAI 的 Sora 和 Adobe 的 CausVid 等知名模型。
开源计划 : 计划于 2025 年第二季度开源，包括训练数据集和轻量化工具包，推动 AI 社区协作与创新。
🚀 资源 :

Message 1589

2025-02-23

Prompt ✏️: Photo of a woman with long black hair, wearing a pink and white futuristic jumpsuit with a high collar and black gloves, standing in a sci-fi setting with a large, red and black robotic creature behind her, glowing yellow eyes, mechanical details, futuristic environment with metal structures and pipes, dim lighting, serious expression, hand on hip, medium shot, watermark in the bottom left corner, “agientry.com” text in the bottom center, jpeg artifacts

Message 1588

2025-02-22

Prompt ✏️: Ink splashing, negative space, mist, ancient women, ancient white attire, gentle and elegant, palace, Han Dynasty architecture, large-scale scenes, photographic works, realism, cool tones, cold and desolate, heavy mist, neo-Chinese style, charming, hairpins, long hair, earrings, translucent gauze, tasteful, rosy skin

Model 🖼: flux pro

Message 1586

2025-02-21

Prompt ✏️: Artsy painting of Catwoman at night with her cats. Futuristic city in the background. Beautiful lighting. Artistic quality.

Model 🖼: flux pro

Older posts Newer posts