AI 绘图 | AI 视频 | AI 音乐

分享AI绘画、AI视频相关资源与技巧。同时也会分享图像处理与视频处理相关的资源与技巧。

🎯 名称: CogView4 - 智谱开源图像生成模型

2025-03-04

🎯 名称: CogView4 - 智谱开源图像生成模型

🎯 名称: CogView4 - 智谱开源图像生成模型

🖼 功能:

文本到图像生成: 支持中英双语提示词输入,擅长理解和遵循中文提示词,能够在画面中生成汉字。
灵活图像分辨率生成: 支持生成任意宽高的图片,采用混合分辨率训练和二维旋转位置编码适应不同分辨率需求。
高质量输出: 采用Flow-matching扩散模型和参数化线性动态噪声规划,提供高质量图像生成。
多语言支持: 升级为GLM-4编码器,支持中英双语输入,消除仅支持英文的局限。
✨ 亮点:

卓越的生成能力: 在DPG-Bench基准测试中综合评分排名第一,提供高质量的文本到图像生成。
高效的训练效率: 采用动态文本长度处理,提升训练效率5%-30%。
开源计划: 将开源对应的Controlnet、Comfyui支持和模型微调工具,促进AI社区的创新与合作。

🚀 资源:

博客文章: 点击打开博客文章
项目页面: [GitHub]
模型下载: [Hugging Face]
在线体验: [Hugging Face Spaces]

💡 描述:
CogView4 是由智谱开发的开源图像生成模型,代表了AI驱动图像创作的重大突破。它在文本到图像生成、多语言支持和视觉一致性方面表现出色。通过其开源计划,CogView4 将为全球开发者提供强大的工具,助力创意内容生产、教育培训、娱乐和营销等多个领域的应用创新。

Message 1605

2025-03-04

Message 1605

Prompt ✏️: outer red layer to reveal the pale inner flesh in the shape of [a young woman]. The carving should be simple, showing the features of [a young woman], making it look as if [a young woman] shape is playfully etched into the apple. The apple should be placed on a simple surface with natural lighting to enhance the realism and focus on the simple carving.

Continue reading

Message 1604

2025-03-01

Message 1604

Prompt ✏️: An Infrared Tribal Fire Dancer portrayal of a Polynesian Fire Goddess, depicting dynamic movement and cultural richness. Use vibrant Fuchsia and Gold to accentuate the fiery motion and infrared light interplay

Model 🖼: flux pro

🎯 名称: Phi-4-Multimodal - 开源多模态AI交互工具

2025-02-28

🎯 名称: Phi-4-Multimodal - 开源多模态AI交互工具

🎯 名称: Phi-4-Multimodal - 开源多模态AI交互工具
🖼 功能:
免费开源: 提供开放的代码和数据集,支持开发者自由探索与改进。
多模态支持: 集成文本、视觉和语音处理能力,支持23种语言,涵盖多种跨模态任务。
精准性能表现: 在语音识别、视觉理解、图表分析和文档推理等任务中表现出色,达到或超越现有SOTA模型。
创新架构设计: 采用“Mixture of LoRAs”技术,实现高效灵活的模态适配,无需重新训练基础模型。

✨ 亮点:
AI驱动的多模态交互: Phi-4-Multimodal通过先进的SigLIP-400M图像编码器和动态多裁剪策略,在视觉任务中展现卓越性能;同时,其语音模块基于3层卷积和24个Conformer块,支持实时音频处理。
无缝模态融合: 借助独特的多阶段训练方法,Phi-4-Multimodal能够自然地整合文本、图像和语音输入,提供流畅的跨模态体验。
强大的推理能力: 经过60B CoT(Chain-of-Thought)令牌训练,Phi-4-Multimodal在数学、编码和复杂推理任务中表现优异,媲美更大规模的模型。
多样应用场景: 支持从多媒体分析到实时语音翻译等多种任务,适用于商业、研究和个人项目。

🚀 资源:
博客文章:点击打开博客
在线体验: Hugging Face Demo
获取代码: Hugging Face Model Card

💡 描述:
Phi-4-Multimodal是由微软推出的一款尖端开源多模态AI工具,旨在通过技术创新重新定义人机交互方式。其卓越的性能和灵活性使其成为AI领域的标杆模型,尤其在语音识别、视觉理解和跨模态任务中表现突出。未来,随着社区的持续贡献和优化,Phi-4-Multimodal有望进一步拓展其应用范围,为更多用户提供便捷与灵感。

Message 1600

2025-02-27

Message 1600

Prompt ✏️: A beaver swimming in blue-green water, lying on an inflatable mattress. A beaver holding a cocktail with a straw. The sun is shining. Relaxing. Professional photography.

Model 🖼: flux pro

🎯 名称: PhotoDoodle - 开源AI艺术编辑工具

2025-02-27

🎯 名称: PhotoDoodle - 开源AI艺术编辑工具

🎯 名称: PhotoDoodle - 开源AI艺术编辑工具
🖼 功能:
免费开源: 提供开放的代码和数据集,支持开发者自由探索与改进。
多风格支持: 支持超过六种艺术风格,包括卡通、水彩等,满足多样化需求。
精准编辑能力: 能够执行从细微调整到整体风格转换的复杂编辑任务,保持图像一致性。
创新技术集成: 结合LoRA、EditLoRA和位置编码克隆技术,实现高效学习与精确操作。

✨ 亮点:
AI驱动的艺术创作: 利用先进的扩散模型(Flux.1)和LoRA技术,PhotoDoodle能够将普通照片转化为充满创意的艺术作品。
无缝元素融合: 借助EditLoRA技术,系统可学习艺术家风格并将其应用于新图像,确保自然过渡与视觉和谐。
像素级精度控制: 通过位置编码克隆技术,PhotoDoodle能准确记住原始图像的像素位置,使新增元素完美融入背景。
多样应用场景: 无论是为宠物添加趣味效果,还是设计奇幻场景,PhotoDoodle都能轻松应对,展现卓越的灵活性。

🚀 资源:
博客文章:点击打开博文
在线体验: 免费HuggingFace GPU Demo
获取代码: GitHub仓库

💡 描述: PhotoDoodle 是由新加坡国立大学(NUS)、上海交通大学、北京邮电大学和字节跳动联合研发的尖端AI图像编辑工具,旨在通过技术创新推动艺术表达的边界。其独特的技术架构和强大的功能使其成为AI艺术创作领域的先锋工具。未来,团队计划进一步优化模型,实现单图学习能力,降低使用门槛,为更多用户带来便捷与灵感。

Message 1597

2025-02-26

Message 1597

Prompt ✏️: Overlooking panoramic photography, a beautiful Chinese woman, smiling directly into the camera, surrounded by landmark buildings of various cities beneath her feet, shot with an ultra-wide-angle, panoramic camera, presenting a spherical wide-angle view.

Model 🖼: flux pro

Older posts Newer posts