AI 出图全靠蒙?这个开源 IDE 让你先布景、摆 Pose 再生成
ArtCraft 是一个开源的 AI 图像和视频创作 IDE,目前 1.2k Star,用 Rust(76%)和 TypeScript(22%)构建,Windows 和 macOS 提供预编译版本,Linux 需要从源码构建。
项目的核心立场只有一句话:"艺术家需要控制权。"它想解决的问题很具体——现有 AI 图像生成工具的主要交互方式是写提示词,然后等结果。画面里谁站在哪里、用什么姿势、背景是什么光线,都只能靠文字描述,最终结果能否符合预期,很大程度依赖运气和反复迭代。ArtCraft 的思路是把这个流程反过来:先在可视化界面里把场景搭起来,再触发生成。
两种工作流
ArtCraft 提供两类工作流,面向不同的使用场景。
快速生成流程
适合日常的文生图、图像编辑和图转视频任务。功能和常见 AI 创作工具类似:输入提示词生成图片,支持局部修改(Inpainting)和蒙版(Masking),以及图片转视频。可以接入多个模型提供商,在同一个界面里切换。
高级编排流程
这是 ArtCraft 的主要差异点,面向对画面构成有明确预期的使用场景。
- 3D/2D 图层合成:把图片按深度分层,支持背景抠图和元素叠加,生成前先确定各元素的空间关系。
- 角色 Pose 控制:用虚拟人形模型(Mannequin)摆出目标姿势,再通过 Identity Transfer 把特定角色的外形叠加进去,用这套结果指导生成。这让角色姿态可以在生成前确定,而不是靠提示词描述后期矫正。
- 场景布局(Scene Blocking):导入 3D 资产,把物体和角色的位置先在 3D 空间里摆好,再导出为参考图用于生成。
- 地点替换(Image-to-Location):在已有环境图片里放置虚拟角色或物体,保持环境的光照和透视一致性。
- 图片转 3D 网格(Image-to-3D Mesh):把 2D 图片转成 3D 模型,用于场景布局中的资产。
接入的 AI 模型
ArtCraft 本身不强绑定单一模型,目前支持的提供商包括:
- Artcraft 自有模型:集成 Flux(图像)和 Sora(视频)
- Grok:图像和视频生成
- Midjourney:图像生成
- WorldLabs:Gaussian Splat(一种 3D 场景表示格式)生成
路线图中还计划加入 Kling、Google、Runway 和 Luma。多个提供商在同一界面下切换,不需要逐个打开各自的网页工具。
技术栈与构建
后端用 Rust 编写,使用 Diesel 作为 ORM,前端是 TypeScript + React,同时提供 Docker 支持。快速迭代的发布节奏也在技术层面有所体现——从 v0.3.0 到当前 v0.12.0,不到一个月内完成了十几个版本的迭代。
安装
Windows 和 macOS 用户可以直接从官网或 GitHub Releases 下载安装包:
- 官网:getartcraft.com (opens in a new tab)
- GitHub Releases:github.com/storytold/artcraft/releases (opens in a new tab)
Linux 用户需要从源码构建。项目是 Rust 项目,构建前需要先安装 Rust 工具链,克隆仓库后按照 GitHub 中的构建脚本执行。
写在最后
ArtCraft 的定位是把提示词之外的可视化编排能力引入 AI 创作流程。3D 布景、角色 Pose、图层合成这套工具,在传统设计工具里早就存在,把它们和 AI 生成结合放在一个界面里,减少了"生成 → 不满意 → 修改提示词 → 再生成"的循环次数。
项目当前版本号是 v0.12.0,更新较快,部分功能仍在迭代中。如果你的创作场景对画面构成和角色一致性有较高要求,它提供的编排方式值得试用。
GitHub 地址:https://github.com/storytold/artcraft (opens in a new tab)