凤凰彩票官网首页 - Welcome

凤凰彩票welcome 这个春节P图不求东说念主!小红书开源图像裁剪新SOTA

发布日期:2026-02-13 00:27:56 点击次数:146

凤凰彩票welcome 这个春节P图不求东说念主!小红书开源图像裁剪新SOTA

AI 生图界限凤凰彩票welcome,又出了个"狠变装"。

本日,小红书基础模子FireRed-Image-Edit进展亮相。

看似"低调",实则战绩惊东说念主——其在处分复杂裁剪教导、立场化调养,及高精度笔墨裁剪等多个中枢意见上,展现出超强实力。

对比终结融会,FireRed-Image-Edit 凭借更精确的相识力、更强的 ID 保执度及高效的架构,在多项泰斗测试中脱颖而出,在 ImgEdit、GEdit 等多个榜单中得回了SOTA,达到业界越过水平。

主流榜单和自建评测集上的意见对比

这种高效架构背后的技能底座,来自小红书 Super Intelligence Team 在图像生成与裁剪界限的一次挫折探索。

划要点!当今该名堂代码、技能讲解、demo 网页已开源,模子权重也行将在明天几天开源。

东说念主工评估胜出率硬核评测意见与全链路技能底座

FireRed-Image-Edit 之是以能被称为"狠变装",不仅在于榜单上的惊艳阐述,更源于小红书团队为其量身定制的一套"高难度考卷"与"进阶版练功房"。

1、从头界说尺度:RedEdit Bench

在 AI 生图界限,现存的基准测试频频难以笼罩用户着实的复杂需求。为此,团队推出了RedEdit Bench这一深度评测决策。

全场景笼罩:包含 15 个子任务。除了旧例的画面增更正外,该评测集还前瞻性地纳入了东说念主像好意思化、低画质增强等高频实战场景。

着实严苛:对比现实标明,比较 ImgEdit 和 GEdit,该 Bench 对裁剪模子通用能力的评估精度更高。

该 Bench 随后会开源,以期为开源社区对图像裁剪模子的评估树立新维度的尺度。

2、中枢战力起头:数据构造与三阶段进修

有了严苛的考卷,怎样"培养"出高分考生?

FireRed-Image-Edit 依靠的是一套极具恶果的数据引擎与进修逻辑——

最初来看数据引擎方面,FireRed-Image-Edit 构建了一套图像裁剪数据分娩引擎,从"快速、可控、精确"启程,将复杂裁剪需求拆解为可组合的子任务,并通过三条旅途规模化产出进修对:

教导截至的群众模子合成;

结构化截至(如分割 / 重要点 / 深度等)的群众模子合成;

模子无关的模板化合成(如 3D/ 布局 / 笔墨)。

针对长尾裁剪任务样本稀缺问题,遴荐"搜检—补皆"的定向补数经过,由引擎快速生成针对性数据,并互助三层级去重、十余种质料清洗算子与严格一致性守门员,确保数据的教导除名、视觉当然度与内容一致性。

而在模子进修方面,现时模子框架参考主流裁剪模子框架,模子通过三阶段进修来完成能力的进阶。

预进修阶段:通过多条款感知桶采样来均衡不同的裁剪任务,并通过随即动态教导来晋升模子的教导泛化相识能力,并通过前置的 embedding 抽取来晋升进修恶果;

微调阶段:通过高质料数据的引入,来晋升模子阐述;

强化学习阶段:通过非对称梯度优化来强化正样本反应,基于 OCR 奖励的 diffusionNFT 来晋升笔墨裁剪准确性。

模子中枢能力展示

FireRed-Image-Edit 的纷乱,源于对"裁剪"二字的深度相识。

并非苟简重绘,而是竣事精确截至,其中枢能力晋升如下。

1、教导除名一致性

指的是模子引入随即教导对皆的机制,通过随即打乱和动态重组 prompt,来使模子能着实相识语义与图像的对应联系,而非死记硬背。

请修正图像中的无理。

示例 1:

示例 2:

2、笔墨裁剪

FireRed-Image-Edit 立异性地忽视了Layout-Aware OCR-based Reward。

在强化学习阶段,团队不仅刑事牵扯错别字,还刑事牵扯字符的错位、大小卓绝和布局崩坏。

这使得模子在进行海报修改、笔墨替换时,能更准确地进行裁剪并保执原始笔墨立场。

将海报上右下角的笔墨" programme "修改为" program ongoing ",保执字体和立场一致。

用参考图的玩偶当作画面主角,穿着上头印着" FireRed-Image-Edit "字样,站在童话感花坛草地中,周围有概述小花和柔软建筑布景,整身形度和缓黑甜乡,超清细节,凤凰彩票贸易级影相质感。 小红薯正对镜头,自信可儿地直立,死后是一块黑板,用白色粉笔了了写着: " FireRed-Image-Edit 三大绝活:笔墨艺术家:中英笔墨体排版专科褂讪,视觉立场调解 时光缔造师:老像片缔造细节丰富,呈现当然着实造型臆测打算师:智能换装精确当然,多立场衣饰一键切换",笔墨为白色粉笔手写体。 画面光泽柔软当然光,浅景深,布景幽微虚化,颜色亮堂充足,高清 8K,着实影相立场,细节尖锐,无噪点,无畸变。

3、创意与多图生成

同期依赖于纷乱的模子架构能力,FireRed-Image-Edit 赞助了创造力场景生成和多参考图生成的能力,赞助立场搬动或多图交融。

模特穿上图 1 衣饰,版型宽松。搭配玄色、材质为氨纶、纯色、紧身、长度至大腿中部的骑行短裤,再搭配金色圆环耳饰。

一瓶香水放居中,香水瓶放在水面上,透明方形瓶身搭配金色金属瓶盖,极简而当代。彻亮的水花如爆炸般环绕瓶身灵通开,多量水点在空中定格,折射出黑甜乡的光彩。底部水波动荡层层扩散,与飞溅的水花酿成动静交汇的视觉张力。寒冷活力与高端失掉并存,仿佛将夏令清泉的狭隘灵动持久封存。透过瓶身能看到香水背后的阐发书。

示例 3:

将这张图变成游戏 CG 立场,极具艺术感,轰动东说念主心,超高清。落叶飞溅,出路落叶虚化,动态迟滞,布景动态虚化,阳光灿烂,蓝天白云,光影交错,仰拍特写镜头,隆起速率感和视觉冲击力,强透视。

示例 4:

将这张图变成游戏 CG 立场,极具艺术感,轰动东说念主心。

示例 5:

臆测打算一张 A6 折叠卡:掀开时融会图片中的小屋。

示例 6:

画质缔造,细节重现:除了通用裁剪,本色欺诈中,用户频繁濒临像片迟滞、低永别率、曝光不及或画质受损的问题。FireRed-Image-Edit 将超分、去迟滞、去噪及光影增强等底层视觉任务调解纳入了教导微调的限度。让用户不错一键画质调整。缔造并上色这张老像片,使其看起来像是用当代相机拍摄的。

示例 7:

将这张迟滞的图像增强了了度,使其极为了了且高质料。

通过开源 FireRed-Image-Edit,小红书但愿为社区提供一个高效、可控、高质料的基座。

后续将会进一步晋升基础模子在东说念主像好意思化、一致性、笔墨上的裁剪能力,并将在明天几个月内执续开源更新版块和文生图基座模子。

宽宥群众下载体验,在 GitHub 上点亮 Star!

GitHub:

https://github.com/FireRedTeam/FireRed-Image-Edit

技能讲解 :

https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf

体验 Demo:

https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

以下是小红书 Super Intelligence 的团队先容:

* 本文系量子位获授权刊载,不雅点仅为原作家通盘。

一键三连「点赞」「转发」「防范心」

宽宥在评述区留住你的思法!

—  完  —

� � 点亮星标 � �

科技前沿进展逐日见凤凰彩票welcome