欧美福利在线观看,国产精品区一区二区免费,国产精品久久久久久久免费,91精品一区二区综合在线

圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文

作者: 小吳 2025-07-01 12:20:25
閱讀(18)
羽發自凹非寺量子位|公眾號QbitAI圖像模型開源還得是FLUX!BlackForestLabs剛剛宣布開源旗艦圖像模型FLUX.1Kontext[dev],專為圖像編輯打造,還能直接在消費級芯片上運行。只有小小的12B,更少的參數,更快的推理,性能更是媲美GPT-image-1等一眾閉源模型。現在圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文FLUX.1Kontext[dev]可以讓小狗迅速離開畫面,為小老鼠戴上胡須,添加文字、修改背景也不在話下。或者多次輸入指令,直到讓小哥成為酒吧里最靚的崽(bushi),直到讓畫面符合咱們需求。具體來說,FLUX.1Kontext[dev]的主要特點有:可以根據編輯指令直接更改現有圖像,以及進行精確的本地和全局編輯不用做任何微調,就能直接引用里面的人物角色、圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文風格樣式和物品元素。允許用戶通過多次連續編輯優化圖像,同時將視覺漂移降到最低。專門為NVIDIABlackwell進行了權重優化網友們也立馬上手試玩,制作了一個旅行的CPU青蛙?旅行必備的墨鏡,還有抗寒的帥氣紅色毛衣也要準備妥當。(蛙蛙:出片,我勢在必行)或者copy一下自己喜歡的動漫角色。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文輕輕松松店鋪打烊,結束打工人完美的一天~(doge)還有網友腦洞大開,試著和LoRA結合,造出了一個Kontext風格化肖像制作APP。現在FLUX.1Kontext[dev]還完全支持ComfyUI。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文溫馨提示,官方直接開放了試玩API,只需點擊文末鏈接、上傳圖片就可以立即爽玩!網友看罷表示,BlackForestLabs不愧是圖像屆的DeepSeek。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文FLUX.1Kontext的開放權重變體FLUX.1Kontext模型上個月一經發布,就因為其強大的上下文生成和編輯功能廣受好評。與現有的文本到圖像模型不同,FLUX.1Kontext系列執行上下文圖像生成,可以直接使用文本和圖像進行提示,并無縫提取和修改視覺細節。目前已經發布了適合快速迭代的專業版FLUX.1Kontext[pro]和高配版FLUX.1Kontext[max]。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文FLUX.1Kontext[dev]作為FLUX.1Kontext最新發布的開源版本,不僅繼承了其圖像生成的優勢,它還更專注于編輯任務,可以直接在消費類硬件上運行。首先模型架構上,依舊基于的是FLUX.1模型,它是一種在圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文圖像自動編碼器的潛在空間中訓練的整流流Transformer模型,由雙流塊和單流塊混合構建而成。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文在此基礎上,FLUX.1Kontext[dev]采用標記序列構建和位置信息編碼進行優化:標記序列構建:圖像通過凍結的FLUX自動編碼器,編碼成潛在的上下文圖像標記,并輸入到模型的視覺流中。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文位置信息編碼:通過三維旋轉位置嵌入(3DRoPE)對位置信息進行編碼,為上下文標記的嵌入提供恒定偏移量。并將其視作為虛擬時間步,以清晰分離上下文和目標塊,同時保持它們的內部空間結構。然后使用整流流匹配損失進行訓練,在訓練時從FLUX.1的文本到圖像檢查點開始,收集并整理數百萬個關系對進行模型優化。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文優化后得到的流匹配模型進行潛在對抗擴散蒸餾(LADD),在減少采樣步驟的同時提高樣本質量,使FLUX.1Kontext[dev]更高效。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文最終得到的FLUX.1Kontext[dev]模型包含120億參數,可以更專注于編輯任務,支持迭代編輯,可以在各種場景和環境中保留角色特征,并允許用戶進行精確的局部或全局編輯。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文圖像編輯新標準實驗引入自研的KontextBench基準進行模型性能驗證,該基準包含1026個圖像-提示對,涵蓋局部編輯、全局編輯、角色參考、風格參考和文本編輯五個任務類別。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文結果顯示FLUX.1Kontext[dev]在許多類別上都優于現有的開放式圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文圖像編輯模型和封閉模型,例如BytedanceBagel、HiDream-E1-Full以及OpenAI的GPT-image-1等。另外,FLUX.1Kontext[dev]還專門針對新的NVIDIABlackwell架構進行了TensorRT權重優化,可以在保持高質量的圖像編輯性能的同時,極大地提高推理速度并減少內存使用量。圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文官方還提供了BF16、FP8和FP4TensorRT的權重變體,用戶可以自行對其速度、效率和質量進行調整,綜合確保FLUX.1Kontext[dev]充分利用最新的硬件功能。在實際用戶的反饋中,也發現FLUX.1Kontext[dev]的推理速度較前代提升了4至5倍,圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文模型在NVIDIAH100GPU上運行,通常5秒內能夠完成,在Replicate上的運行成本約為0.0067USD,或每1USD運行149次。但是也有網友提到,在MacBookPro的芯片上運行時,迭代時間較長,每次圖像界的DeepSeek!12B參數對標GPT-4o,消費級硬件玩轉編輯生成上下文迭代都需要1分鐘左右。那么歡迎你也一起來試一試,并將你的體驗分享至評論區~試玩鏈接:https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev論文鏈接:https://arxiv.org/abs/2506.15742代碼鏈接:https://github.com/black-forest-labs/flux/blob/main/docs/image-editing.md參考鏈接:[1]https://x.com/bfl_ml/status/1938257909726519640[2]https://bfl.ai/announcements/flux-1-kontext-dev[3]https://bfl.ai/models/flux-kontext[4]https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev[5]https://x.com/ComfyUI/status/1938259329498681385