作者error405 (流河=L)
看板AI_Art
標題[閒聊] deepseek歸來 實時3D世界 ..本周AI新聞
時間Sun Jan 4 12:30:40 2026
https://www.youtube.com/watch?v=7kPNA86G_GA
這部影片介紹了許多本週(2026年1月4日左右)發布的 AI 新技術與工具。以下是重點新
聞的詳細簡介:
影片與 3D 生成
StreamDiffusion VSSR (Video Super-Resolution):
即時影片畫質提升:這是一個即時的影片超解析度工具,能將模糊的影片變清晰
,提升細節與銳利度。
極速運行:在 RTX 4090 上僅需 0.3 秒 即可處理,速度遠快於傳統
Diffusion VSSR(需數千秒),幾乎達到即時效果。
已開源:代碼已發布在 GitHub 上供下載使用。
UltraShape 1.0:
高擬真 3D 模型生成:能從單張圖片生成極高細節的 3D 模型,特別擅長處理複
雜結構(如寶塔、龍)和角色(如美人魚)。
超越競品:品質優於 Trellis 2,生成的形狀更準確,但目前僅能生成 3D 形
狀 (Geometry),尚不支援紋理 (Texture) 生成。
已開源:提供代碼和訓練數據。
Ume 1.5:
互動式 3D 世界生成:能從圖片或文字提示生成可探索的 3D 世界,並支援透過
鍵盤(WASD)即時移動。
動態事件:可透過文字指令在場景中加入角色或特效(如「女人走在街上」)。
低硬體需求:提供 Windows 一鍵安裝包,可在 16GB VRAM 的筆電上運行。
HY Motion 1.0 (Tencent Hunyuan):
文字轉 3D 動作:騰訊發布的 10 億參數模型,能根據文字指令生成逼真的 3D
角色動畫(如「蹲下」、「揮劍」、「拳擊」)。
高品質數據:使用超過 3000 小時的動作數據訓練,動作流暢自然。
已開源:可在消費級 GPU(如 24GB VRAM)上運行。
Space-Time Pilot:
影片運鏡重製:能改變現有影片的攝影機角度與透視。
特效功能:支援「子彈時間 (Bullet Time)」凍結畫面並旋轉視角、影片倒轉播
放同時改變運鏡、以及慢動作重拍。
即將開源:代碼目前在審核中。
HighStream:
影片生成加速:能將影片生成速度提升 100 倍以上。
原理:透過消除時間上的冗餘計算(Temporal Redundancy)和空間壓縮來加速
。
品質提升:不僅速度快,生成的畫質甚至比原始模型更好。
圖像生成與編輯
Qwen Image 2512 (Alibaba):
最新圖像生成模型:相比舊版,生成的照片真實感大幅提升,皮膚質感更自然,
減少了 AI 的塑膠感。
文字渲染強:能準確生成長篇文字(如日記內容),但在手寫風格上略顯工整。
物理光影:在處理複雜的光影反射(如鏡子中的模糊倒影)表現優於 Zimage
Turbo。
已開源:支援 ComfyUI,且有輕量化版本 (7.2GB) 可在 8GB VRAM 顯卡上運行
。
Spot Edit:
局部圖像編輯:允許使用者僅選擇圖片的特定區域進行修改(如把足球改成向日
葵),而不影響其他部分。
一致性高:相比重繪整張圖,更能保持原圖細節(如浮水印、背景物體)不變。
已開源:支援 Flux 和 Qwen Image 模型。
ProEdit:
統一編輯模型:同一個模型既能編輯圖片,也能編輯影片。
功能:能移除物體、更換角色(如鹿變牛、紅車變黑車),且在影片中保持動作
連貫。
即將開源:計劃發布代碼。
TwinFlow:
圖像生成加速:能將 Zimage Turbo 的生成步數從 7-9 步減少到 1-2 步,速度
提升 4-5 倍。
大型語言模型 (LLM) 與其他
DeepSeek 新論文 (MHC):
Manifold Constrained Hyperconnections:DeepSeek 提出的一種新架構,旨在
解決模型變深後訊號不穩定的問題,讓訓練更穩定且高效。
MiniMax M2.1:
最強開源模型之一:在程式編碼 (Coding) 和多步驟推理上表現極強,超越
GPT-5.2 和 Gemini 3 Pro。
實測強大:能寫出完整的 Android 作業系統模擬器、複雜的財務報告圖表。
已開源:提供模型下載,適合本地部署。
iQuest Coder V1:
程式碼生成黑馬:由量化交易公司背景的實驗室開發,專精於程式碼生成與
Debug。
Loop 架構:透過循環使用參數,讓小模型 (40B) 也能達到大模型的效能。
已開源:提供多種尺寸的模型下載。
Jarvis GPT:
全能多模態模型:能理解並生成文字、音訊和影片。
端到端生成:可以直接從文字生成帶有音效的影片(雖然目前畫質尚可,但概念
先進)。
已開源:提供完整的訓練代碼。
這週的 AI 進展非常驚人,特別是在 3D 生成、即時影片處理以及 高效能開源模型 方面
都有重大突破。
--
deepseek的神奇論文
https://youtu.be/1ON0LuQmARM
矩陣算法優化性能
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.206.123 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1767501042.A.986.html
1F:→ error405: (gemini3整理) 01/04 12:31
2F:推 potatotato: 感謝整理 01/04 19:13
3F:推 rex7788: 聲音方面的ai工具好像進展比較慢 01/05 01:04
4F:推 avans: 推整理 01/05 02:22
5F:推 snowwolf725: 推 01/05 07:44
7F:→ avans: 看一下說明4090 720P每幀需要0.328秒處理時間,還是不即時 01/05 10:31
8F:推 qiaffvvf: 感謝整理 01/07 05:52
9F:推 lyxiang: Qwen Image 2512爆vram跑不動QQ 01/07 08:37
10F:→ avans: Qwen-Image模型很重,量化的gguf版本比較容易跑起來 01/07 09:45