-
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus是DeepSeek開源LLM優(yōu)化版,強(qiáng)化語言一致性、Code/Search Agent性能,提供穩(wěn)定高效代理任務(wù)解決方案 -
LongCat-Flash-Thinking:美團(tuán) LongCat 團(tuán)隊(duì)開源的推理AI模型
LongCat-Flash-Thinking 是美團(tuán)開源的大推理模型,具備高效推理與工具調(diào)用能力,在數(shù)學(xué)、邏輯和編程任務(wù)中表現(xiàn)領(lǐng)先,支持長鏈推理與多框架部署。 -
Grok 4 Fast:xAI 最新發(fā)布的低成本高效推理模型,支持 200 萬 token 長上下文
Grok 4 Fast 是 xAI 最新發(fā)布的低成本高效推理模型,支持 2M token 長上下文、工具瀏覽能力與統(tǒng)一架構(gòu),在多個(gè) benchmark 中性能與 Grok 4 近似但成本大幅降低,適合企業(yè)與開發(fā)者部署使用。 -
Qwen3-ASR-Flash:阿里通義千問最新推出的語音識別模型
Qwen3-ASR-Flash 是通義千問系列最新語音識別模型,基于 Qwen3 底座與千萬小時(shí)級 ASR 訓(xùn)練,支持 11 種語言與多方言,提供上下文定制與歌聲識別,具備語種識別、非人聲拒識與強(qiáng)魯棒性,適配多噪聲與長難句場景。 -
Step-Audio-2-mini:階躍星辰開源的端到端語音大模型
Step-Audio 2 mini 是階躍星辰發(fā)布的開源端到端語音大模型,采用統(tǒng)一架構(gòu)實(shí)現(xiàn)語音理解、推理與生成,支持語音識別、跨語種翻譯、情感解析與自然對話。 -
LongCat-Flash-Chat:美團(tuán)推出的開源大語言模型
LongCat-Flash-Chat 是美團(tuán)開源的 5600 億參數(shù) MoE 大語言模型,在 LongCat-Flash 基礎(chǔ)上對齊優(yōu)化,支持多輪對話、長上下文和 Agent 應(yīng)用。 -
Nano Banana:Google 最新推出的 AI 圖像生成與編輯模型
Nano Banana 是 Google DeepMind 推出的圖像生成與編輯 AI 模型,支持從文本生成高質(zhì)量圖像、自動融合多圖與風(fēng)格編輯,具備多輪推理與上下文一致性,適合創(chuàng)作者、設(shè)計(jì)師與開發(fā)者使用。 -
Gemini 2.5 Flash Image:Google 最新推出的 AI 圖像生成與編輯模型
Gemini 2.5 Flash Image 是 Google DeepMind 推出的圖像生成與編輯 AI 模型,支持從文本生成高質(zhì)量圖像、自動融合多圖與風(fēng)格編輯,具備多輪推理與上下文一致性,適合創(chuàng)作者、設(shè)計(jì)師與開發(fā)者使用。 -
DeepSeek-V3.1:DeepSeek最新開源的AI大模型
DeepSeek-V3.1 是 DeepSeek 最新開源的AI大模型,支持“思考/非思考”混合推理架構(gòu),用戶可自由切換交互模式。新版本在推理速度、工具調(diào)用與 Agent 多步驟任務(wù)處理上全面提升,并支持高達(dá) 128K 上下文輸入。 -
Qwen-Image-Edit:阿里通義千問開源的圖像編輯模型
Qwen-Image-Edit 是阿里通義千問團(tuán)隊(duì)基于 20B 參數(shù)的 Qwen-Image 模型深度訓(xùn)練出的圖像編輯模型,其特點(diǎn)是同時(shí)具備“語義理解”與“外觀處理”雙重控制能力。它不僅支持低級的像素級視覺編輯(如添加/刪除元素、部分修改),還支持高級的語義級編輯(如IP 創(chuàng)作、物體旋轉(zhuǎn)、風(fēng)格遷移),并且具備精準(zhǔn)的中英文文本編輯能力,可在保持原字體/風(fēng)格的基礎(chǔ)上進(jìn)行文字增、刪、改。 -
Hunyuan-GameCraft:騰訊混元等開源的高動態(tài)交互式游戲視頻生成框架
Hunyuan-GameCraft 是由騰訊混元團(tuán)隊(duì)與華中科技大學(xué)聯(lián)合推出的開源交互式游戲視頻生成框架,基于HunyuanVideo底模,只需輸入一張圖 +?文字描述+動作指令(按鍵盤方向鍵)就能生成高動態(tài)、分鐘級長視頻 -
Baichuan-M2:百川智能開源的醫(yī)療增強(qiáng)推理大模型
Baichuan-M2-32B 是百川智能推出的醫(yī)療增強(qiáng)推理模型,專為真實(shí)世界的醫(yī)療推理任務(wù)設(shè)計(jì)。該模型基于 Qwen2.5-32B 基座,通過創(chuàng)新的大型驗(yàn)證器系統(tǒng)(Large Verifier System)從真實(shí)世界的醫(yī)療問題出發(fā),進(jìn)行醫(yī)療領(lǐng)域后訓(xùn)練對齊,在保持模型通用能力的同時(shí),實(shí)現(xiàn)了醫(yī)療效果的突破性提升。 -
Matrix-Game 2.0:昆侖萬維開源的交互式AI世界模型
Matrix-Game 2.0 是昆侖萬維發(fā)布的國產(chǎn)開源交互式世界模型,能夠以 25FPS 實(shí)時(shí)生成分鐘級長交互視頻,并在不同風(fēng)格與環(huán)境下保持良好的泛化與物理一致性。它面向游戲開發(fā)、虛擬現(xiàn)實(shí)與影視創(chuàng)作等應(yīng)用,旨在為虛擬世界構(gòu)建提供可落地的生成式基座,推動具身智能與空間智能研究。 -
Skywork UniPic 2.0:昆侖萬維開源的統(tǒng)一多模態(tài)生成與編輯模型
UniPic 2.0 是 Skywork 推出的統(tǒng)一多模態(tài)模型,基于 SD3.5-Medium 的 2B DiT,結(jié)合“在線強(qiáng)化學(xué)習(xí)+雙任務(wù)漸進(jìn)強(qiáng)化”,在生成與編輯上優(yōu)于同級開源模型,并擴(kuò)展為理解-生成-編輯一體的統(tǒng)一模型,提供技術(shù)報(bào)告、代碼與權(quán)重。 -
SkyReels-A3:昆侖萬維推出的音頻驅(qū)動人像視頻生成模型
SkyReels-A3是昆侖萬維新發(fā)布的音頻驅(qū)動任意時(shí)長人像視頻模型,一句話照片+聲音即可讓靜態(tài)人像開口說話、唱歌或帶貨,支持分鐘級長視頻、8種運(yùn)鏡控制,效果超越當(dāng)前開源/閉源方案,零門檻在線可用。 -
GLM-4.5V:智譜開源的多模態(tài)視覺推理大模型
GLM-4.5V 是智譜基于 GLM-4.5-Air 文本基座構(gòu)建的開源視覺-語言模型,面向圖像、視頻、文檔與 GUI 屏幕等全場景的多模態(tài)推理與理解。 -
GPT-OSS:OpenAI開源的大語言模型,支持本地部署與高效推理
GPT-OSS是 OpenAI 發(fā)布的開源權(quán)重大語言模型系列,包含 20B 與 120B 兩個(gè)版本,支持原生 128K tokens 長上下文、MoE 架構(gòu)高效推理、微調(diào)與智能體功能,適合本地部署與企業(yè)級生成式應(yīng)用,采用 Apache 2.0 許可協(xié)議。 -
Qwen-Image:阿里通義千問推出的圖像生成基礎(chǔ)模型
Qwen-Image 是通義千問系列的圖像生成基礎(chǔ)模型,具備卓越的文本渲染和圖像編輯能力,支持多種藝術(shù)風(fēng)格與復(fù)雜場景,廣泛應(yīng)用于海報(bào)、PPT及創(chuàng)意設(shè)計(jì),推動視覺內(nèi)容創(chuàng)作發(fā)展。 -
Step 3:階躍星辰開源的多模態(tài)推理模型
Step 3 是階躍星辰團(tuán)隊(duì)最新推出并開源的多模態(tài)推理模型,采用 MoE 架構(gòu),總參數(shù)量 321B,激活參數(shù)量 38B,上下文長度64k,擁有強(qiáng)大的視覺感知和復(fù)雜推理能力,可準(zhǔn)確完成跨領(lǐng)域的復(fù)雜知識理解、數(shù)學(xué)與視覺信息的交叉分析,以及日常生活中的各類視覺分析問題。 -
Qwen3-Coder-Flash:阿里通義千問開源的AI編程模型
Qwen3-Coder-Flash 是阿里通義開源的 30B 編程模型,支持超長上下文,函數(shù)調(diào)用優(yōu)化,性能接近主流閉源大模型。 -
Wan2.2 - 阿里通義開源的視頻和圖像生成模型
Wan2.2 是由阿里通義大模型團(tuán)隊(duì)發(fā)布的開源視頻生成模型,專為電影級視覺控制和高質(zhì)量視頻創(chuàng)作設(shè)計(jì)。它通過混合專家(MoE)架構(gòu),實(shí)現(xiàn)了對電影鏡頭語言的深度理解和還原,支持多維度的視覺呈現(xiàn),如光影、色彩和構(gòu)圖。 -
GLM-4.5:智譜AI推出的新一代開源旗艦AI模型
GLM-4.5 是由智譜 AI 推出的開源 SOTA 模型,專為智能體應(yīng)用打造,具備卓越的推理、代碼生成和智能體能力。采用混合專家架構(gòu),提供思考模式和非思考模式,滿足復(fù)雜任務(wù)和即時(shí)響應(yīng)需求。 -
Qwen-MT:阿里通義千問推出的機(jī)器翻譯模型,支持92種語言互譯
Qwen?MT 是阿里云通義千問團(tuán)隊(duì)基于 Qwen3 開發(fā)的機(jī)器翻譯大模型,采用輕量級 MoE 架構(gòu),支持 92 種官方語言及方言互譯。 -
Qwen3-Coder:阿里通義千問推出的代碼模型,具備卓越的代碼生成和 Agent 能力
Qwen3-Coder 是阿里巴巴通義千問團(tuán)隊(duì)發(fā)布的最新代碼模型,具備卓越的代碼生成和 Agent 能力。它擁有多個(gè)尺寸,其中最強(qiáng)大的版本是 Qwen3-Coder-480B-A35B-Instruct,這是一個(gè) 480B 參數(shù)激活 35B 參數(shù)的 MoE 模型,原生支持 256K token 的上下文,并可通過 YaRN 擴(kuò)展到 1M token。 -
Kimi K2:月之暗面開源的萬億參數(shù) MoE 架構(gòu)基礎(chǔ)模型
Kimi?K2 是月之暗面 Moonshot AI 推出的開源大型語言模型,采用 Mixture-of-Experts 架構(gòu),擁有總參數(shù)量達(dá) 1?萬億、32?B 激活參數(shù),支持最長 128K 上下文長度,原生設(shè)計(jì)以實(shí)現(xiàn)“agentic intelligence”(自主任務(wù)執(zhí)行與工具調(diào)用)。 -
AniSora - Bilibili開源的動漫視頻生成模型,一鍵生成多種風(fēng)格動漫視頻鏡頭
AniSora是 Bilibili 推出的開源動漫視頻生成模型,它支持一鍵生成多種動漫風(fēng)格的視頻鏡頭,包括番劇片段、國創(chuàng)動畫、漫畫改編、VTuber 內(nèi)容、動畫 PV、鬼畜(MAD)等。 -
ThinkSound - 阿里通義開源的AI音頻生成模型
ThinkSound 是阿里通義實(shí)驗(yàn)室開源的首個(gè)音頻生成模型,能夠像專業(yè)音效師一樣理解畫面內(nèi)容并進(jìn)行結(jié)構(gòu)化推理,從而生成高保真、與視覺高度同步的空間音頻,適用于影視、短視頻、游戲等多種創(chuàng)作場景。 -
-
Ovis-U1:阿里巴巴推出的統(tǒng)一的多模態(tài)理解與生成模型
Ovis-U1 是阿里巴巴國際化團(tuán)隊(duì)推出的統(tǒng)一多模態(tài)理解與生成模型,它擁有三十億參數(shù),融合了圖像理解、文本到圖像生成和圖像編輯功能。 -
百度正式開源文心4.5系列模型
2025年6月30日,百度宣布文心4.5系列模型正式開源。此次開源包括10款不同規(guī)模的模型,其中包括參數(shù)量為47B和3B的混合專家(MoE)模型,以及0.3B的稠密參數(shù)模型。文心4.5的開源文件包括預(yù)訓(xùn)練權(quán)重和推理代碼,已上傳至Hugging Face、GitHub以及飛槳星河社區(qū),供全球開發(fā)者使用。 主要技術(shù)特點(diǎn) 1. 多模態(tài)混合專家模型預(yù)訓(xùn)練 文心4.5通過聯(lián)合訓(xùn)練文本和視覺兩種模態(tài)來提高模型… -
Qwen VLo - 阿里推出的多模態(tài)統(tǒng)一理解與生成模型
Qwen VLo 是通義千問團(tuán)隊(duì)推出的多模態(tài)統(tǒng)一理解與生成模型,具備強(qiáng)大的圖文雙向交互能力。它不僅能精準(zhǔn)理解圖像內(nèi)容,還能根據(jù)自然語言指令進(jìn)行高質(zhì)量的圖像生成與編輯,支持風(fēng)格遷移、背景更換、物體添加等多種操作 -
FLUX.1 Kontext [dev]:Black Forest Labs開源的圖像編輯模型
FLUX.1 Kontext \[dev] 是 Black Forest Labs 推出的開源圖像編輯模型,支持通過自然語言對圖像進(jìn)行局部修改,具備風(fēng)格與角色一致性保持、多輪穩(wěn)定編輯等能力。該模型基于 Flow Transformer 架構(gòu),編輯精度高、響應(yīng)速度快,適合創(chuàng)作者、開發(fā)者和研究人員用于插畫創(chuàng)作、視覺敘事和圖像生成研究。 -
Hailuo 02:MiniMax最新推出的AI視頻生成模型
Hailuo 02 是 MiniMax 稀宇科技最新推出的AI視頻生成模型,支持生成高質(zhì)量1080p視頻,擅長處理復(fù)雜指令和物理表現(xiàn),如體操場景。 -
MiniMax-M1:MiniMax開源的大規(guī)模混合架構(gòu)推理模型
MiniMax-M1 是MiniMax(稀宇科技)推出的全球首個(gè)開源大規(guī)模混合架構(gòu)推理模型,具備卓越的長上下文處理能力和高效的推理性能。其支持高達(dá)100萬上下文輸入和8萬Token輸出,采用閃電注意力機(jī)制,顯著提升算力效率。同時(shí),該模型在軟件工程、長上下文理解等復(fù)雜場景中表現(xiàn)優(yōu)異,性價(jià)比極高,且提供免費(fèi)不限量使用和低價(jià)格API服務(wù)。 -
dots.llm1:小紅書開源的 MoE 架構(gòu)大語言模型
dots.llm1是小紅書開源的 MoE 架構(gòu)大語言模型,擁有 1420 億參數(shù),推理僅激活 140 億,兼顧性能與效率。模型基于 11.2 萬億非合成高質(zhì)量數(shù)據(jù)訓(xùn)練,支持中英文,具備 32K 長上下文處理能力,并開放中間訓(xùn)練 checkpoint,適合問答、內(nèi)容生成、語義理解等多種應(yīng)用場景。 -
Speech 02:MiniMax 推出的新一代語音TTS模型,支持高質(zhì)量多語種語音合成
MiniMax-Speech-02 支持多語言、高擬真語音生成,廣泛應(yīng)用于配音制作、虛擬人、教育、語音定制與無障礙溝通等場景,助力個(gè)性化語音內(nèi)容高效生成與全球化傳播。 -
Wan2.1-VACE:阿里開源的AI視頻生成和編輯模型
通義萬相 Wan2.1-VACE是阿里巴巴開源的AI視頻生成與編輯模型,單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長延展等全系列基礎(chǔ)生成和編輯能力。 -
Step1X-3D:階躍星辰開源的3D大模型,支持生成高保真可控的3D內(nèi)容
Step1X-3D 是由階躍星辰正式發(fā)布并開源的一款3D大模型。該模型是繼圖像、視頻、語音、音樂等模態(tài)后,階躍星辰在多模態(tài)AI方向的最新成果,專注于生成高保真、可控的3D內(nèi)容。 -
Seed1.5-VL:字節(jié)跳動推出的視覺-語言多模態(tài)基礎(chǔ)模型
Seed1.5-VL 是字節(jié)跳動推出的視覺-語言多模態(tài)基礎(chǔ)模型,結(jié)合圖像編碼器與200億激活參數(shù)的大語言模型,具備出色的圖像、視頻理解與推理能力。在60項(xiàng)基準(zhǔn)測試中獲得38項(xiàng)SOTA,廣泛應(yīng)用于視頻問答、圖表理解、GUI智能體等任務(wù),表現(xiàn)穩(wěn)定、推理強(qiáng)大。 -
Matrix-Game:昆侖萬維開源的交互式世界基礎(chǔ)模型
Matrix-Game是由昆侖萬維開源的交互式世界基礎(chǔ)模型,能夠生成完整可交互的游戲世界,能夠?qū)θ祟愝斎氲牟僮髦噶钸M(jìn)行正確響應(yīng),保留了游戲世界的空間結(jié)構(gòu)與物理特性,畫面也更加精致,超越了以往所有類似開源世界模型。































![FLUX.1 Kontext [dev]:Black Forest Labs開源的圖像編輯模型](http://www.weizhongcn.com/wp-content/uploads/thumb/2025/06/fill_w576_h356_g0_mark_FLUX-1-Kontext-dev.webp)







