你的位置:首頁 > 電源管理 > 正文

類TPU架構(gòu)+開源生態(tài),奕行智能走出中國AI芯片的第三條路

發(fā)布時(shí)間:2026-02-11 來源:轉(zhuǎn)載 責(zé)任編輯:lily

【導(dǎo)讀】在AI大模型邁向萬億參數(shù)與規(guī)模化部署的新階段,算力需求正從“堆規(guī)?!鞭D(zhuǎn)向“提效率”。奕行智能以RISC-V架構(gòu)為基底,融合類TPU設(shè)計(jì)、Tile編程范式與自研VISA虛擬指令集,走出一條“軟硬協(xié)同+開源生態(tài)”的差異化路徑。其首款量產(chǎn)芯片Epoch不僅在算力密度、能效比和互聯(lián)擴(kuò)展性上實(shí)現(xiàn)突破,更通過深度適配FP8、NVFP4等低位寬高精度計(jì)算格式,直擊當(dāng)前AI推理成本與效率的核心痛點(diǎn)。本文將系統(tǒng)剖析AI產(chǎn)業(yè)對(duì)算力的三大核心訴求,并揭示DSA(專用架構(gòu))+Tile范式如何成為下一代AI芯片的關(guān)鍵方向。


從行業(yè)需求角度,詳細(xì)剖析AI產(chǎn)業(yè)現(xiàn)狀及未來


AI算力的三個(gè)需求


奕行智能介紹,隨著大模型參數(shù)量迭代至萬億級(jí)、應(yīng)用場景需要考慮規(guī)?;渴?,此時(shí),AI行業(yè)對(duì)底層算力的需求已從單一性能比拼,升級(jí)為規(guī)模、效率、生態(tài)的全方位較量。


具體而言,針對(duì)規(guī)模訴求,AI模型參數(shù)量與訓(xùn)練計(jì)算量的激增速度,已遠(yuǎn)超硬件算力的提升幅度,算力供需矛盾日益突出。也正因此,算力部署形態(tài)發(fā)生根本性轉(zhuǎn)變——從早期單卡GPU支撐小型模型,升級(jí)為萬卡規(guī)模的數(shù)據(jù)中心承載大模型訓(xùn)練與推理,這對(duì)算力規(guī)?;岢隽烁咭螅盒枰骖櫵懔γ芏?、互聯(lián)能力及系統(tǒng)穩(wěn)定性等。


第二是效率訴求。2025年,以DeepSeek為代表的國內(nèi)頭部大模型廠商,通過算法與軟硬件協(xié)同優(yōu)化,將Token單位成本顯著降低。DeepSeek現(xiàn)象也讓AI推理有了新的玩法。從追求算力堆砌轉(zhuǎn)變?yōu)樾逝c規(guī)模并重,更加關(guān)注模型算力實(shí)際利用率(MFU)、Token單位成本(Token/Dollar),以及影響用戶體驗(yàn)的首個(gè)Token延遲(TTFT)和持續(xù)推理吞吐量(TPS)等效率指標(biāo)。


第三個(gè)訴求是生態(tài)訴求。伴隨著大模型的迭代速度以月甚至周為單位,芯片、算法與軟件互相促進(jìn)、快速迭代,這對(duì)高投入、長周期的芯片廠商而言,是巨大的挑戰(zhàn)。需要前瞻性地考慮上層軟件算法的快速發(fā)展,支持更高效的AI開發(fā)范式(如Triton、TileLang等)。


效率訴求是第一位


大模型的發(fā)展已從單一依賴“算力與參數(shù)堆疊”,演進(jìn)為“預(yù)訓(xùn)練→訓(xùn)練后優(yōu)化→測(cè)試時(shí)推理”的三階段擴(kuò)展模式。每一階段的進(jìn)化都以更高效率的計(jì)算投入,實(shí)現(xiàn)了模型智能水平的顯著躍升,也為突破算力瓶頸提供了新路徑。


而對(duì)于推理而言,大模型的核心產(chǎn)品形態(tài)實(shí)際上是Token,與軟件近乎零成本的復(fù)制不同,Token的生產(chǎn)模型以算力與電力為核心,因此,提升算力利用率與能效比,不再是單純的技術(shù)優(yōu)化,而是直接降低生產(chǎn)成本、提高毛利率、轉(zhuǎn)化為商業(yè)利潤,提升運(yùn)營效率的關(guān)鍵。


DSA+Tile范式正在崛起


目前,AI計(jì)算芯片市場主要分為CPU、GPGPU和ASIC(DSA)三大架構(gòu),其中GPGPU長期占據(jù)主導(dǎo)地位,但如今ASIC(DSA)架構(gòu)與Tile編程范式的結(jié)合,正成為行業(yè)發(fā)展的新趨勢(shì),為AI算力效率提升開辟了全新路徑。


英偉達(dá)的GPGPU憑借SIMT架構(gòu)的強(qiáng)大并行計(jì)算能力,以及深耕近20年的CUDA生態(tài),長期占據(jù)AI算力硬件市場的主導(dǎo)地位。不少廠商試圖通過CUDA兼容的方式切入市場,但面臨諸多挑戰(zhàn)。據(jù)分享,CUDA是英偉達(dá)深度軟硬協(xié)同的產(chǎn)物,僅能在英偉達(dá)GPGPU上發(fā)揮最優(yōu)性能,第三方廠商的兼容往往只停留在API層面,普遍存在“水土不服”的問題,同時(shí),隨著英偉達(dá)軟硬件的快速迭代,即便是現(xiàn)有的“CUDA兼容”,也會(huì)因?yàn)橛布疃鵁o法持續(xù)。


相比之下,谷歌給出了一個(gè)較為妥善的答案。以TPU為代表的ASIC(DSA)架構(gòu),通過內(nèi)置針對(duì)矩陣運(yùn)算等AI核心范式的專用加速單元,在性能與能效比上具備超出GPGPU的優(yōu)勢(shì)。ASIC的核心挑戰(zhàn)的是生態(tài)適配的成本,相較于成熟的CUDA,如何吸引開發(fā)者在專用硬件上高效編程,是多數(shù)ASIC廠商面臨的共同難題。谷歌等頭部廠商通過長期投入,已在生態(tài)適配上取得突破:TPU借助XLA編譯技術(shù),不僅支持谷歌系的TensorFlow和JAX框架,還能適配PyTorch框架,有效降低了生態(tài)遷移門檻,推動(dòng)ASIC架構(gòu)走向規(guī)?;瘧?yīng)用。


此外,谷歌還聯(lián)合多家科技巨頭發(fā)起OpenXLA開源項(xiàng)目,通過XLA編譯器及StableHLO中間表示層,構(gòu)建起跨框架的通用編譯生態(tài),實(shí)現(xiàn)對(duì)TensorFlow、JAX和PyTorch等主流框架的高效兼容,大幅降低開發(fā)者的遷移門檻;近期發(fā)起的TorchTPU項(xiàng)目,旨在進(jìn)一步深化TPU對(duì)PyTorch生態(tài)的原生支持,讓開發(fā)者能夠以近乎零代碼修改的方式,將模型從GPU遷移至TPU,最大限度減少轉(zhuǎn)化過程中的性能損耗。谷歌的實(shí)踐充分證明,全棧軟硬協(xié)同,才是實(shí)現(xiàn)算力效率最大化的核心路徑。


除了架構(gòu)革新,編程范式的升級(jí)也成為提升AI開發(fā)效率的重要方向,其中Tile(數(shù)據(jù)分塊)計(jì)算范式的興起,尤為值得關(guān)注。AI計(jì)算中的數(shù)據(jù)往往具有規(guī)整性,Tile編程模式貼合這一特征,能夠提供更友好的編程接口,大幅提升算子開發(fā)效率,降低編程門檻。比如DeepSeek就采用北大團(tuán)隊(duì)開源的TileLang構(gòu)建算子,并將其作為新模型的精度基準(zhǔn);而這種對(duì)于開發(fā)者更友好的編程范式,影響力已經(jīng)延伸至CUDA生態(tài),就連英偉達(dá)也在CUDA 13.1中,推出了基于Tile編程范式的CUDA Tile編程界面,印證了這一范式的行業(yè)價(jià)值與發(fā)展?jié)摿Α?/p>


值得注意的是,DSA設(shè)計(jì)思想也正在滲透到GPU的迭代中:英偉達(dá)從Volta架構(gòu)首次引入Tensor Core,到Blackwell架構(gòu)擴(kuò)大張量核心規(guī)模、加入Transformer優(yōu)化引擎,持續(xù)提升芯片中DSA的占比,凸顯出“領(lǐng)域定制化”的演進(jìn)趨勢(shì);2025年12月,英偉達(dá)吸納AI推理芯片創(chuàng)企Groq的核心團(tuán)隊(duì),進(jìn)一步強(qiáng)化在大模型推理定制化領(lǐng)域的布局。


“種種跡象表明,DSA(ASIC)+Tile編程范式的結(jié)合,將成為未來AI算力領(lǐng)域的核心生態(tài)力量。”奕行智能分享。其通過軟硬協(xié)同帶來的效率優(yōu)勢(shì),在AGI(通用人工智能)時(shí)代具備廣闊的市場空間。而這一技術(shù)方向,正是奕行智能的核心布局領(lǐng)域,也是其區(qū)別于同行的關(guān)鍵差異化優(yōu)勢(shì)。


奕行智能走通了DSA+Tile

實(shí)際上,在奕行智能成立之初,公司就已經(jīng)選擇了“硬件架構(gòu)創(chuàng)新+自研互聯(lián)+開源生態(tài)”這條路徑,實(shí)際結(jié)果也符合創(chuàng)業(yè)之初的預(yù)期。奕行智能研發(fā)的國內(nèi)業(yè)界首款RISC-V AI算力芯片Epoch正在大規(guī)模量產(chǎn)出貨中,截至目前,該系列產(chǎn)品已在頭部系統(tǒng)廠商、互聯(lián)網(wǎng)企業(yè)、數(shù)據(jù)中心及重點(diǎn)行業(yè)客戶中取得重大商業(yè)突破。


該芯片在業(yè)界率先采用RISC-V + RVV(RISC-V向量擴(kuò)展)指令集架構(gòu),結(jié)合自研的VISA(虛擬指令集)技術(shù),兼顧了AI計(jì)算的通用性與專用性。


Epoch十分滿足如今AI芯片變革過程中的新痛點(diǎn)。


首先,在應(yīng)對(duì)規(guī)?;枨蠓矫?,通過先進(jìn)芯片架構(gòu),結(jié)合自研ELink互聯(lián)技術(shù),實(shí)現(xiàn)算力的大規(guī)模擴(kuò)展。


其次,在應(yīng)對(duì)效率提升需求上,采用了類TPU架構(gòu),兼顧高性能與高效率;通過深度軟硬協(xié)同優(yōu)化,提升算力實(shí)際使用效率,降低Token單位成本。


而在生態(tài)適配上,采用RISC-V + RVV開源指令集,賦予硬件靈活擴(kuò)展能力;另外,采用了基于軟硬件一體的Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu),通過“虛擬指令+智能編譯器+硬件調(diào)度器”,提供更友好的編程界面,降低開發(fā)與適配成本,跟上算法迭代節(jié)奏。


Epoch芯片在業(yè)界率先采用RISC-V + RVV(RISC-V向量擴(kuò)展)指令集架構(gòu),結(jié)合自研的VISA(虛擬指令集)技術(shù),完美平衡了AI計(jì)算的通用性與專用性,既能適配多樣化的AI應(yīng)用場景,又能通過專用優(yōu)化提升計(jì)算效率。


2025年,Epoch系列產(chǎn)品及計(jì)算平臺(tái)解決方案正式啟動(dòng)量產(chǎn);截至目前,該系列產(chǎn)品已在頭部系統(tǒng)廠商、互聯(lián)網(wǎng)企業(yè)、數(shù)據(jù)中心及重點(diǎn)行業(yè)客戶中取得重大商業(yè)突破,斬獲巨額在手商業(yè)訂單,迎來規(guī)?;慨a(chǎn)的爆發(fā)期,充分印證了其產(chǎn)品競爭力與市場認(rèn)可度。


針對(duì)產(chǎn)品的類TPU架構(gòu),奕行智能介紹了一些架構(gòu)亮點(diǎn),例如同樣采用RISC-V內(nèi)核,并內(nèi)置了性能強(qiáng)大雙脈動(dòng)流水矩陣運(yùn)算引擎及具備復(fù)雜矩陣數(shù)據(jù)處理與變換的4D DMA引擎。


其中,采用雙脈動(dòng)流水設(shè)計(jì)的大尺寸矩陣運(yùn)算引擎,將數(shù)據(jù)復(fù)用率提升數(shù)倍,且顯著減少了數(shù)據(jù)前處理的開銷。相比同類方案,編程也更為簡單易用,限制更少——例如幾乎無需為規(guī)避bank沖突特意做手動(dòng)編排,能夠直接支持模型中開發(fā)難度大的卷積矩陣乘算子等。


面對(duì)AI計(jì)算中頻繁出現(xiàn)的4D數(shù)據(jù),相比競品需要多次數(shù)據(jù)搬移與處理,奕行智能的4D DMA引擎僅通過一次操作即可完成4D數(shù)據(jù)的整體搬移,并在過程中同步完成數(shù)據(jù)變換與重排。此外,通過配置大容量片上緩存,將熱點(diǎn)與關(guān)鍵數(shù)據(jù)置于L1/L2中,其訪問速度相比存放在DDR的方案提升1–2個(gè)數(shù)量級(jí)。


盤點(diǎn)Epoch三大創(chuàng)新


奕行智能詳細(xì)介紹了Epoch的三大產(chǎn)品創(chuàng)新,其中包含一個(gè)率先和兩個(gè)獨(dú)創(chuàng)。


創(chuàng)新之一是率先采用了RISC-V + RVV(RISC-V向量擴(kuò)展)構(gòu)建AI芯片架構(gòu),依托RISC-V的開源特性與技術(shù)優(yōu)勢(shì),可以更好地實(shí)現(xiàn)完備的生態(tài)支持。


獨(dú)創(chuàng)之一是VISA(虛擬指令集)技術(shù)。奕行智能解釋,VISA相當(dāng)于在軟件與硬件之間搭建了一層中間抽象層,從根本上解決了AI芯片行業(yè)長期存在的軟件兼容、擴(kuò)展能力、編譯難度三大痛點(diǎn),兼顧了計(jì)算通用性與效率。


VISA技術(shù)讓上層的算子及AI編譯器軟件建立在VISA抽象層之上,硬件層面實(shí)現(xiàn)VISA宏指令的順序發(fā)射、亂序執(zhí)行——這種設(shè)計(jì)可有效隔離硬件變化對(duì)上層軟件的沖擊,同時(shí)降低AI編譯器與算子的實(shí)現(xiàn)難度,預(yù)留額外的性能優(yōu)化空間,實(shí)現(xiàn)通用計(jì)算與高效計(jì)算的平衡,滿足AI計(jì)算所需的抽象需求。


這樣做的好處是,可以實(shí)現(xiàn)隔離硬件迭代差異,提升計(jì)算擴(kuò)展能力,并且解決了AI編譯陡降問題。


第二個(gè)獨(dú)創(chuàng)是Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu)?;贏I場景數(shù)據(jù)規(guī)整、無需過高靈活性的特點(diǎn),奕行智能獨(dú)創(chuàng)Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu),原生適配Tile生態(tài)范式。該架構(gòu)由Tile級(jí)虛擬指令集、智能編譯器和硬件調(diào)度器三部分組成,可實(shí)時(shí)適配硬件行為,充分挖掘并行計(jì)算潛力,實(shí)現(xiàn)算力資源的最優(yōu)分配。


架構(gòu)可自動(dòng)管理指令間依賴、指令順序流水和內(nèi)存切分,無需開發(fā)者手動(dòng)優(yōu)化,既突破了靜態(tài)優(yōu)化的性能瓶頸,又讓編程更加干凈簡潔,大幅降低開發(fā)者的編程門檻,提升開發(fā)效率。


在編譯框架中,奕行智能深度融合了谷歌開發(fā)并開源的StableHLO & XLA技術(shù),無縫支持市面上所有的主流深度學(xué)習(xí)框架——包括深度適配PyTorch生態(tài),同時(shí)支持TensorFlow、JAX、ONNX等主流機(jī)器學(xué)習(xí)框架,支持無縫遷移代碼。


迎合“低位寬高精度”新時(shí)代


在深度學(xué)習(xí)領(lǐng)域,數(shù)據(jù)精度與計(jì)算效率始終存在權(quán)衡關(guān)系。例如,TPU Tensor Core 在FP8模式下可提供2倍于BF16的算力密度。以Ironwood(TPU v7)為例,其FP8峰值算力達(dá)到4.6PetaFLOPS,而BF16僅為2.3PFLOPS。顯存占用和通信數(shù)據(jù)量也同步減半。


DeepSeek于2025年1月推出基于FP8分塊量化(Block-wise Quantization)的技術(shù),通過更細(xì)粒度的縮放因子補(bǔ)償,使FP8計(jì)算精度接近原始BF16水平,也因此引起了DeepSeek熱。


2025年6月,NVIDIA正式發(fā)布NVFP4,采用16元素共享縮放因子并以FP8作為縮放數(shù)據(jù)類型,使4bit精度幾乎逼近 BF16水準(zhǔn),標(biāo)志行業(yè)進(jìn)入4bit時(shí)代。


奕行智能的Epoch除了支持傳統(tǒng)的多種浮點(diǎn)及整型數(shù)據(jù)類型以外,還在國內(nèi)率先支持DeepSeek 所需的基于分塊量化的FP8計(jì)算精度,并在其新一代產(chǎn)品支持 NVFP4、MXFP4、MXFP8、MXINT8等各類前沿?cái)?shù)據(jù)格式。


總結(jié)

當(dāng)AI產(chǎn)業(yè)從“算力軍備競賽”步入“效率精耕時(shí)代”,唯有真正打通硬件架構(gòu)、編譯生態(tài)與算法演進(jìn)的全棧協(xié)同,才能穿越算力瓶頸、兌現(xiàn)商業(yè)價(jià)值。奕行智能憑借RISC-V的開放基因、類TPU的高效架構(gòu)與獨(dú)創(chuàng)的VISA+Tile動(dòng)態(tài)調(diào)度體系,不僅驗(yàn)證了國產(chǎn)AI芯片在高端算力領(lǐng)域的可行性,更在全球DSA演進(jìn)浪潮中搶占了生態(tài)定義權(quán)。


3-958x200_20251021044704_586.png

特別推薦
技術(shù)文章更多>>
技術(shù)白皮書下載更多>>
熱門搜索

關(guān)閉

?

關(guān)閉