上一篇文章介紹了 MM32F5 系列 所采用的 “星辰”STAR-MC1 處理器,如果讀者還有印象的話,“星辰”處理器相較于 M3 和 M4 處理器的一個主要優(yōu)勢是引入了內(nèi)存子系統(tǒng),包括了L1 指令和數(shù)據(jù)緩存接口和緊耦合 TCM 接口。而僅有內(nèi)存子系統(tǒng)是不夠的,需要配合高效率的總線架構(gòu)設(shè)計來實現(xiàn)其功能最大化。
本期,筆者就來聊聊 MM32F5270 的總線架構(gòu)設(shè)計,看看 F5270 是如何通過高并行度的總線設(shè)計實現(xiàn)系統(tǒng)吞吐率的最大化。
MM32F5270 的總線架構(gòu)
下圖展示了 MM32F5270 的總線架構(gòu),可以看到,系統(tǒng)中的處理器、存儲和外設(shè)是通過一個零延遲 AHB 總線矩陣進行互聯(lián),這里的總線矩陣是一個多 Master 到多 Slave 的多層 AHB 總線結(jié)構(gòu)。這里,把可發(fā)起讀寫訪問的一方叫做 Master,響應(yīng)訪問的一方叫做 Slave。
注:AHB 屬于 Arm? AMBA? 通信接口協(xié)議的一種,是嵌入式系統(tǒng)中的常用接口協(xié)議之一,對于不了解 Arm? AMBA? 接口協(xié)議的讀者,可自行搜索相關(guān)資料,本文不再贅述。
總線 Master – 訪問發(fā)起者?
從上圖可以看到,MM32F5270 中包含了如下 AHB 總線 Master:
CPU – “星辰”STAR-MC1
DMA1
DMA2
以太網(wǎng)控制器(ENET)
其中,“星辰”處理器占據(jù) 三個 AHB 口,分別是系統(tǒng)總線AHBS(system bus),代碼總線 AHBC(code bus),以及 TCM 總線 AHBT(TCM bus)。其中 AHBC 和 AHBS 是處理器發(fā)起訪問,從外部獲取數(shù)據(jù)和指令的通路,而 AHBT 是處理器以外的其它 Master(如 DMA等)訪問內(nèi)部 TCM 的通路,也就是說,TCM 不僅能被 CPU 訪問,外部資源也可以將 TCM 當(dāng)作普通 SRAM 訪問。
其它Master 包括 DMA、USB 和以太網(wǎng)。在 MM32F5270中,為提高系統(tǒng)并行度,配置了兩路獨立的 DMA 控制器,每個 DMA 控制器包含 8 個通道,每路 DMA 都可以無需 CPU 干預(yù)而進行 Slave 的讀寫訪問。USB 和以太網(wǎng)也可以做為總線 Master 直接發(fā)起對系統(tǒng)存儲的訪問,例如將提前放置在 SRAM 中的數(shù)據(jù)搬移到 TX FIFO 中以實現(xiàn)無需 CPU 干預(yù)而進行的數(shù)據(jù)通信。
總線 Slave – 訪問響應(yīng)者?
MM32F5270 中包含了如下 AHB 總線 Slave:
256KB 內(nèi)置 Flash 存儲器
112KB SRAM1
16KB SRAM2
QSPI – 可外擴四線 NOR Flash
FSMC – 8/16/32 位并口,可外擴 SRAM,NOR Flash,8080/6800 屏
外設(shè) APB1 組
外設(shè) APB2 組
32KB ITCM和 32KB DTCM – 通過 AHBT 總線訪問
為提高系統(tǒng)并行度,MM32F5270配備了兩路獨立的 RAM,包括 112KB 的 SRAM1 和 16KB 的 SRAM2,每個 RAM有獨立的 RAM 控制器和 Slave端口。
此外,MM32F5270 還配備了 32KB 指令 TCM RAM(ITCM)和 32KB 的數(shù)據(jù) TCM RAM(DTCM)。這里, TCM 和 CPU 是通過 TCM 接口直連的,相當(dāng)于一條快速通道,CPU 訪問 TCM 不需要經(jīng)過外部總線矩陣,這也是 TCM 被稱為緊耦合存儲(Tightly-Coupled Memory,TCM)的原因。CPU 訪問 TCM 是沒有任何延遲的,因此也不需要經(jīng)過緩存。同時,“星辰”處理器也預(yù)留了 AHBT 總線供 DMA 等 CPU 外部 Master 訪問 TCM。這里的 AHBT 總線掛在總線矩陣的 Slave 端,也就是說,DMA 要訪問 TCM 需要先經(jīng)過總線矩陣。當(dāng) DMA 和 CPU 同時訪問 TCM 時,“星辰”處理器以 CPU 訪問為高優(yōu)先級進行仲裁。需要說明的是,ITCM 支持程序執(zhí)行和數(shù)據(jù)讀取,其起始地址為 0x0000_0000,DTCM 支持數(shù)據(jù)讀取,其起始地址為 0x2000_0000。
根據(jù)上述介紹可以得出,MM32F5270 里實際是配置了 4塊完全獨立的 RAM,包括 ITCM,DTCM,SRAM1 和 SRAM2,在某些應(yīng)用場景下,這 4 塊 RAM 能夠同時被不同的 Master 訪問而不會產(chǎn)生任何的總線沖突和等待。例如,CPU 可以讀取并執(zhí)行ITCM中存放的程序算法,以太網(wǎng)可以從 SRAM2 中讀寫數(shù)據(jù),DMA1 可以從 DTCM中搬數(shù)據(jù), DMA2 可以從 SRAM1中搬數(shù)據(jù),這里的四條通路是完全獨立和并行的。
MM32F5270還包含了兩路獨立的 APB 外設(shè)組,即 APB1 和 APB2,每個外設(shè)組有獨立的 Slave 端口和AHB到 APB 的協(xié)議轉(zhuǎn)換橋。
與此同時,用戶還可以通過 FSMC 去外擴并口 NOR Flash 或者 SRAM,也可以通過 QSPI 去外擴四線式 NOR Flash。且這里的 FSMC 和 QSPI 都是直接掛在零延遲 AHB 總線矩陣上的 AHB Slave,因此其訪問通路是完全獨立的。當(dāng)然,用戶也可以通過 SPI、UART等串行總線接口來擴展更多存儲空間,不過這些外設(shè)都是掛在 APB 總線上,和其它共同掛在 APB 總線的外設(shè)共享總線矩陣的 AHB Slave 端口,因此,可能會產(chǎn)生多余的等待周期。
需要說明的是,除了 TCM 和外設(shè)空間,從 Code bus 和 System bus 上讀取的指令和數(shù)據(jù)基本上都可以被 4KB 指令緩存和 4KB 數(shù)據(jù)緩存加速。
下表對 MM32F5270 中支持的 Flash 和 RAM 資源做一個總結(jié):
并發(fā)網(wǎng)絡(luò)
前文提到的總線結(jié)構(gòu)圖中,Master 和 Slave 的連接關(guān)系通過矩陣網(wǎng)絡(luò)上的空心圓表示,如內(nèi)置 Flash 僅可以被 CPU 的 code bus 或者 DMA 訪問,而不能被其它總線 Master 訪問。
基于上述描述所能達到的效果就是,多個 Master 可以同時發(fā)起對多個Slave的訪問,如果每條路徑的發(fā)起者(Master)和響應(yīng)者(Slave)都是不同的,那這些訪問是完全并行的,是不需要仲裁和等待周期的。
下圖是一個并發(fā)訪問的例子,這里,6個總線 Master 對 6 個總線 Slave 的訪問構(gòu)成了 6 個獨立通路。當(dāng)然,這里僅僅是一個極限情況,對于一個實際應(yīng)用所能達到的并發(fā)效果,需要根據(jù)應(yīng)用需求具體分析。
案例:帶顯示的音頻播放器?
為了更直觀的講解 F5270 多并發(fā)總線設(shè)計的強大,這里以一個實際應(yīng)用的案例來進行展示。需要說明的是,這里的案例僅僅為了講解功能,并不做為參考設(shè)計。
這里,考慮基于 MM32F5270 制作一個帶顯示的音頻播放器,這是一種很常見的應(yīng)用場景,實際產(chǎn)品中所包含的功能可能是多種多樣的,這里為了簡化,以如下規(guī)格要求為例:
可播放 SD 卡上的音頻文件,支持 WAV 和 MP3 格式
2.4寸屏,320x240 分辨率,GUI 交互
注:實際的產(chǎn)品可能有更多的功能,如更高清的顯示、USB擴展、WIFI 或藍牙聯(lián)網(wǎng)、視頻播放、觸控等,感興趣的讀者可以搜索下網(wǎng)絡(luò)上的相關(guān)產(chǎn)品。
基于這個要求,可以搭建一個帶顯示的音頻播放器,根據(jù) MM32F5270 所包含的片內(nèi)資源,對上述規(guī)格要求做出如下的功能分解和資源分配:
其對應(yīng)的簡易系統(tǒng)框圖如下:
分析可知系統(tǒng)的主要功能可以分為三塊:
第一塊是 CPU 處理部分。
首先, CPU 所執(zhí)行的主程序存放在內(nèi)置 256KB Flash 中,而運行中所需要內(nèi)存存放在 SRAM1 中,其數(shù)據(jù)通路如下圖中的藍色箭頭所示;
同時,CPU 需要從外部 SD 卡讀取音頻文件,這里涉及到文件系統(tǒng)的交互,以及 MP3 軟解碼運算,并將解碼后的音頻數(shù)據(jù)存放在 32KB DTCM 中,其數(shù)據(jù)通路如下圖中的黃色箭頭所示;
最后,CPU 需要運行 GUI 應(yīng)用程序,包括從外擴 Flash 中獲取顯示數(shù)據(jù)和字庫,通過 CPU 的運算并將待顯示的圖像緩存到外擴 SRAM 中,其數(shù)據(jù)通路如下圖中的綠色箭頭所示。
第二塊是音頻播放數(shù)據(jù)流控制。
這里,通過 DMA1 來處理音頻數(shù)據(jù)流,DMA1 通過 AHBT 總線從 DTCM 中讀取解碼后的音頻數(shù)據(jù),并寫入 I2S 的 TX FIFO 中,通過 I2S 和外部的功放通信并驅(qū)動揚聲器或耳機,其數(shù)據(jù)通路如下圖中的紅色箭頭所示。
第三塊是圖像顯示數(shù)據(jù)流控制。
這里,通過 DMA2 來處理圖像顯示數(shù)據(jù)流,DMA2 通過 FSMC 從外部 SRAM 中讀取待顯示圖像,并通過 FSMC 寫入外部 LCD 屏,實現(xiàn)圖像幀的周期性刷新,其數(shù)據(jù)通路如下圖的紫色箭頭所示。
基于上述分析,將所有路徑進行匯總,并刪掉非獨立路徑后(即兩條路徑有共同發(fā)起者或共同接收者),可得到下圖所示的匯總數(shù)據(jù)通路??梢钥吹?,主程序的指令獲取和執(zhí)行(藍色箭頭)、主程序數(shù)據(jù)讀寫(藍色箭頭)、音頻數(shù)據(jù)流(紅色箭頭)和GUI數(shù)據(jù)流(紫色箭頭)這四條通路是完全獨立的。假設(shè)系統(tǒng)運行在 120MHz,而所有訪問都采用 32 位寬,則可以計算出此時整個系統(tǒng)的并行吞吐率可達 15Gbps!
當(dāng)然,這里僅僅是一個精簡的例子,對于實際應(yīng)用,其所需功能可能會更加復(fù)雜。但重要的是,MM32F5270 的多并發(fā)總線架構(gòu)為各類實際應(yīng)用中的并行處理場景提供了硬件支持,使系統(tǒng)整體吞吐率有了大幅優(yōu)化的空間。
需要補充說明的是,這個例子里面并沒有用到 SRAM2 和 ITCM 等資源,因此其可以用作其他用途,如 SRAM2 可以用作 ENET、USB 、CAN 或者 ADC的數(shù)據(jù)緩存,而ITCM 中可以存放對實時性要求較高的算法或中斷服務(wù)程序等。如果把這些功能都開發(fā)起來,則系統(tǒng)吞吐率是否還可以進一步提高呢?這個問題就留給感興趣的讀者來思考吧
-
嵌入式系統(tǒng)
+關(guān)注
關(guān)注
41文章
3535瀏覽量
129017 -
adc
+關(guān)注
關(guān)注
97文章
6356瀏覽量
543518 -
音頻播放器
+關(guān)注
關(guān)注
0文章
23瀏覽量
12461 -
MM32
+關(guān)注
關(guān)注
1文章
106瀏覽量
730
發(fā)布評論請先 登錄
相關(guān)推薦
評論