Xcell China 28 - (Page 14) 技 術 專 欄 VLIW DSP-CPU 性能不足 至此,我們一直假定每像素 8 位,這 很適合 32 位架構的 DSP-CPU 處理器。然 而,新型 CMOS 圖像傳感器的分辨率範圍 較高,即每像素 12 到 14 位。對於這些數 據類型,32 位架構的傳統四路 8 位子字 ,必須換用雙路 16 位半字 SIMD 不夠有效 其中的子字並行度僅為二 。因此,由 SIMD, 於計算一個 MAE 需要較多時鐘週期,最 高性能大幅度下降。 表 3 所示為在 TI VLIW DSP-CPU 上使 用 16 位子字指令計算 SAD 時可能的偽匯 編代碼,假定延遲正確且函數發射時隙允 許執行這種指令。因此,一個 4 x 4 的塊需 要八個週期,而並行處理兩個和三個塊分 別需要 10 個和 12 個週期。這時 ,相應的 最高性能分別為 75 MMAE/s、 120 MMAE/s 和 150 MMAE/s。這些數字都比使用 8 位 子字指令得到的數字小。 作為參 考,仍然用 15 0 M H z 頻率, Spar tan 3A-DSP 1800A 器件僅使用整個 FPGA 器件的 70% 即可並行處理多達 23 個塊 (70% x 16,640 Slice/508 Slice/塊 = 。與此對應的最高性能是 3,529 2 3 塊) MMAE/s,這至少要比 600 MHz 的 TI DSPCPU 的最高性能高 25 倍。 我們對於 FPGA 的估算時鐘頻率相當 保守 (以 150 MHz 對 250 MHz) ,對於運 動估算的搜索區也是如此 (搜索區越大, 需要計算的 MAE 的數量就越多) 。例如, 30 x 30 的搜索區需要 609 MMAE/s 的性能 (遠遠超過 VLIW DSP-CPU 的能力) ,然而 卻僅佔用 1800A 器件上 Slice 的 12%。 最後,我們在實現 MAE 時根本未使用 DSP48 MAC 單元:據我們估計,如果用四 個 DSP48 單元取代由 100 個 Slice 組成的 加法器樹,則一個 12 位輸入數據 MAE 的 (782 個觸發器 4 x 4 塊會佔用 400 個 Slice 和 400 個 LUT) 和四個 DSP48。 因此,Spartan-3A DSP 1800A 器件非常 適合需要極高處理性能、 靈活性和可縮放 性的視覺應用,如未來型汽車駕駛員輔助 系統中的視覺應用。 結論 我們以汽車視覺應用為例說明瞭如何 利用中型低成本 Xilinx FPGA 的可編程並 行處理能力提供超過 VLIW DSP-CPU 的處 理性能。表 4 列出了我們的分析結果。 請注意,對於 12 位像素數據的 4 x 4 塊的 MAE 計算,Spar tan-3A DSP 的性 能 僅 以 四 分之一 時 鐘 速 度 即 可 達 到 T I TMS320DM6437 的兩倍。另外,FPGA 的資 源佔用率僅為 6%,因此可以在同一器件 上 實現其他圖像 處 理功能 (必要時可採 。 納並行處理) 另一方面,V L I W DSP-CPU 在 SAD 計 算期間被完全佔用, 消 耗 串 行處 理器 長 指令的可用時隙,因 此很 少有 機會同 時 執行其他功能。 Spartan-3A DSP FPGA 的 SAD 和 MAE 性能 為了填補 Spartan -3 和 Virtex -4 器 件之間的 處 理性 能空白,X i l i n x 推出了 Spartan 3A-DSP 1800A 和 3400A FPGA。這 些器件採納了 Vir tex-4 器件中的 DSP48 Slice 的修改版。另外,3A-DSP 器件包括 大 量片上存儲器(Blo c k R A M) 。這兩方 面增強加上針對大量應用制訂的價位使 3A-DSP 器件非常適合汽車視覺 DA 系統。 圖 3 所示為 S p a r t a n -3 A D S P 18 0 0 (XC3SD1800A-4FG676) 器件上的四路 12 位像素的 SAD 計算方案。此實現是使用 (Xilinx System Generator for DSP 設計流程 提供的 Simulink 工具中的數位和週期都 精確的可綜合庫) 完成的。所需資源數量 是 121 個 Slice (236 個 LUT 和 140 個觸發 器) 。將此結構複製四次並且加上部分結 果,即得到整個 4 x 4 塊的計算方案,該方 案需要 508 個 Slice (990 個觸發器和 606 個 LUT) 具有一個週期吞吐量 , (這意味着 可從任意時鐘週期開始計算新的 MAE) 和 七個週期延遲。 如果使 用 15 0 M H z 時鐘頻率(該器 件最高時鐘頻率為 250 MHz) ,只需要兩 個並行結構 (約佔器件面積的 6%) 即可 達到 300 MMAE/s 的性能, 從而滿足示例 應用的 250 MMAE/s 性能要求。這樣可以 節省大量資源用來實現其他圖像處理功 能、數據路由管道、存儲器接口控制器以 及一個用於串行處理和外部通信的 32 位 MicroBlazeTM 嵌入式處理器。 TM TM 器件 應用示例要求 配置 752 x 480 圖像 4 x 4 像素塊 20 x 20 像素搜索區 8 位像素深度 並行處理 三個 4 x 4 塊 : 8 位像素深度 並行處理 三個 4 x 4 塊 : 12 位像素深度 並行處理 三個 4 x 4 塊 : 12 位像素深度 並行處理 兩個 4 x 4 塊 : (約為 器件資源的 6%) 時鐘頻率 性能 不適用 >250 MMAE/s Philips Nexperia PNX 1500 VLIW DSP-CPU TI TMSD320DM6437 VLIW DSP-CPU TI TMSD320DM6437 VLIW DSP-CPU Xilinx Spartan-3A DSP 1800A FPGA 300 MHz 600 MHz 600 MHz 150 MHz 100 MMAE/s 163.64 MMAE/s 150 MMAE/s 300 MMAE/s Xilinx Spartan-3A DSP 1800A FPGA 150 MHz 12 位像素深度 並行處理 :23 個 4 x 4 塊 (約為 器件資源的 70%) 表 4 – 結果匯總 3450 MMAE/s 下一步(請點擊下列資料了解詳細內容:) • 評估 System Generator for DSP 設計工具。 • 獲取有關 Spartan-3A DSP 1800A 器件的更多信息並購買該器件。 • 購買 Spartan-3A DSP 3400A 版 XtremeDSP 開發平台。 14 賽靈思中國通訊 28期 http://china.xilinx.com/ise/optional_prod/system_generator.htm http://china.xilinx.com/products/silicon_solutions/fpgas/spartan_series/spartan3adsp_fpgas/index.htm http://china.xilinx.com/products/devkits/HW-SD3400A-DSP-DB-UNI-G.htm
Table of Contents Feed for the Digital Edition of Xcell China 28 Xcell China 28 Avnet Ad Table of Contents At the Heart of Consumer and Automotive Innovation Designing Digital Displays with Spartan-3 Generation FPGAs A High-Speed Broadcast Video Connectivity Solution Block Matching for Automotive Applications on Spartan-3A DSP Devices Taking Device DNA Technology to the Next Level Designing GPS Systems Using CoolRunner-II CPLDs Designing Portable Handsets Using CoolRunner-II CPLDs Scalable and Flexible In-Vehicle Networking A Compact Multimedia Display Development Platform for Automotive and Industrial Markets Supporting Multiple SD Devices with CPLDs Decrease Processor Power Consumption Using a CPLD Easing Design Challenges with CoolRunner-II CPLDs ISE Design Suite10.1 Xilinx Training Courses Apr - Jun Nu Horizons Ad Xilinx Ad Xcell China 28 Xcell China 28 - Xcell China 28 (Page 1) Xcell China 28 - Avnet Ad (Page 2) Xcell China 28 - Table of Contents (Page 3) Xcell China 28 - At the Heart of Consumer and Automotive Innovation (Page 4) Xcell China 28 - At the Heart of Consumer and Automotive Innovation (Page 5) Xcell China 28 - At the Heart of Consumer and Automotive Innovation (Page 6) Xcell China 28 - Designing Digital Displays with Spartan-3 Generation FPGAs (Page 7) Xcell China 28 - Designing Digital Displays with Spartan-3 Generation FPGAs (Page 8) Xcell China 28 - A High-Speed Broadcast Video Connectivity Solution (Page 9) Xcell China 28 - A High-Speed Broadcast Video Connectivity Solution (Page 10) Xcell China 28 - A High-Speed Broadcast Video Connectivity Solution (Page 11) Xcell China 28 - Block Matching for Automotive Applications on Spartan-3A DSP Devices (Page 12) Xcell China 28 - Block Matching for Automotive Applications on Spartan-3A DSP Devices (Page 13) Xcell China 28 - Block Matching for Automotive Applications on Spartan-3A DSP Devices (Page 14) Xcell China 28 - Taking Device DNA Technology to the Next Level (Page 15) Xcell China 28 - Taking Device DNA Technology to the Next Level (Page 16) Xcell China 28 - Taking Device DNA Technology to the Next Level (Page 17) Xcell China 28 - Designing GPS Systems Using CoolRunner-II CPLDs (Page 18) Xcell China 28 - Designing GPS Systems Using CoolRunner-II CPLDs (Page 19) Xcell China 28 - Designing Portable Handsets Using CoolRunner-II CPLDs (Page 20) Xcell China 28 - Designing Portable Handsets Using CoolRunner-II CPLDs (Page 21) Xcell China 28 - Scalable and Flexible In-Vehicle Networking (Page 22) Xcell China 28 - Scalable and Flexible In-Vehicle Networking (Page 23) Xcell China 28 - A Compact Multimedia Display Development Platform for Automotive and Industrial Markets (Page 24) Xcell China 28 - A Compact Multimedia Display Development Platform for Automotive and Industrial Markets (Page 25) Xcell China 28 - A Compact Multimedia Display Development Platform for Automotive and Industrial Markets (Page 26) Xcell China 28 - A Compact Multimedia Display Development Platform for Automotive and Industrial Markets (Page 27) Xcell China 28 - A Compact Multimedia Display Development Platform for Automotive and Industrial Markets (Page 28) Xcell China 28 - Supporting Multiple SD Devices with CPLDs (Page 29) Xcell China 28 - Supporting Multiple SD Devices with CPLDs (Page 30) Xcell China 28 - Supporting Multiple SD Devices with CPLDs (Page 31) Xcell China 28 - Decrease Processor Power Consumption Using a CPLD (Page 32) Xcell China 28 - Decrease Processor Power Consumption Using a CPLD (Page 33) Xcell China 28 - Decrease Processor Power Consumption Using a CPLD (Page 34) Xcell China 28 - Decrease Processor Power Consumption Using a CPLD (Page 35) Xcell China 28 - Decrease Processor Power Consumption Using a CPLD (Page 36) Xcell China 28 - Easing Design Challenges with CoolRunner-II CPLDs (Page 37) Xcell China 28 - Easing Design Challenges with CoolRunner-II CPLDs (Page 38) Xcell China 28 - Easing Design Challenges with CoolRunner-II CPLDs (Page 39) Xcell China 28 - Xilinx Training Courses Apr - Jun (Page 40) Xcell China 28 - Nu Horizons Ad (Page 41) Xcell China 28 - Xilinx Ad (Page 42)
For optimal viewing of this digital publication, please enable JavaScript and then refresh the page. If you would like to try to load the digital publication without using Flash Player detection, please click here.