針對可攜式多媒體及植入性神經義肢應用之低功率數位系統架構設計

Tung-Chien Chen; 陳東杰

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/23077

標題:	針對可攜式多媒體及植入性神經義肢應用之低功率數位系統架構設計 Low Power Digital System and Architecture Design for Portable Multimedia and Implantable Neuroprosthetic Applications
作者:	Tung-Chien Chen 陳東杰
指導教授:	陳良基(Liang-Gee Chen)
關鍵字:	超大型積體電路設計,低功率,影像壓縮,移動估計,神經輔具,神經分類,癲癇爆發預測, VLSI design,Low power,H.264,Video encoder,Motion Estimation,Neuroprosthetic,Spike Sorting,Epilepsy Seizure Prediction,
出版年 :	2009
學位:	博士
摘要:	在本篇論文的第一部分，針對現在最新的H.264影像壓縮標準，我實現了低功率且具功率感知之即時影像壓縮晶片。多媒體服務為現今的手持裝置的必備功能。由於多媒體的資料量相當的龐大，壓縮的技術就是提供這些多媒體服務的關鍵技術。然而影像壓縮標準其演算法運算量相當的龐大，用客製化的訊號處理晶片去執行運算加速以符合即時處理的應用需求是必須的。然而在手持裝置中，電池是有限的。如何利用有限的資源去滿足使用者對多媒體服務品質的需求，發展以功率為導向的晶片為現今的重要硬體設計趨勢。功率為導向的影像壓縮晶片包含兩個項目。首先晶片必須在提供相同壓縮品質下，消耗更少的能量，以延長電池的使用時間。這一類的技術稱之為低功耗的設計法。另一方面根據電池的電量、不同的手持元件、以及使用者的使用偏好，在晶片上去執行功率大小對壓縮品質的動態調整。這一類的技術稱之為具功率感知及功率可調性之設計法。根據H.264影像壓縮演算法的運算指令解析，移動估計消耗了超過95%以上的運算量。因此在H.264影像壓縮單晶片中，移動估計運算單元是對於壓縮品質及功率消耗最為關鍵的模組。要實現一個低功率的H.264編碼器，首要的條件就是要實現一個低功率的移動估計器。移動估計器的功率消耗主要有兩個來源。一個是將相素從記憶體中讀出所用的資料存取功耗。另一個是計算相似性成本所花費的運算功耗。在低功率整數體移動估計器上，傳統上有兩種實作技巧。由於在搜尋視窗中相鄰兩個候選區塊會有大部分的資料是重疊的，因此將這些資料從記憶體中讀取出來後，可以被之後的運算排程所再利用，藉以節省資料存取的功耗。這一類技巧通常用於運算較為規則的全域式徹底搜尋演算法。第二種方法稱為快速演算法。相較於全域式徹底搜尋法，快速演算法可以在避免壓縮品質下降的前提下，節省95%以上的運算量。一個最佳化的低功耗移動估計器，應該要能有效率的支援上述兩種減少功率消耗的技巧，也就是藉由快速演算法以減少運算量的同時，也使用資料再利用技巧以減少資料存取的功率消耗。針對整數點移動估計器，在演算法層級上我提出了可支援不同區塊大小之平行不同區塊大小矩形搜尋演算法，並在架構上設計了一個能支援兩個緯度隨機存取的記憶體資料規劃方法，以及相對應的可重組運算模組。這個硬體在支援快速演算法中不規律的搜尋方向下，仍能提供最大的資料再利用。相較於以往的快速演算法硬體節省了78%的記憶體讀取功耗。在小數點移動估計中，相較於要做兩次像素內差的傳統兩段式快速演算法，我提出了一段式快速演算法以及相對應之平行硬體。這個技術能節省50%的內差運算以及資料的讀取而達到省電的效果。針對H.264多參考畫面移動估計工具，相較於以往的多參考畫面單現在區塊的運算排程，我提出了單參考畫面多現在區塊的運算排程。在這個排程下，從晶片外部讀取進來的搜尋區域能被不同時間點的現在區塊所重複利用，可以減少63%對晶片外部記憶體的讀取功率。在功率感知方面，要達到最佳化的功率可調性，我們提出了具內容感知的演算法。利用參考較早已壓縮的畫面、周圍已壓縮的區塊、以及壓縮中間的暫時結果，去對現在壓縮中的現在區塊進行內容的分析。當必須減少運算複雜度，以因應減少功率消耗的需求時，演算法可以根據分析結果優先停用貢獻較少的壓縮工具，已達到功率消耗及壓縮品質拉鋸下的最佳化。在硬體層面，我以提出的低功率移動估計模組為基底，在系統上增加參數化的彈性及可重組硬體的設計，以支援具功率感知的演算法。同時在電路層級也實作了時脈限制閘裝置，當壓縮工具模組因被功率感知演算法關掉的情況下，可以進一步將其時脈也同時關掉，藉由減少靜態功率消耗來進一步的省電。最後我們在.18毫米製程下將整個低功率且具功率感知之H.264影像壓縮晶片進行實作，相較於之前H.264影像壓縮晶片，可以在不損失壓縮品質下節省80%的功耗。此外也可以依據不同的需要去調整10到40微瓦的功率，根據影像內容有效率的換取平均2dB的壓縮品質。在本篇論文的第二部分，針對植入性神經輔具的應用，我提出了整合多個異質性運算處理器在一個平台式系統級晶片上，未來可望用於治療癱瘓或是癲癇等神經功能障礙之病患。隨著科技的進步及時代的演進，在利用半導體技術來提供人類物質享受的消費性產品之後，將這類科技應用在生物醫療產業上以解決人類健康問題已成為未來的新趨勢。植入性神經輔具主要用於治療因意外或疾病產生之神經失調或神經功能障礙。比如說即將納入健保用來治療帕金森症的深腦刺激器、目前市場快速成長給失聰病患使用的植入式耳蝸、以及進入人體試驗階段讓盲人復明的人工視網膜。我所針對的是擷取腦訊號並加以處理之神經輔具應用，主要治療目標病症為癲癇及脊椎受傷癱瘓的病人。在這一類的研究領域，早先的硬體設計重心放在結合前端的微電極、用來放大濾波及數位化微弱腦訊號的類比前端介面電路。然而為了更進一步實現神經輔具應用，智慧型數位處理元件及整合性系統電路是必須的。對於可植入系統，面積微小化及低功率消耗是兩個很重要的硬體參數。在腦訊號處理方面，如果單獨使用一般目的處理器，會因為針對性不夠使面積及能量消耗沒有效率，同時也可能不符合及時處理的應用需求。使用應用特定之特製化平行處理單元，會喪失許多演算法開發的彈性，而這些彈性對於生醫應用來說是很重要的。在分析腦訊號處理的演算法後，我發現對於原始連續訊號的前置處理，如數位濾波、雜訊分析移除、空間時域及頻域的轉換及訊號特徵擷取是資料量最大且運算複雜度較高的部分。這些前置處理一般來講演算法比較固定，運算程序比較規則。因此我們將這一類的演算法以應用特定之特製化平行處理單元去做運算加速，以提升硬體在面積和能量消耗的效率。當訊號的特徵被擷取出來後，下一步就是做腦訊號的模型重建及解碼。相較於原始訊號，被擷取出來的訊號特徵其資料量大幅減少，運算量也應此大幅下降。同時腦訊號模型重建及解碼演算法會根據應用及環境的不同而有所差別，運算流程也較為複雜，因此這一類的演算法我們用一般目的處理器來實現。最後我們將一般目的處理器及應用特定之特製化平行處理單元，在平台式系統架構上進行整合，同時也加入了多通道可程式化的電流刺激類比電路，成為一個可將輸入之神經訊號翻譯為輸出之刺激電流的閉鎖式神經輔具系統晶片。在這個神經輔具系統級晶片中，最為關鍵的就是應用特定之特製化平行處理單元的設計。在本篇論文中，我針對兩種不同的腦訊號及應用設計了其相對應的特製化處理單元。第一個是針對ECoG訊號用於癲癇控制系統的癲癇發作預測單元。癲癇發作為人腦不正常的同步放電，世界上約有1%的人口患有癲癇。傳統用藥物控制或腦切除療法有其後遺症及不適用人口。現在發展中的新療法為即時的癲癇預測並且用電流刺激中斷腦共振的不正常放電。要即早預測出癲癇的發生，非線性分析用來計算腦的亂度一般比線性分析有更好的效果。但非線性分析在硬體上需要較多的記憶體需求及運算複雜度。為了符合植入式硬體小面積低功率的需求，我先對非線性亂度分析演算法中的積成相關係數演算法進行硬體導向之簡化。使它簡化後在不影響偵測的正確率下，能夠有效率的在積體電路上實現。最後也將系統需要的FIR濾波器及KNN分類器進行實作，並整合前端的類比放大數位化電路，達到腦訊號輸入，偵測結果輸出之智慧型腦感應元件。90奈米製程的實做結果顯示，平均一個通道的癲癇預測只需消耗掉25微瓦的功耗及1平方毫米的面積。第二個應用特定之客製化平行處理單元，是用來分析腦皮層侵入式電極所擷取之神經元訊號，應用於脊椎受傷癱瘓的病人。脊椎受傷癱瘓後，人腦還是可以正常運作，因此這種系統就像是一個智慧型腦感應器，能擷取分析腦訊號，將其轉譯成其背後的含意，用來控制體外的制動器如機器手臂或電腦，使癱瘓的病人能夠重獲自主能力。要對腦訊號進行翻譯，第一步就是要將腦皮層中的神經元訊號進行資料抽取的運算，這種運算叫做神經元脈衝偵測與分類。為了支援128通道平行的神經元脈衝偵測與分類，傳統採用全平行化架構，將單一通道神經元分類處理器複製128套，用以支援128通道的及時運算。這種全平行化架構對於面積消耗太大，不符合應用的需求，因此我們提出了用心跳陣列對於不同通道的腦訊號進行儲存與排序，將不同通道的處理折疊在同一個運算單元，以硬體的分享概念來達到面積的最佳化。這種面積的最佳化也會讓硬體的漏電流下降。然而在折疊式硬體架構，會在心跳陣列中產生出額外的功率消耗，因此動態功率的會大幅上升。因此我們進一步的做平行化折疊式架構的分析，最後在功率及面積都考量的狀況下，可以節省92%的硬體，符合植入性硬體的小面積功耗的需求。 Because video services become popular on portable devices, power becomes the primary design issue for video coders nowadays. H.264/AVC is an emerging video coding standard which can provide outstanding coding performance, 25-45% bit-rate savings over MPEG4, and thus suitable for portable multimedia applications. Low power consumption is the first-class design issue for portable devices in which the power is limited. In addition, power scalability is also important because it enables such devices to tradeoff compression performance with power consumption according to power levels and application requirements. In the first part of this thesis, efficient techniques that enable a low power and power scalable H.264 encoder are presented. First, motion estimation (ME) normally consumes about 85% of the encoder power. To reduce power consumption, new data reuse (DR) schemes are implemented in the parallel architectures for fast ME algorithms. Second, low power techniques have to be integrated across different design levels. This is not easy because fast ME algorithms are difficult to realize on parallel architectures due to their irregular and sequential natures. Furthermore, gated-clock techniques at the circuit level cannot be effectively supported without system-level considerations. Finally, to enable power scalability on an ASIC encoder, flexibility must be explored on the system and module architectures along with a computationally scalable algorithm. To overcome these problems, hardware-oriented algorithms are proposed to consider the data reuse issue of ME at the algorithm-level. Then, content-aware strategies are utilized to reduce computation and maintain coding performance. Suitable parallel architectures are presented to achieve good data reuse capability for data access power reduction. The proposed flexible system architecture improves hardware efficiency in terms of area with MB pipeline retiming and power with fine-grained clock gating. Finally a 2.8 to 67.2mW H.264 encoder is implemented on a 12.8 $mm^2$ die with 0.18 $um$ CMOS technology. The proposed parallel architectures along with fast algorithms and data reuse schemes enable 77.9% power savings. The power scalability is provided through a flexible system hierarchy that supports content-aware algorithms and module-wise gated clock. Successful proof-of-concept laboratory experiments on cortically controlled motor prostheses, brain pacemakers and hippocampal prostheses motivate continued development for neural prosthetic systems. Advances in implantable electrode arrays and miniaturized multi-channel recording ICs make feasible of long-duration, wireless and closed-loop experiments on freely moving subjects. To further realize clinically viable neural prostheses, the bulk associated with the external systems has to be eliminated. Thus a miniaturized processing and controlling system interfacing the recording ICs and the actuators in real time is required. Several design issues are critical. Low power and miniaturized area are two primary requirements for implantable devices. A significant computational capability is needed to handle multi-channel neural data in real time. The programmability is essential because of the variability of testing subjects and application requirements. The interfaces to provide real-time actuation feedback should be integrated. A systematic hardware-software hierarchy is essential to facilitate the integration and provide the control flexibility over the functional blocks. In the second part of the thesis, a biomedical MPSoC to real-time process and translate multi-channel neural signals into stimulation currents is proposed on a software-programmable and hardware-accelerated platform for implantable closed-loop neuroprosthses. The on-chip platform comprising heterogeneous multiple processors with the application-specific functionalities reflecting the need of neural prostheses is proposed. Dedicated processors (DPs) of spike sorting and seizure detection are designed to accelerate the computationally intensive processing tasks using customized parallel architectures and memory hierarchies for the cortically controlled prosthetics and epileptic brain pacemakers. General purpose processor (GPP) are embedded to provide the programmability and flexibility of the system. Programmable current stimulation interface is integrated to provide realtime application feedback. According to the implementation results, the 28.3 $mm^2$ chip in 0.35 um CMOS consumes 4.1, 3.5 and 2.9 mW power for three different neuroprosthetic applications. The chip with the lower power and area cost are also demonstrated with the synthesized results in 90 nm process.
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/23077
全文授權:	未授權
顯示於系所單位：	電子工程學研究所

文件中的檔案：

檔案	大小	格式
ntu-98-1.pdf 目前未授權公開取用	17.69 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。