5 FFT算法在多核DSP上的并行实现 27
5。1 并行分解算法原理 27
5。2 基于C6678的FFT并行算法的具体实现 28
5。3 实验结果分析 32
结 论 33
致 谢 34
参 考 文 献 35
1 引言
数字信号处理器(Digital Signal Processing,DSP)是能对信号进行实时处理的高速CPU。DSP内部的硬件乘法器、多核处理器和丰富的外设接口,保证了DSP对信号的处理速度比通用处理器要高很多。DSP的高速实时性使其在数字通信,医疗检测,图像处理,军事应用等方面应用广泛,然而随着技术发展,人们对DSP的处理速度及实时性要求越来越高,单核的DSP已不能满足其需求,多核DSP必然成为发展趋势。论文网
1。1 数字信号处理器发展
美国德州仪器(Texas Instruments,TI)公司是全球DSP领域的带头开发研究者。1982年,TI公司推出了第一块DSP芯片TMS32010,开创了DSP的应用历史,从1982年到20世纪90年代中期,TI先后推出了C10、C20、C30、C40、C50及C80等6代TMS320系列的DSP产品。TI公司近年推出的DSP系列产品可以大概分为C2000系列、C5000系列和C6000系列三大系列,这些产品在国际上都获得了广泛应用。C2000系列、C5000系列和C6000系列的DSP内核大都相同,不同的是各自的频率、片内RAM和ROM的大小和外设等。
C2000系列定位于工业控制,使一种注重实时控制应用的微控制器系列,应用范围包括数字电源、数字电机控制,位置传感,汽车雷达等。C2000器件核心是一个32位C28x CPU,其频率范围介于40-400MHz之间,外加浮点单元,部分期间还配有控制律加速器(CLA),实际上成为与CPU并行运行的第二个内核,能够独立地控制外设。目前在TMS320C2000系列产品中,TI主要推出了四个系列主流产品,即使用广泛的C28x定点系列,低成本与高创新的C28x Piccolo系列、C28x Delfino浮点性能系列以及基于C28x 和ARM Cortex-M3的Concerto多核系列。
C5000系列定位于通信类应用,在保证高性能的情况下尽量降低芯片的功耗。这是一种16位定点的DSP,运行速度在40到200MIPS,特别适用于手持通讯类产品。C5000系列中应用最广泛的是C54x系列和C55x系列。C54x有很好的操作灵活性和很高的运行速度,结构采用改进的哈佛结构,有专门的硬件CPU、片内存储器、外设接口及高效指令集。C55X 通过增加功能单元,优化了资源管理能力,性能大大提高且功耗降低。是目前最节能的芯片,特别适合在数据多、运算量大的2。5G 和3G的无线通信中使用,处理能力可达400~800MIPS。
TMS320C6000系列定位于高档次应用。C6000采用TI的专利技术VeloiTI和VeloiTI2及新的超长指令字(VLIW)结构、类似RISC的指令集以及流水技术,提高了时钟频率,并且充分利用结构上的并行性,使许多指令进行并行处理,大大提高工作效率,是目前性能最高的DSP之一。C6000主要分为C62x系列、C67x系列和C64x系列,C62x为32位定点DSP,速度为1200~2000MIPS,适用于无线基站、ADSL、MODEM池、网络系统及数字音频广播设备等场合。C67x是32为浮点DSP,速度高达1000MFLOPS,特别适用于运算量大、精度要求高、动态范围大的应用,如雷达、声纳、3D图像、无线基站及医学成像等。C64x为32位定点DSP,工作频率高达1000MHz,计算速度已经超过每秒50亿次指令,但是功耗仅为现有器件的1/3。