TMS320C6678的FFT算法的多核DSP实现研究(2)

5 FFT算法在多核DSP上的并行实现 27

5。1 并行分解算法原理 27

5。2 基于C6678的FFT并行算法的具体实现 28

5。3 实验结果分析 32

结论 33

致谢 34

参考文献 35

1 引言

数字信号处理器（Digital Signal Processing，DSP）是能对信号进行实时处理的高速CPU。DSP内部的硬件乘法器、多核处理器和丰富的外设接口，保证了DSP对信号的处理速度比通用处理器要高很多。DSP的高速实时性使其在数字通信，医疗检测，图像处理，军事应用等方面应用广泛，然而随着技术发展，人们对DSP的处理速度及实时性要求越来越高，单核的DSP已不能满足其需求，多核DSP必然成为发展趋势。论文网

1。1 数字信号处理器发展

美国德州仪器（Texas Instruments，TI）公司是全球DSP领域的带头开发研究者。1982年，TI公司推出了第一块DSP芯片TMS32010，开创了DSP的应用历史，从1982年到20世纪90年代中期，TI先后推出了C10、C20、C30、C40、C50及C80等6代TMS320系列的DSP产品。TI公司近年推出的DSP系列产品可以大概分为C2000系列、C5000系列和C6000系列三大系列，这些产品在国际上都获得了广泛应用。C2000系列、C5000系列和C6000系列的DSP内核大都相同，不同的是各自的频率、片内RAM和ROM的大小和外设等。

C2000系列定位于工业控制，使一种注重实时控制应用的微控制器系列，应用范围包括数字电源、数字电机控制，位置传感，汽车雷达等。C2000器件核心是一个32位C28x CPU，其频率范围介于40-400MHz之间，外加浮点单元，部分期间还配有控制律加速器（CLA），实际上成为与CPU并行运行的第二个内核，能够独立地控制外设。目前在TMS320C2000系列产品中，TI主要推出了四个系列主流产品，即使用广泛的C28x定点系列，低成本与高创新的C28x Piccolo系列、C28x Delfino浮点性能系列以及基于C28x 和ARM Cortex-M3的Concerto多核系列。

C5000系列定位于通信类应用，在保证高性能的情况下尽量降低芯片的功耗。这是一种16位定点的DSP，运行速度在40到200MIPS，特别适用于手持通讯类产品。C5000系列中应用最广泛的是C54x系列和C55x系列。C54x有很好的操作灵活性和很高的运行速度，结构采用改进的哈佛结构，有专门的硬件CPU、片内存储器、外设接口及高效指令集。C55X 通过增加功能单元，优化了资源管理能力，性能大大提高且功耗降低。是目前最节能的芯片，特别适合在数据多、运算量大的2。5G 和3G的无线通信中使用，处理能力可达400～800MIPS。

TMS320C6000系列定位于高档次应用。C6000采用TI的专利技术VeloiTI和VeloiTI2及新的超长指令字（VLIW）结构、类似RISC的指令集以及流水技术，提高了时钟频率，并且充分利用结构上的并行性，使许多指令进行并行处理，大大提高工作效率，是目前性能最高的DSP之一。C6000主要分为C62x系列、C67x系列和C64x系列，C62x为32位定点DSP，速度为1200～2000MIPS,适用于无线基站、ADSL、MODEM池、网络系统及数字音频广播设备等场合。C67x是32为浮点DSP，速度高达1000MFLOPS，特别适用于运算量大、精度要求高、动态范围大的应用，如雷达、声纳、3D图像、无线基站及医学成像等。C64x为32位定点DSP，工作频率高达1000MHz，计算速度已经超过每秒50亿次指令，但是功耗仅为现有器件的1/3。 TMS320C6678的FFT算法的多核DSP实现研究(2):http://www.youerw.com/tongxin/lunwen_93706.html