曙海培训-DSP2000技术讨论-JPEG2000核心算法的研究及DSP实现[曙海教育集团论坛]项目外包开发咨询

以文本方式查看主题

-  曙海教育集团论坛  (http://sun4.cn/bbs/index.asp)
--  DSP2000技术讨论  (http://sun4.cn/bbs/list.asp?boardid=27)
----  JPEG2000核心算法的研究及DSP实现  (http://sun4.cn/bbs/dispbbs.asp?boardid=27&id=1558)

--  作者：wangxinxin
--  发布时间：2010-11-20 10:30:59
--  JPEG2000核心算法的研究及DSP实现
3.1 DSP硬件开发平台
　　本文使用评估板是北京闻亭公司的TDS642，板上的DSP芯片是TMX DM642，BGA548封装，内部工作时钟为600M，外部总线时钟为100M，计算能力高达4.8亿指令每秒。

　　该平台提供了丰富的外围接口。板上有两个复合视频（PAL/NTSC/SECAMS）输入和1个复合视频输出端口；立体声输入/出或单一麦克风输入端口；提供两个UART、以太网接口、子板接口、PC104接口和JTAG接口[6][7]。板上还提供了4M Bytes的Flash存储器，位于DM642的CE1地址空间，宽度为8bits，FPGA扩展了3根地址线，把Flash分成8页，Flash 的第0页的前半页存放用户的自启动程序，后半页存放FPGA程序，第1页尾用户存放数据空间，第2页至第8页用于存放用户程序。

　　3.2 核心算法的DSP实现

　　（1）算法总体框架。本文算法基于DM642EVM实现时主要分为两个大的模块（如图4），第一部分为DWT变换模块，它将输入图像数据变换为一系列的小波系数；第二部分为EBCOT算法模块，将量化后的的小波系数编码生成压缩码流。硬件开发平台结构框图如图5所示。

图4 算法框架图

图5 算法硬件开发平台结构框图

　　（2）内存分配。对于图像数据的处理，往往涉及到大量的复杂的数据寻址计算，对于复杂的寻址计算，其耗费CPU的计算量可能比实际数据操作的计算量还大。所以要加快CPU对数据的访问速度，不但要求存储器本身的速度快，而且还需要一个合理的数据结构来简化CPU对地址的计算。另外，DM642对数据的访问技术，如Cache、EDMA和宽bit数据直接读写等，都是基于存储地址的连续性。基于以上考虑，本文在内存分配及定位时，依据以下大的原则：第一，在满足精度要求的情况下，使用较短的数据类型；第二、大的数据块，如原始图像、重构图像存储在片外SDRAM；第三、关键数据、小的数据块，比如运算时的系数、系统堆栈、三个通道扫描都需要频繁的访问数据区和上下文标志区等，存放到片内存储器；第四、对L2级配置足够的Cache以便CPU对数据的快速读写；第五、对于具有运算相关性的数据，应在内存中按序连续排放。当涉及到片内外数据块的搬移操作时，可由DM642的EDMA单元去完成，它可与CPU并行工作，不占用CPU的计算周期[8]。

　　（3）图像数据的读写。由于本文工作主要完成针对图像的压缩功能，不涉及图像采集，所以在图像数据的输入输出上做了适当的处理。考虑到CCS的Simulator完全支持C/C++语言，因此原始图像数据的输入采用C语言中的头文件形式，小波变换模块，EBCOT算法模块采用存放在PC机的数据文件形式。本文主要采用头文件和二进制数据文件的形式，将图像的非文件头部分的所有数据通过“fprintf（fp，“%3d，”，image_in [i][j]）”语句写到.h文件中。

　　（4）DWT的实现。由于DM642为定点处理器，不适合于浮点运算，所以本文选择LeGall（5，3）整数滤波器完成JPEG2000中的小波变换。在进行小波变换时，首先定义两个与图像块大小相等的存储缓冲器，一个是图像片数据的输入缓存Buf，一个是用来临时存放图像片数据经小波变换后的结果缓存TempBuf。每经过一级小波变换，图像片数据都要先后两次经过integer（5，3）的低通和高通滤波。TempBuf中保存的高通滤波数据经integer（5，3）滤波器处理后，得到HL子带和HH子带的小波变换系数。最后将变换结果存放到输入缓存Buf中。若要进行下一级分解，只需对Buf中LL子带进行同样处理。

　　（5）EBCOT算法的实现。EBCOT算法是JPEG2000编码系统中耗时最大的一个部分，因此对这一部分进行优化实现对整个系统的性能提高很有意义。在PC机上，EBCOT编码中的每个通道都是被独立处理的。因此，在DM642上实现的时候，本文采用并行性技术来优化代码，加快程序的执行速度，比如在取位平面数据的时候可以和构造上下文模型并行处理，但是并不是简单的并行处理，当要形成通道二的上下文模型时，其邻域的数据在处理通道一的时候己经被改变。这样做可以增加DM642功能单元的利用率，充分发挥出它的并行计算能力。

　　3.3 实验结果

　　本文实验基于Windows XP操作系统、CPU Intel Pentium（R）4 2.4GHz、512M内存、CCS编译环境，程序通过USB仿真器下载到DM642EVM开发板上进行，采用LeGall（5，3）小波，处理图像为512×512的lena和barbara图像。经测试，压缩比为16：1时编码器编码相应耗时如表1所示。

　　实验给出了lena图像在8：1、16：1、32：1三种压缩比下的重构图像，并分别给出了与原始图像的峰值信噪比，如图6所示。

图6 barbara图像编码图

　　表1数据表明，编码器基于DSP的编码耗时相比基于PC的耗时有所增加，是因为代码在DM642EVM硬件平台上运行时需要持续的通过USB仿真器和PC机交换数据，从而增加了时间的开销。从图6中的PSNR值可知，lena图像在较高压缩比下的重构图像仍具有较高的图像质量。就主观评价来讲，压缩比为8：1和16：1的重构图像与原始图像差别细微，视觉效果好；压缩比为32：1的重构图像略有失真。实验结果表明，移植到DSP上的JPEG2000编码算法代码仍具有良好的压缩性能。

　　4 结束语

　　为了实现对图像的高效压缩，在这里使用了DWT变换和EBCOT算法，并给出两点改进方法。通过将改进的算法移植到DSP开发板上，可以看出图像在高压缩比的重构图像仍具有较高的图像质量，结果表明移植到DSP上的JPEG2000编码算法代码仍具有良好的压缩性能，在图像压缩处理中有较好的尝试应用。