CV理论基础（二）：图像预处理

2023-10-10 03:17:58

计算机视觉理论基础（二）

图像显示与存储原理
- 颜色空间
- 图片存储原理
图像增强目标
图像处理
- 空间域处理
- - 点运算
  - 形态学处理
  - 空间域处理及其变换
- 频率域处理
- - 图像金字塔
  - - 高斯金字塔
    - 拉普拉斯金字塔
  - 傅里叶变换
  - - 傅里叶逆变换：
    - 离散傅里叶变换
    - 基于傅里叶变换的滤波
    - 短时傅里叶变换
  - 小波变换

图像显示与存储原理

颜色空间

颜色空间	适用范围	通道/要素	一个像素颜色值	取值范围
RGB颜色空间	加法混色，彩色显示器	3个通道： Red通道、Green通道、Blue通道	（b，g，r）	[0,255] [0.0,1.0]
CMY（K）颜色空间	减法混色，印刷	4个通道： Cyan通道、Magenta通道、Yellow通道、Key通道	（c，m，y，k）	[0,255] [0.0,1.0]
HSV颜色空间	人类视觉概念，画家配色	3个要素：H/Hue：色调颜色种类；S/Saturation：饱和度颜色的纯度；V/Value：明度，颜色明亮度	（h，s，v）	[0,255] [0.0,1.0]
CIE-XYZ颜色空间	国际照明协会，基于人类颜色视觉的直接测定，其他颜色的基础	人类视觉系统-视锥细胞：短波（S，420-440nm）；中波（M，530-540nm）；长波（L，560-580nm） 3色刺激通道XYZ大致对应于红色、绿色、蓝色	-	-
Lab颜色空间	用数字化的方法来描述人的视觉感应	L分量表示像素的亮度，取值范围是[0，100]，表示从纯黑到纯白；a表示从品红色到深绿色的范围，取值范围是[127,-128]，b表示从黄色到蓝色的范围，取值范围是[127,-128]	(L,a,b)	[0,100] [127,-128] [127,-128]

图片存储原理

主流颜色空间

RGB三通道彩色图
图片—>3维矩阵 $[0, 255]$
单通道灰度图
亮度信息 $[0, 255]$
$G r a y = R * 0.3 + G * 0.59 + B * 0.11$

RGB图片数据格式
常见的存储格式：bmp，jpg，png，tiff，gif，pcx，tga，exif，fpx，svg，psd，cdr，pcd，dxf，ufo，eps，ai，raw，WMF，webp等。

BMP：采用位映射存储格式，不采用其他任何压缩，所占用的空间很大。
JPG：最常见的有损压缩格式，能够将图像压缩到很小的空间，压缩比可达10：1到40：1之间。
GIF：基于LZW算法的连续色调的无损压缩格式，其压缩率一般在50%左右。
PNG：比较新的图像文件格式，能够提供长度比GIF小30%的无损压缩图像文件。

图像增强目标

改善图像视觉效果
转换为更适合人或机器分析处理的形式
突出人或机器分析有意义的信息
一致无用信息，提高图像的使用价值

具体包括：图像锐化、平滑、去噪、灰度调整（对比度增强）

图像处理

在这里插入图片描述

空间域处理

点运算

1.概念介绍

（1）点运算：基于直方图的对比度增强

（2）直方图（Histogram）：对图片数据/特征分布的一种统计，对数据空间（bin）的一种量化

（3）区间（bin）：具有一定统计或物理意义的数据或特征的代表，需要预定义或基于数据进行学习。

（4）数值：一种统计量，包括概率、频数

2.直方图均衡化

概念：指利用图像直方图对对比度进行调整的方法，实际上实对图像进行非线性拉伸，重新分配各个灰度单位中的像素点数量，使一定灰度范围像素点数量的值大致相等。

用处：增加图像局部对比度而不影响整体对比度，尤其在图像有用数据对比度相当接近的时候

作用：直方图均衡化后，亮度可以更好地在直方图上分布

经典算法：对整幅图像的像素使用相同的变换，如果图像包括亮度差别明显的位置，则经典算法作用有限

3.算法

（1）自适应直方图均衡（AHE）

通过对局部区域进行直方图均衡，解决经典算法作用有限的问题

步骤：移动模板在原始图片上按特定步长滑动；每次移动后，模板区域内做直方图均衡，映射后的结果赋值给模板区域内所有点；每个点会有多次赋值，最终的取值为这些赋值的均值。

缺点：会过度放大图像中相对均匀区域的噪音

（2）限制对比度直方图均衡（CLAHE）

用修剪后的直方图均衡图像，图像对比会更自然，示意图如下：
在这里插入图片描述

计算：小黑点的灰度直接由映射函数计算得到；粉色区域内点的灰度由映射函数计算而得；绿色区域内点的灰度由相邻2块灰度映射值线性插值而得；其他区域所有点的灰度由相邻4块的灰度映射值双线性插值而得。

算法步骤：

图像分块，以块为单位
先计算直方图，然后修剪直方图，最后均衡
遍历操作各个图像块，进行块间双线性插值
与原图做图层滤色混合操作

形态学处理

膨胀是图像中的高亮部分进行膨胀，类似于领域扩张
腐蚀是原图的高亮部分被腐蚀，类似于领域被蚕食

开运算：先腐蚀再膨胀，去掉目标外的孤立点
闭运算：先膨胀再腐蚀，可以去掉目标内的孔

当有噪声的图像用阈值二值化后，所得到的边界是很不平滑的，物体区域具有一些错判的孔洞，背景区域散布着一些小的噪声物体，连续的开和闭运算可以显著的改善这种情况。

空间域处理及其变换

1.概念：滤波/卷积是在每个图片位置（x,y）上进行基于邻域的函数计算、
在这里插入图片描述
参数解释：xy是像素在图片中的位置/坐标；kl是卷积核中的位置/坐标（中心点坐标是（0，0））；f[k，l]是卷积核中在（k，l）中的权重参数；I[x+k，y+1]是与f[k，l]像对应的图片像素值；h[x，y]是图片中（x，y）像素的滤波/卷积结果

2.用处：不同功能需要定义不同函数，功能包括：平滑/去噪、梯度/锐化、边缘、显著点、纹理、模式检测

3.具体操作：
具体操作：卷积核叠加到图片，同一位置依次计算最终得到结果，卷积结果绝大部分是缩小的。
在这里插入图片描述

4.边界填充（Padding）：获得同尺寸输出的情况下，卷积核越大，补充越多

补充类型：
$\times 7$ 卷积： $\times 3 \to 9\times 9$

补零（zero-padding）
边界复制（replication）
镜像（reflection）
块复制（wraparound）

5.平滑滤波/卷积：
（1）平滑均值滤波/卷积：
缺陷：没有很好地去除噪声点，也破坏了图像细节反而使图像变得模糊
奇数尺寸： $\times 3,5\times5,7\times7,2n-1 \times 2n-1$
参数和为1

（2）平滑中值滤波/卷积：
奇数尺寸： $\times 3,5\times5,7\times7,2n-1 \times 2n-1$
操作原理：卷积域内的像素值从小到大排序，取中间值作为卷积输出
优点：有效去除椒盐噪声

（3）平滑高斯滤波/卷积：
奇数尺寸： $\times 3,5\times5,7\times7,2n-1 \times 2n-1$
公式：
$\sigma =\frac{1}{2\pi \sigma^2}e^{-\frac{(x^2+y^2)}{2\sigma^2}}$
参数：x，y是卷积参数坐标；标准差 $\sigma$ 。 $\sigma$ 越小，关注区域越集中。
优点：有效去除高斯噪声，模拟人眼，关注中心区域
分解特性：2D卷积拆分成两个相同的1D卷积（行卷积、列卷积）

6.梯度滤波/卷积：

（1）Prewitt滤波/卷积：

在这里插入图片描述
（2）Sobel滤波/卷积：

（3）Laplacian滤波/卷积：

频率域处理

频域乘积=空域乘积可以使卷积更快

图像金字塔

图像金字塔：先进行图像平滑，在进行降采样，根据降采样率，得到一系列尺寸逐渐减小的图像
操作：n次（高斯卷积 $\to$ 2倍降采样） $\to$ n层金字塔
目的：捕捉不同尺寸的物体
在这里插入图片描述

高斯金字塔

高斯金字塔本质上为信号的多尺度表示法
直接降采样损失信息，所以需要高斯滤波进行操作，下图为图像缩放示例：
在这里插入图片描述

拉普拉斯金字塔

高频细节信息在卷积和下采样中丢失，保留所有层所丢失的高频信息，用于图像恢复
$L_i = G_i -UP(G_{i+1} \bigotimes g_{5 \times 5})$

拉普拉斯金字塔用来从金字塔低层图像重建上层未采样图像，在数字图像处理中也即是预测残差，可以对图像进行最大程度的还原，配合高斯金字塔一起使用。

两者的简要区别：高斯金字塔用来向下降采样图像，5而拉普拉斯金字塔则用来从金字塔底层图像中向上采样重建一个图像。

要从金字塔第i层生成第i+1层（我们表示第i+1层为G_i+1），我们先要用高斯核对G_1进行卷积，然后删除所有偶数行和偶数列。当然的是，新得到图像面积会变为源图像的四分之一。按上述过程对输入图像G_0执行操作就可产生出整个金字塔。

当图像向金字塔的上层移动时，尺寸和分辨率就降低。OpenCV中，从金字塔中上一级图像生成下一级图像的可以用PryDown。而通过PryUp将现有的图像在每个维度都放大两遍。
图像金字塔中的向上和向下采样分别通过OpenCV函数 pyrUp 和 pyrDown 实现。
概括起来就是：
●对图像向上采样：pyrUp函数
●对图像向下采样：pyrDown函数

傅里叶变换

已知：一个信号可以由足够多个不同频率和幅值的正余弦波组成。 $Asin(\omega x)+Bcos(\omega x)$

作用：信号分解

欧拉公式描述的是一个随着时间变化，在复平面上做圆周运动的点；傅里叶变换描述的是一系列这样的点的运动叠加的效应

关键问题：傅里叶变换假设前提为信号平移，但实际中信号多数为非平稳信号。缺乏时间和频率的定位功能；对于非平稳信号的局限性；在时间和频率分辨率上的局限性。

傅里叶逆变换：

$\frac{1}{2\pi}\int_ {-\infty}^\infty {F(\omega)e^{i\omega t}} \,{\rm d}{\omega}$
其中, $F(\omega)$ 固定好的常数，代表固定频率正弦波。 $e^{i\omega t}$ 代表弹簧，沿着时间轴展开
在这里插入图片描述

离散傅里叶变换

离散傅里叶变换：
$X(\omega)=\sum_{n=-\infty}^\infty x_ne^{-i\omega m}$
二维离散傅里叶变换：
$F(u,v)=\sum_{x=0}^{M-1}\sum_{y=0}^{N-1}f(x,y)e^{-j2\pi(\frac{ux}{M}+\frac{uy}{N})}$
在这里插入图片描述

基于傅里叶变换的滤波

低通滤波：

是一种过滤方式，规则为低频信号能正常通过，而超过设定临界值的高频信号则被阻隔、减弱。但是阻隔、减弱的幅度则会依据不同的频率以及不同的滤波程序（目的）而改变。它有的时候也被叫做高频去除过滤（high-cut filter）或者最高去除过滤（treble-cut filter)。低通过滤是高通过滤的对立。

在这里插入图片描述
相位滤波：

是移动相位与频率成比例的滤波器，因此不改变波形而引入一常数延迟。简单的说就是滤波器的相频响应对频率求导后，为一个常数。线性相位滤波器是一个混合相位的滤波器，它按照与频率成正比地对频率分量作时移。线性相位滤波器保证了通过该滤波器的各频率成分的延迟一致，从而保证信号不失真。

短时傅里叶变换

STFT（短时傅里叶变换）添加时域信息的方法是设置窗格，认为窗格内的信号是平稳的，对窗格内的信号分段进行傅里叶变换。

优点：可以获得频域信息的同时可以获得时域信息
缺点：窗格大小很难设置。对于时变的非稳态信号，高频适合小窗口，低频适合大窗口。

宽窄效果：窄窗口时间分辨率高，频率分辨率低；宽窗口时间分辨率低，频率分辨率高

小波变换

1.小波变换：与SITF思路接近，但小波变换直接把傅里叶变换的无限长三角函数基换成了有限长的会衰减的小波基。将原始信号表示为一组小波基的线性组合，通过忽略其中不重要的部分达到数据压缩（即降维）的目的。

优点：不仅能获取频率，还可以定位时间

公式：
$\int_ {-\infty}^\infty {f(t)e^{-i\omega t}} \,{\rm d}{t}\to WT(\alpha,\tau)=\frac{1}{\sqrt{a}} \int_ {-\infty}^\infty {f(t)\psi(\frac{t-\tau}{a})}$
$\psi(\frac{t-\tau}{a})$ 小波函数， $t-\tau$ 控制位移， $a$ 控制频率

2.小波函数（Wavelet）：满足均值为0；在时域和频域都局部化的条件。最简单是Haar小波。

常用小波函数包括：Haar系列、Daubechies系列、Moret系列、Sym系列、Meyer系列、Coif系列。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 麦克风阵列算法笔记之二（固定波束形成）
下一篇 > Matlab图像处理系列4———傅立叶变换和反变换的图像

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce