《凸优化》(6.25)
学习周期:6.12
预期时长:8周,每周(5+8=13h)
学习时长:
6.12 30m 23:00-23:30 -preface+chap2
6.13 2h40m 08:50-09:30 16:00-17:00 22:30-23:30 -chap2
6.14 2h30m 16:00-17:30 22:30-23:30 -chap3
6.15 2h30m 08:50-09:40 19:30-21:00 -chap4
6.16 4h 10:30-12:00 20:30-22:30 -chap4
6.17 3h 09:20-12:20 -chap5
6.18 2h30m 09:50-12:30 -chap5
6.19 0
6.20 1h30m 08:50-09:30 20:30-21:00 -chap9
6.21 40m 08:50-09:30 -chap9
6.22 0
6.23 2h 10:30-11:30 19:00-20:00 -chap10
6.24 4h10:00-12:00 15:00-17:00 -chap10 附录
6.25 2h40m 09:00-09:40 18:30-20:30 -附录
学习前的问题:
1. 什么是凸问题、有没有凹问题?
2. 为什么凸优化那么重要?
3. 凸优化和机器学习的关系?求解损失函数?
4. 凸优化的常用解法有哪些?
学习内容:
- 句话心得:
- chap2 概念有点多0 0
- chap5.2是精髓:通过把原问题转化为Lagrange对偶问题,可以总是在凸问题上寻求最优,而Lagrange最优值永远小于等于原问题的最优(d*是原问题p*的下确界)。所以当原问题很难求解时,把原问题转化为Lagrange对偶问题求解
Chap1 引言
- 一旦将一个实际问题表述为凸优化问题,大体上意味着相应问题已经得到彻底解决。
- 用凸优化模型对一般性非线性优化模型进行局部逼近,始终是研究非线性规划问题的主要途径。
- 最小二乘以及线性规划问题都属于凸优化问题。
- 线性规划和二次规划对于以应用为目的的学生极为重要。
- 非线性规划的最优问题求解可能是局部最优的。
- “事实上,优化问题的分水岭不是线性和非线性,而是凸性和非凸性。”
Chap2 凸集
- 线性组合(凸、仿射、锥)的概念可以扩展到无穷级数和积分中(x的期望)
- 向量不等式/分量不等式,表示其中每一个向量取值都小
chap2.5 分离与支撑超平面
- 仿射函数:线性函数+常数,即 f(x)=Ax+b。
- 仿射函数的性质,凸集经过仿射函数映射后的象也是凸的。
- 超平面分离定理:用超平面或仿射函数将两个不想交的凸集分离开来。
- 超平面分离定理的逆定理,即分离超平面的存在表面C和D不想交是不成立的。任何两个凸集C和D,如果其中至少一个是开集(点集无孤立点,同时无边界点,边界是开的,类似于开区间,是(a,b),不是[a,b]或[a,b),因为a如果能取到,就不存在满足定义的邻域),那么当且仅当存在分离超平面时,它们不相交。
- 支撑超平面:集合C与超平面相切于点x0。离集合最近的分离超平面?
- 逆定理:如果一个集合是闭的,具有非空内部,并且其边界上每个点均存在支撑超平面,那么它就是凸的。
chap2.6 对偶锥与广义不等式
- 最小元的对偶性质
- 极小元的对偶性质
Chap3 凸函数
Chap3.1 凸函数
- 凸函数的充要条件
- 一阶条件:一阶Taylor近似实质上是原函数的一个全局下估计
- 二阶条件:Hessian矩阵是半正定矩阵,二阶徒弟大于等于0,表示函数图像在点x处具有正向的曲率。
- 凸函数举例:P65
- Jensen不等式及其拓展:如果函数f是凸函数,theta1+theta2=1,则f(theta1*x1 + theta2*x2) <= theta1*f(x1) + theta2*f(x2)
Chap3.2 保凸运算
- 非负加权求和
- 复合仿射映射
- 逐点最大(fx=max{f1x,f2x})和逐点上确界
- 复合:f(x)=h(g(x))
- 最小化
- 透视函数:g(x,t) = t * f(x/t)
Chap3.3 共轭函数
- 凸函数的共轭函数的共轭函数时原函数
Chap3.4 拟凸函数
- 如果某函数的定义域及所有下水平集都是凸集,则该函数是拟凸函数。
- PV现金流计算是拟凹函数
- 函数f是拟凸函数的充要条件是线段中任意一点的函数值不超过其端点函数值的最大值。
- 凸函数和拟凸函数的区别:有一段凹有一段凸
- https://blog.csdn.net/HappyRocking/article/details/41910399?locationNum=5&fps=1
- 凸函数在梯度为0的点是全局极小点,而拟凸函数不一定是。
- 保凸运算:
- 非负加权最大、复合、最小化、
Chap 3.5 对数-凸/凹函数
- 对所有x,f(x)>0,且logf是凹函数,则f是对数凹函数。
Chap 3.6 广义不等式的凸性
- 广义不等式的单调性
Chap 4 凸优化问题
Chap4.1 优化问题
- 优化变量、目标函数(费用函数)、不等式约束、等式约束
- 问题的标准表示:
- 框约束:转化为2n个不等式约束函数
- 极大化问题:目标函数取相反数,变极小化问题
- 等价问题:如果从一个问题的解,很容易得到另一个问题的解,反之亦然,则两个问题是等价的。
- 变量变换
- 目标函数和约束函数变换
- 松弛变量:通过引入松弛变量,可将每个不等式约束替换为一个等式和一个非负约束
- f(x)<=0 等价于 f(x)+s=0 and s>=0
- 消除等式约束:假设满足等式约束的解是存在的,代入新的优化问题中。
- 消除线性等式约束
- 引入等式约束
- 优化部分变量
Chap4.2 凸优化
- 基于标准形式问题有三个附加要求:等价于在一个凸集上极小化一个凸的目标函数
- 目标函数必须是凸的
- 不等式约束必须是凸的
- 等式约束函数必须是仿射的
- 凸优化的基本性质:任意局部最优解也是全局最优解(but拟凸优化问题不一定是)
- 拟凸优化:拟凸优化问题本质和凸优化问题不同,但拟凸优化问题可归结为求解一系列的凸优化问题。
- 通过二分法求解凸可行性问题的解
Chap4.3 线性规划
- 线性规划问题:目标函数、约束函数都是仿射的
- 标准形式:不等式都是分量的非负约束
Chap4.4 二次优化问题
Chap4.5 几何规划
- 自然形并不是凸的,但通过变量替换或目标函数、约束函数变化,可转化为凸优化问题。
- 单项式、正项式(多项式的和)
- 变换方法:对单项式、正项式取log,连乘变连加
- 如果正项式目标函数和所有约束函数都只含一项,即都是单项式,那么凸形式的几何规划将退化为(一般的)线性规划。因此,几何规划可看成线性规划的一个推广或扩展。
Chap4.6 广义不等式约束
- 通过将不等式约束函数扩展为向量并使用广义不等式,可以得到标准形式凸优化问题的推广
- 弯不等式符号表示扩展的不等式
- 添加下标表示相对于锥K的广义不等式 2.4.1
Chap4.7 向量优化
- pareto最优
Chap5 对偶
Chap5.1 Lagrange对偶函数
- 构造Lagrange对偶函数:L(x, lamda, v),对偶函数值(x的最小值):g(lamda,v)
- 对偶函数是一簇关于对偶向量的仿射函数的逐点下确界,所以即使原问题不是凸的,对偶函数也是凹函数。
- 对偶函数构成了原问题最优值的下界
- 用”软约束”代替”硬约束”,在软的表达式中,当约束有裕量时,我们会感到满意。
Chap5.2 Lagrange对偶问题
- 从Lagrange函数能够得到的最好下界是什么?
- maximize g(lamda,v), subject to lamda>=0
- Lagrange对偶问题是一个凸优化问题,这是因为极大化的目标函数是凹函数,约束集合是凸集。对偶问题的凸性和原问题是否是凸优化问题无关。
- 显式表达对偶约束
- 标准形式线性规划的对偶问题是只含有不等式约束的线性规划问题
- 弱对偶性
- d* <= p*
- 原问题很难求解时转化为Lagrange对偶问题求解,因为对偶问题一定是凸问题
- 强对偶性
- 不等式约束函数都是凸函数时(most)
- Slater条件:存在一点使所有不等式约束条件严格成立
- 若不等式约束中有一些是仿射函数,得到弱化版的Slater条件:存在一点使部分不等式约束严格成立
Chap5.3 几何解释
- Slater准则的强对偶性证明 5.3.2 为什么对偶性相同的地方是等号,而存在等号的条件不是等号?
Chap5.4 鞍点解释
- 极小极大不等式
- 价格或税解释
Chap5.5 最优性条件
- KKT条件:对目标函数和约束函数可微的任意凸优化问题,任意满足KKT条件的点分别是原、对偶最优解,对偶间隙为0。
Chap5.6 扰动及灵敏度分析
- 当强对偶性成立时,对原问题的约束进行扰动,对偶问题最优变量为原问题最优值得灵敏度分析提供了很多有用的信息。
- 灵敏度:求导
Chap5.7 变形
- 引入新的变量以及相应的等式约束
- 用原目标函数的增函数取代原目标函数
- 将显式约束隐式表达,例如将其并入目标函数的定义域内
Chap9 无约束优化
Chap9.1 无约束优化问题
- 下水平集的条件数:等于最大宽度和最小宽度的平方比值,说明C的条件数给出了各向异性或离心率的一种测度。如果C的条件数小(接近1),说明集合在所有方向上的宽度近似相同,即几乎是一个球体。如果C的条件数大,说明集合在某些方向上的宽度远比其他一些方向上的宽度大。
Chap9.3 梯度下降方法
- 梯度方法通常呈现近似线性收敛性质
- 收敛速度强烈依赖于Hessian矩阵,或者下水平集的条件数
Chap9.4 最速下降方法
- 梯度下降和最速下降区别:最速下降的移动步长需要每次计算,根据当前梯度方向进行调整。
http://sofasofa.io/tutorials/python_gradient_descent/
https://blog.csdn.net/Timingspace/article/details/50963564
总结
- 无约束优化问题的最优值求解方法是梯度下降法。
- 按搜索方法分类:精确直线搜索、 回溯直线搜索,常见的是精确直线搜索
- 按样本处理方法分类:批量下降(batch)、随机梯度下降(sgd)、分组批量下降(mini-batch)
- 最速梯度下降:在每一次迭代时计算规范化的最速下降方向,基于欧几里得范数(L2)的最速下降方法就是梯度下降法
- Newton方法:基于Hessian矩阵的最速下降方法就是Newton法
Chap10 等式约束优化
Chap11 内点法
Chap11.1 不等式约束的极小化问题
- 内点法等价于用Newton法求解一系列等式约束问题(把不等式约束转换为等式约束,lagrange变换)
附录
- 矩阵特征值分解:https://blog.csdn.net/qq_14959801/article/details/69803254
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
