立冬组会work(持续更新

会议总结

  • 珍惜每一次PPT汇报的机会
  • 积累专业名词的常用专业表达。比如 伪标签(Pseudo-Labelling)根据标签的数据给出近似的标签
  • 理解问题的背景和意图。比如每次安排任务都要想一下为什么这么安排,是让你干什么。
  • 下一个阶段:
    |看论文,着重看:他引率、哪个组提出来的、是他的即兴之作(不要看)还是持续产出的,之后有没有还在做这个,之后有没有明显的转变,是不是之后不好做下去了,还有没有空间可做
    |一般 论文的模型越复杂,它的破绽越多。比如参数,可以从固定参数到可变参数,再到自适应参数
    |先找两篇经典之作,梳理逻辑,然后看自己领域的review,建立逻辑思路,整理各个分支和方向,差异点在哪里,然后选一个baseline,精读研究,把它拆分成几段,分别看在哪些别的领域有没有应用,再看哪个能用会来,2-3个月消融实验。CVPR、ICCV、ECCV、NIPS(第一档),AAAI、IJCAI、ACM MM(第二档)

发现的一些问题:

1. SVM这么强大的损失函数为什么在深度学习没有一席之地?为什么不能运用于一般的神经网络的训练,为什么不用梯度下降法而是要引入SMO,能不能有别的算法不用smo也能实现损失函数最小化?

*引用自 博客 [https://blog.csdn.net/u011067360/article/details/26503719]

(1)SVM算法存在其本身的缺陷

a. SVM算法对大规模训练样本难以实施。由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。

b. 用SVM解决多分类问题存在困难。经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。

(2)因此引入了SMO算法。但它本身的过程非常繁琐

总体思路是把一个大的优化问题分解为很多小问题来处理。SMO则是把每一步的优化问题缩减到了最小:
在每一步中将新加入样本中违反KKT条件的样本与原有的支持向量一起组成小问题的样本集进行优化,优化完毕后只保留其中的支持向量,再加进来新的样本进入下一步。它可以看作是固定工作样本集法的一种特殊情况:把工作样本集的大小固定为2,并且每一步用两个新的Lagrange乘子替换原有的全部乘子
SMO的最大特色在于它可以采用解析的方法而完全避免了二次规划数值解法的复杂迭代过程。这不但大大节省了计算时间,而且不会牵涉到迭代法造成的误差积累(其它一些算法中这种误差积累带来了很大的麻烦)。理论上SMO的每一步最小优化都不会造成任何误差积累,而如果用双精度数计算,舍入误差几乎可以忽略,于是所有的误差只在于最后一遍检验时以多大的公差要求所有Lagrange乘子满足KKT条件。可以说SMO算法在速度和精度两方面都得到了保证。
SMO在内存的节省上也颇具特色。我们看到,由于SMO不涉及二次规划数值解法,就不必将核函数矩阵整个存在内存里,而数值解法每步迭代都要拿这个矩阵作运算。(4000个样本的核函数矩阵需要128M内存!)于是SMO使用的内存是与样本集大小成线性增长的,而不象以往的算法那样成平方增长 。在我们的程序中SMO算法最多占用十几兆内存。
SMO算法对线性支持向量机最为有效,对非线性 则不能发挥出全部优势,这是因为线性情况下每次最小优化后的重置工作都是很简单的运算,而非线性时有一步加权求和,占用了主要的时间。其他算法对线性和非线性区别不大,因为凡是涉及二次规划数值解的算法都把大量时间花在求数值解的运算中了。当大多数Lagrange乘子都在边界上时,SMO算法的效果会更好。 尽管SMO的计算时间仍比训练集大小增长快得多,但比起其它方法来还是增长得慢一个等级。因此SMO较适合大数量的样本。

2. 有关Agent(代理,在论文里有时候能见到,应该是一种博弈上的名词):
Agent就是能够⾏动的某种东西
▸通过传感器感知环境,通过⾏为影响环境
▸从感知到⾏为的映射称为“Agent函数”
▸理性Agent(rational agent)就是能够做出正确⾏为的Agent,能根据感知序列和先验知识,做出使其性能度量最⼤化的⾏动;
▸任务环境:PEAS,Performance,Environment,Actuator,Sensors;
▸Agent类型:简单反射型、世界模型的、基于目标的、基于效用(Utility)的、学习型

3. VAE 和AE的区别?自编码器在智能手环的人体活动识别的应用
自编码器(非线性比pca更好?
变分自编码器VAE可以用于视频中的人体活动识别和分类

4. 机器学习,深度学习的trick的帮助比提升模型的帮助更大(书?看什么时候用,怎么用

5.能不能有 lda为结尾的神经网络?如果不能,为什么
在文本识别、爬虫等方面有神经网络+LDA的论文实现

6. 图像处理中的频域技术能够用上?

8. 稀疏编码和lda的区别—正则化项

10. 异常检测的几种方法:重构;特征;朴素贝叶斯分类器和ica
为什么重构能识别异常样本?

11. 分类问题为什么用交叉熵不用pca、lda等?

15. 光流和Lstm

16. minibatch 为什么要用,怎么选小批量样本

17. PUL

18. 聚类

有一篇写的很好但很长的图文并茂的聚类算法汇总 博客
https://www.zhihu.com/question/34554321

19. map和cmc指标?
https://zhuanlan.zhihu.com/p/48095726

20. transformer?

问WH、WXY论文
问DZW解码器


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部