CSGrandeur's Thinking

Cogito Ergo Sum

用 git 多年,网上 git 使用的博客也层出不穷,然而让学生使用 git 的时候,却困难重重。

找资料不如写资料,写篇小白入门,希望能有些效果。

阅读全文 »

有监督学习方法可以分为生成方法判别方法,学习得到的模型对应称为生成模型与判别模型。

事物的状态是有概率的,设输入集合是 X , 可以输出的集合是 Y,那么 P(Y|X)表示已知X情况下标签是Y的概率模型,即给出任意xi, yj,都可求出p(yj|xi)P(Y,X)表示YX一起发生的概率模型,同理就是求出所有的p(yj, xi)

对于分类问题,就是输入X,输出标签Y,从概率角度说,就是已知X,找概率最大的Y,即条件概率分布P(Y|X)

  • 生成模型:生成数据的分布,也就是求联合分布 P(Y, X),再通过贝叶斯理论计算 P(Y|X)
  • 判别模型:判别输出结果的模型,直接训练条件分布P(Y|X)

生成模型的P(Y,X)可以计算出P(Y|X),反之则不行。联合分布具有更多的信息,所以会有更广的普适性。可以处理存在隐变量的情况,也是这篇博客接下来要讲的。

判别模型由于直接学习条件分布P(Y|X),所以允许对输入进行抽象,比如降维,从而简化学习问题,

于是就比较容易理解常见的判别方法有SVM、逻辑回归等; 常见的生成方法有朴素贝叶斯法、隐马尔可夫模型等。

参考

  1. 机器学习“判定模型”和“生成模型”有什么区别?

一般来说,监督学习可以看作最小化一个目标函数,即Loss Function加一个约束项: \[ w^{*} = \mathop{\arg\min}_{w}\sum_{i}L(y_{i}, f(x_{i}; w)) + \lambda\Omega(w) \]

约束项 \(\Omega(w)\) 通常是模型参数向量的范数的规则化项,比如稀疏表示基础知识中的零范数,用来约束字典权值的稀疏性。

L0范数

L0范数指向量中非0的元素个数, 知乎上一个解释很有让人增加对0范数的感性认知的效果
>几何意义不考虑,单从分析角度。总而言之都是P范数,零范数即是当p趋于零,可以证明这时候的极限 \((x_{1}^{p}+x_{2}^{p}+...+x_{n}^{p})^{\frac{1}{p}}\) 恰好是向量 \(x=(x_{1},x_{2},...,x_{n})^{T}\) 非零元素的个数。而无穷范数则是当p趋于无穷的时候的范数。关于这些极限的证明,数学分析的开篇就介绍了,我想这也是为什么当初学习数学分析的时候为什么老是有各种奇形怪状的极限要证明存在性的原因之一。但严格来说,零范数并不满足数乘率( \(|\alpha x|\neq |\alpha||x|\) )。之所以最近被多次提到,也是因为压缩感知的火热。
https://www.zhihu.com/question/20473040/answer/121760029

阅读全文 »

初学入门,将来有了更深的理解回来纠正错误。

MathJax需要加载,公式如未显示请稍候。

稀疏表示

稀疏性的理解

最初稀疏性产生于信号处理领域,自然界信号低频居多,高频主要是噪声,图像处理中的频率域滤波是个典型例子。

假设有一个干净没有噪声的图像,经过传输,收到的是一个受到干扰有了噪声的图像,而噪声主要是高频分量,对图片做二维傅里叶变换,对低频的波形保持,高频的一刀切,还原回来的图像就平滑了许多,大部分高频噪声就去除了。这个假设的场景就是个“信号恢复”的过程。如果把所有的频率的波都看作一个个相互正交的向量,恢复数据就是给这些向量找到一组系数,它们一乘、一合并,得到原始信号,频率从大到小是有无穷多个的,而由于自然界信号的“稀疏性”,对于图像而言,就是指有用的频率主要是低频,那么对应高频的系数基本都是0了,低频部分也不见得全是非0,这一系列系数0很多,非0很少,就很“稀疏”。

阅读全文 »

花了一个多星期给CSUACM做了个新网站。

acm.csu.edu.cn

本来只是想在学校OJ刷刷题,然而觉得各种丑,之前也一直因为代码不是自己的,想调整内容、增减功能总是不那么得心应手,这次也算心血来潮做个新的UI,做着做着就干脆把官网和报名网站也整合了。

这几天太累了也不想打太多字了,做篇日志留念。也许什么时候有空了再写个新的Judge端吧。

多年过去了,发现自己对中南ACM队伍还是深爱着。。。

阅读全文 »
0%