距离上一次写公开发表的博客已经过去六年时间了,那时候还在准备读研的事情呢,现在已经在 Intel 工作两年了。
在读研期间把主力系统从黑苹果迁移到 Windows 后,又在工作之后切换到了 Linux,目前 Linux 应付日常生活大部分场景已经比较舒服了,而工作上则是完全基于 Linux。使用 Linux 是需要成为一种习惯,一种生活方式的,必须不断去学习这个系统从 kernel 到 user space 的东西,否则就会被它所抛弃。这是因为本质上 Linux 还是为开发者设计的。
...
介绍
本文是关于 Person Re-ID 的一个简要介绍, 主要参考了论文 [1].
行人重识别的是要解决在多摄像头 (一般来说是非重叠的) 场景下, 对摄像头中的行人进行查找/识别, 通常行人在一个摄像头出现而后消失, 一段时间后出现在另一个摄像头.
图 1 行人重识别的任务, 来自论文 Person Re-identification: Past, Present and Future
行人重识别一般包括行人检测 (person detectio...
最近在读 SYSU 郑伟诗老师关于 Person Re-Identification 论文, 这里是一些笔记. 读的几篇论文都是从 Metric Learning 的角度来处理重识别问题. 写得比较粗略, 有很多细节还不是特别清楚, 先挖个坑, 之后再来填.
Pipeline
这篇论文提出了一个称为 CRAFT 的 framework, 首先使用神经网络进行特征提取初级特征, 并进行 View-specific 的特征增强和特征空间映射. 特征提取部分主要是用到了 AlexNet 的浅层...
介绍
这是郑老师的另一片文章, 发表于 13 年. 论文中探索了一种新的 Person Re-id 的场景: gallery set 中有大量与跟踪目标无关的 imposters, 只需要对给定的 target probe set 中的对象进行识别, 同时希望将跟踪目标从 gallery set 中区分开来. 通常 target probe set 中的每一个人只对应一张图片, 这在一些极端条件下是完全可能的, 比如说视频帧率很低, 或者由于存在遮挡, 跟踪目标只在一帧中出现. 这种场景被...
概述
深度学习顶会 ICLR 2018 中的一篇高分论文 On the convergence of Adam and beyond 分析了 Adam 优化算法存在的问题并提出了一种改进, 本文结合该论文对深度学习的优化算法做了一个概要性的总结.
学习算法和学习率在深度学习模型的训练 (炼丹) 中扮演者举足轻重的角色, 有时候甚至可能因为没有选对学习算法而不能发挥模型的性能, 这时候满以为是模型的问题, 去改变模型, 可能仍然达不到很好的效果. 有时候很难复现论文中的模型性能, 也可能是...
这篇论文是郑伟诗老师 16 年发表的, 对多视角情景的度量学习进行了探索. 基本思路是通过对特征进行变换到一个共享空间 (Share Space), 来拉大类间距离, 缩小类内距离来提高模型性能.
本文假设同一个人在不同的视角下一定是存在某些相似的东西, 否则也不可能进行分类, 因此一定可以使用某种方法将原始特征映射到一个新的特征空间, 在新的特征空间中, 相同的人特征相似. 论文中使用的是线性变换, 同时也提出了核函数版本.
所谓的非对称是指相对于对称度量尺度而言的, 对称模型具有如...
Features
99.619% 测试集正确率
可视化网络激活层的 feature map
拍照识别数字
所使用的技术
深度学习技术
He Initializer, 即
\[\sigma = \sqrt{\frac{2}{f_{in}+f_{out}}}\]
\(f_{in}, f_{out}\)分别为输入, 输出神经元的个数.
Residual Block
Dropout
Adam Optimizer
Data Augmentation
...
OpenCV 简介
OpenCV 是一个开源的计算机视觉库, 实现了很多计算机视觉, 图像处理相关的算法, 如基本的图像操作, 物体检测, 光流等等, 在相关领域有着非常广泛的应用. OpenCV 提供了低层的图像运算功能, 也有高级的算法, 同时提供了 C++, Python, Java 接口.
当前使用 C++ 接口会更加方便一些, 因为 OpenCV 会实现自动管理内存. 主要体现在使用 Mat 数据结构等.
环境配置
OpenCV 在 Win 平台的配置还是很简单的, 因为有已...
CTC(Connectionist Temporal Classification)
在神经网络训练中用于训练序列化的数据, 比如说语音, 手写文字(虽然手写文字是一张图, 但不同的文字之间可以认为是按一定序列进行输入的, 因为要考虑前后的约束关系). 在数据量剧增的今天, 我们可以非常容易地获取大量语音数据, 但遗憾的是这些语音通常没有非常仔细的标注. 如何李用深度学习和大量数据的优势是语音识别领域的一个难题. CTC 的提出为使用深度神经网络进行语音识别奠定了基础.
介绍
在语音识别领域...
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
Motivation
每一层输入的分布改变(covariate shift) -> 学习速率不能太快, 参数初始化需要很小心
使用BN -> 改善以上问题, 同时可以减少对Dropout的依赖.
文中对internal covariate shift的定义是
the change in ...
大年初三, 祝大家新年快乐!
建立这个博客的目的是分享在学习过程中的心得, 认识一些志同道合的朋友. 为了建立这个博客还是花了不少时间呢, 希望能够用心维护. 虽然现在还很简陋, 但是以后会慢慢改进的!