Jun 的个人资料Jun Xu@MSRA.Beijing.Chin...照片日志列表 工具 帮助
8月22日

张钹院士报告: Two problems in pattern recognition

21号上午听了张钹院士的报告:Two problems in pattern recognition. 报告非常精彩, 张院士要讲的是模式识别中的representation和classification问题, 以图象分类为例, 我把笔记未经整理就抄了上来. 呵呵
 
Representation
首先,张院士用实验结果描述了一个现象:
  • 如果一幅图用像素进行描述, 这是最精细的表示, 但是在模式识别中几乎没有用处
  • 如果把图用直方图进行描述, 这是一种极为粗糙的表示, 形状信息完全丢失, 但是在模式识别中确能够得到比较好的结果

为什么?因为用像素进行描述虽然精细, 但是其鲁棒性很差, 导致了上述现象. 在模式是别中,表示能力越强的表示方法往往鲁棒性越差, 做一个鲁棒的表示比做一个精细的表示要困难的多.

表示可以有不同的粒度, 用三元组进行表示(X, F, f), 其中X是论域, F是结构信息, f指其特征, 在最精细的表示下, X是图像中的每一个点(好像是这样的); 在最粗糙的表示下, X成为了一个点[X], 此时结构信息全部丢失. (Structure knowledge data mining也是一个很大的问题. )

对于图而言,点和点的相互关系非常重要, 表示的时候, structure的信息不能丢失. 至今为止, 仍无好的办法对图像进行表示. 其原因在于用户的需求与机器表示之间存在语意鸿沟(semantic gap).

用户需求(conceptual-level, semantic) <==semantic gap== 机器表示(pixel-based)G_{k}={g_{k}(i, j)}, 1<=i, j<=n, k = 1,...,l

从信息处理来看, 传统的信息处理方法如Shannon的理论和Kolmogorov的理论都是处理source words和code words之间的关系, 目前还没有理论来自动处理semantic(concept)和source words之间的关系, 这一步都只能依靠人工处理.

code words(bits) <---E ----D---> source words(data) <------manually------>semantics (concept) <---users

Shannon的理论是一个关于信息结构处理的通信理论, 它不管处理的0-1的具体意义.

Kolmogorov的理论是算法的信息理论, 关于计算和算法复杂性的, 用图灵机对算法的复杂性进行描述 (最短描述长度).

content-based information processing还没有理论支持, 其映射是dynamic, non-deterministic, nonlinear

Feature space(data space)  <-----semantic gap----------> semantic space (conceptual)

人脑能够很好的处理上述的语意鸿沟, 因此可以求助于认知科学和脑科学的研究成果 (Walter J. Freeman), 目前上述领域的研究问题有:

1. How can meaning be defined in computational theory?

2. How can meaning be related to neural activity and knownledge in brains? 3. .......

认知科学和脑科学对我们的启发:

1. 图形在人脑中的表示不是把整个图像全部记录在脑中(全副图像对PR没有用处)

2. 现在所想的办法和人脑处理的方法差异不大, 我们所走的路基本正确.  

3. 由于人脑中不断有细胞死亡, 为了可靠, 采用了分布式存储. 一组神经元记忆一两件事情, 一组神经元也不止做一件事情

4. 人脑把色彩和纹理都记忆住了, 但是形状在人脑中是如何表示的还是不清楚.

5. 目前还不清楚 feature combining(information fusing)在人脑中如何进行.

总体来说: 大脑是用dynamic, non-deterministic, nonlinear进行处理, 但是计算机使用static, logic的方法来处理, 之间的差异非常大.

关于representation我记下来就这么多, 下面是classification的内容:

Classification

给定一个训练数据集合, 有两类数据, 分类界面可以有很多个(线性分类面, 曲面 ....), 在训练数据上都没有错误, 分类界面到底是哪一个? 如何回答这个问题.

从哲学的角度来看, 根据观测(observation) 能不能作出一个假设(hypothesis), 其真理性何在? 有两种观点 1. 从观测判断真理是不可能 2. 可以从观测判断真理. (关于真理的判断标准:-) (哲学回答这么做的依据是什么的问题).

从科学的角度来看, 这是一个不适定的问题, 需要回答A: 有无此规律, B: 规律是否唯一. (科学回答怎么做的问题)

(中间还引用了爱因斯坦在1953年有一个论断,“西方科学的发展是以两个伟大的成就为基础,那就是:希腊哲学家发明形式逻辑体系(在欧几里得几何学中),以及(在文艺复兴时期)发现通过系统的实验可能找出因果关系。在我看来,中国的贤哲没有走上这两步,那是用不着惊奇的。要是这些发现果然都作出了,那倒是令人惊奇的事。”)

K. Kopper(1902-1994)有一个著名的论断: 科学一定是可以证伪的. 实验只能证伪, 但不能证明哪个是正确的. 真理只能是相对的, 要看它被证伪的情况. 泛之四海皆准的理论是邪说. 例如牛顿定律是真理, 但也有不适应的场合.

对于如上的分类问题, 科学问题是 Learning from data: F(y, x) --> f(x, \alpha), \alpha \in \Gamma, 变成了数学模型, 有数学工具(概率)来解决.

Generator --------x---------> supervisor-------------------y---------> 

                          |_______> learning machine<__________|_____________>

convergence (large sample size): Bottom-up based algorithm

Generalization capacity预测的好坏是衡量标准

维度灾难: more categories, more features needed, more sparseness of the sample space ......

(这一部分漏记了很多东西, 关于ERM和SRM还有SVM等等)

总结:

  • Representation方面, 关注于多粒度(Mulit-granularity)表示 (人的学习是从不同的层次上进行的)
  • classification方面, Learning inspired by human cognition (目前的计算机太笨, 参考人的信息处理方法, 目前还不能给计算机鲁棒的形状信息描述)
  • Theoretical break through. (突破iid assumption的限制(如concept shift, unbalance sample, active learning等, 都不符合iid的标准)), 在历史上有两次break through, 一次是大数定理的出现, 描述一致收敛. 第二次是Vapnik的定理, 描述收敛的速度, 指导在小样本的情况下如何进行学习.

提问:

只记下来两个问题:

P1: 如果有足够多的存储空间, 是否可以把人工智能的问题变成 如何存储和如何搜索的问题?

A1: 忘记具体怎么回答的了, 提到过人脑的记忆也分为三个部分: short term memory, long term memory, 和buffering, 其中buffering是最新发现的.

P2: 是否一定要参考人脑才能走向成功, 生活中有很多不是仿生的例子, 如汽车, 也取得了成功, 人工智能能不能另辟一条全新的道路.

A2: 人脑是自然界选择了几亿年的结果, 是一条已经成功的道路, 在研究过程中一定要借鉴人脑的方法, 它是一条已经成功的路. 汽车虽然没有借鉴人走路的方式,但是它的发明借鉴了别的东西. 还是需要有东西启发. 做科研不能苦想, 要借鉴, 有根有据, 不能凭空想像.

 

8月15日

工作一月整

从上个月14号报到算起, 今天刚好整一个月, 报到那几天懒了没有写blog, 今天算是补上.
 
14号上午:  早上在B1的会议室里开会,每个人一个袋子, 里面装着各种各样的资料文档. 按照指示, 填了N多表, 签了无数的字, 比较搞笑的一个空: "何年何月于何地参加革命工作", 我晕~~. 填完交表, 就算彻底把自己卖出去了. 遗留问题是户口还没有解决, 先不管这么多了.
 
中午: 老员工欢迎新员工, 形势照例是去彤城腐败, 老板请客. 在公司做vs的时间不短, 因此看到的都是熟悉的面孔, 饭桌上气氛非常的热烈. 在新员工自我介绍完毕的时候, 又发现了一个衡阳的老乡, 县一中毕业, 我们在同一个cubic, 一下子就想起三年前, 我第一次来微软实习的那天遇到云华, 今天历史又重演了.呵呵.
 
下午: 找到了自己的座位和机器(其实前两天就偷偷遛进来看过), 空间很大, 比较爽. 闲着没事照着员工手册熟悉一些工具, 上网闲逛直到吃晚饭. 晚上很早就回宿舍看电视, 在公司呆着也没事.
 
从第二天开始正式干活, 主要任务就是读代码, 那个多啊, 这辈子也没有见过这么多的code, 放眼望去漫无边际... 找到自己要读的那个模块就花了3天时间, 学会怎么debug又花了两天, 我晕~~~ 中间陆陆续续的还有不少training, 其中有一次连续三天的, 从早上9点到下午5点, 一天下来都要虚脱.
 
一个星期后收到一个好消息, 户口下来了, 只差户口迁移证和派遣证. 坏消息是学校放假, 办理派遣证的老师要到8月末才上班, 所以还是等.
 
期间为了去参加ECML的签证折腾了不少时间, 邀请函的原件要了3次, 还是收不到, 最后要传真过来, 就这样去签, 希望不要出问题.
 
到目前为止, 重复着以前实习时候的生活节奏, 忙碌有序. 中间买了一套厨房用品, 大伙儿利用周末自己动手腐败了一次, 感觉不错:-)
 
8月11日

Office 2007 Beta 2 试用

昨天心血来潮,在自己的机器上装了Office 2007 Beta 2(包括Outlook, Word, Excel, PowerPoint, 还有一堆不会用的东东), 到现在用了不到24小时, 也谈谈感觉.
  • 用户界面改变非常大,舍弃了传统的层次菜单而改用顶级菜单+工具栏,这个和新出的IE 7类似,看来流行了好多年的界面要改了.
  • 今天用的最多的就是Outlook, 基本上感觉和原来的2003差不多, 右边多出来了一个To-Do bar很好用(不知道原来的2003中有没有), 省得每次都去看Calenda. 能够识别Reply和Forward的Original Message了,但是除了加上一个Next, Previous,和Last的按钮之外,也没有做更多的事情.
  • 我最关注word, 首先公式编辑有很大的改进, 终于可以像输入文字一样的输入公式, 非常方便, 而且比起以前来漂亮很多, 这是word最大的改进. 还有就是word文件可以直接存成pdf格式, 再也不用先print成ps,再转pdf的麻烦过程, 爽!
  • 除了可以存成pdf外, 我对新版的PowerPoint没有太多感觉,可能是我会用的功能都太土... 遇到了一个问题, 在PowerPoint中怎么插入公式? 直接从Word中拷贝的方式不管用了,而菜单中又没有, 哪位大哥告诉我,不胜感激:-)
  • 对Excel彻底没有感觉, 平时除了拿它画画图算算数之外不知道还有啥功能, 留着以后慢慢发现吧

总体感觉:对word的公式和直接存pdf格式相当的喜欢,省了很多事情:-) 其他一般, 对界面的改变有点不适应, 原来菜单的时候总是找不到的想找的功能在哪儿, 现在更加找不到了, 看着一堆花花绿绿的图标发晕.  Beta版不够稳定, 用的过程中死了好多次,对此有心理准备,呵呵,我机器上还留着office 2003的版本备用. 不管怎么样, 期待发布.

8月7日

等待邀请函

9月份要去柏林开会, 等待签证. 会议方的邀请函寄出来三个星期了,但是还没有收到, 焦急等待中...
8月3日

RP啊,paper惨遭CIKM咔嚓

拒信应该是昨天下午或者晚上收到的,打羽毛球去了,没有查看邮件,三个reviewer的意见截然不同,我晕~~
这一年投出去的paper们都是命运坎坷,尤其是这篇,在手里攒了快两年,被各个会议都鄙视过,不知道下次该投向何方。不过还是相信那句名言:写出来的paper总有一天能发出去^_^

MSN Space换衣服

好久不来这儿,居然不认识了,落伍啦,小样,换了马甲我就不认识你了
前段时间听说MSN要改名,看来已经开始行动。不知道改了后有什么新功能,还得慢慢学