最新文章:

首页 机器学习

基本术语

发布时间:2017年05月04日 评论数:抢沙发 阅读数:195

    机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,他就能基于这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断

    (个人觉得就是将机器模拟我们人类对事物的认知过程,先根据已知事物的自身属性和要判别的结果,在大脑中行成一种思维定式,在遇到相似或是对立情况下,我们能较正确的判别出其结果,比如对瓜果的成熟度,对事物的好坏判别,但就像人类的认知不同一样,机器的学习算法也不各相同,产生出对事物判别的模型也就不同,而我们要研究的就是,如何让设计的学习算法所产生的模型对于事物的判断是最接近于事物自身真实情况的算法。)

    先来总结下一些有用的术语数学知识,方便后面学习:

    书:

       模型(model):泛指从数据中学得的结果

       数据集(data set):对判别事物特征属性所记录得集合(书中以西瓜为例: (色泽=浅白;根蒂=硬挺;敲声=清脆)这就是一条记录,多组这样得记录组成的集合称为数据集)

       示例(instance):数据集中的一条记录

       属性(attribute):事物本身的一些性质如西瓜的色泽,敲声

       属性空间(attribute space):也称“样本空间”、“输入空间”,即属性所张成的空间,如上列的西瓜拥有上个属性,可以描绘成一个三维空间,每一种西瓜都能在这个空间上找到一个对应的点。

       学习(learning)/训练(training):从数据中学得模型的过程

       训练数据(training data):训练过程中所使用的数据

       训练样本(training sample):训练过程中所使用的样本

       训练集(taining set):训练样本所组成的集合

       假设(hypothesis):学习模型对应了关于数据的某种潜在的规则

       真相(group-true):真正存在的潜在规律

       学习器(learner):模型的另一种叫法 


        预测(prediction):判断一个东西的属性

        标记(label):关于示例的结果信息,比如我是一个“好人”。

        样例(example):拥有标记的示例

        标记空间/输出空间(label space):所有标记的集合

        分类(classification):预测时离散值,比如把人分为好人和坏人之类的学习任务

        回归(regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的

        二分类(binary classification):只涉及两个类别的分类任务

        正类(positive class):二分类里的一个

        反类(negative class):二分类里的另外一个

        多分类(multi-class classification):涉及多个类别的分类

        测试(testing):学习到模型之后对样本进行预测的过程

        测试样本(testing sample):被预测的样本

        聚类(clustering):把训练集中的对象分为若干组

        簇(cluster):每一个组叫簇

        监督学习(supervised learning):典范--分类和回归,又称有导师学习,带标记信息,直接行成了簇分类

        无监督学习(unsupervised learning):典范--聚类,又称无导师学习,不带标记信息,进行聚类

        泛化(generalization)能力:学得的模型适用于新样本的能力

        分布(distribution):样本空间的全体样本服从的一种规律

        独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。


    分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。

    聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。


     
    区别是,分类是事先定义好类别 ,类别数不变 。
    分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。
    聚类则没有事先预定的类别,类别数不确定。 
    聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。
    分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;
    聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。



二维码加载中...
本文作者:HDC      文章标题: 基本术语
本文地址:http://hdcin.cn/?post=164
版权声明:若无注明,本文皆为“小胖Blog's”原创,转载请保留文章出处。
挤眼 亲亲 咆哮 开心 想想 可怜 糗大了 委屈 哈哈 小声点 右哼哼 左哼哼 疑问 坏笑 赚钱啦 悲伤 耍酷 勾引 厉害 握手 耶 嘻嘻 害羞 鼓掌 馋嘴 抓狂 抱抱 围观 威武 给力
提交评论

清空信息
关闭评论