机器学习是我们在学习人工智能技术的时候会接触到的一个技术应用方向,下面我们就通过案例分析来了解一下机器学习的概念以及应用方式。
一、概述
在数据分析中,我们经常讨论如何才能从数据中进行挖掘和分析出其中有价值的地方。一直是每一个学习机器学习和数据挖机的从业人员,不得不思考的问题。
数据是记录下来的图形符号数字。它是原始的素材,未被加工解释,没有回答特定的问题,没有任何意义;
信息是已经被处理、具有逻辑关系的数据,是对数据的解释,这种信息对其接收者具有意义;
知识是从信息中过滤、提炼及加工而得到的,我们能从其中抽象出一个本质的东西,原则的东西,规律的东西;
智慧是从知识的积累与创新中凝华而成的,体现了一定的人生哲理。
二、认识数据
数据是我们生活中无时无刻不在产生的,每时每刻我们发布的新闻,头条,链接,分享,语音等等,现今的时代已经是信息爆炸的时代,我们如何认识数据,如何定义数据,如何分析数据今天又好像特别陌生。所以我们需要一些方法、策略、技术去帮助我们理解数据以及数据的抽象。
定性和定量属性
在数据分析中,属性、维(Dimension)、特征(feature)和变量(Variable)可以互换使用,按照属性值功能的不同,可以把属性分位定性属性和定量属性。
(1)定性属性是指用文本描述对象的特征,定性属性主要分为三类:
标称属性:也叫做类别属性,用于对数据对象分类(Category),比如,头发的颜色、职业;
二元属性:只有两个类别的属性,两个属性之间有对称和不对称的,对称的属性比如性别,非对称的属性比如是否喝酒开车更不安全的权重不同。
序数属性:属性的顺序是有意义的,通常用于等级评定。序数属性也可以通过把数值属性分割成不同的区间来得到,比如,年龄段。
在序数属性中,有一类重要的属性,叫做时间属性,一些常见的分析方法,比如时序分析,周期性分析等都是基于时间属性的。
(2)定量属性是指用数值描述对象,可以比较大小,是可以量化的属性,定量属性主要分为两个标度:
区间标度:可度量的数值,用整数或实数表示,比如,年纪、薪水
比率标度:比例数值,比如,速度、留存率
定量属性通常含有量纲,例如,身高的量纲是cm,而薪水的量纲是元,同一量纲的数据可以比较大小,
不同量纲的数据,需要通过归一化去量纲之后,比较大小才有意义。定性数据通常是分析数据的一个角度,
增加维度,从不同的角度来看待问题,能够细分指标,增加分析的深度。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。