白癜风治疗时间 https://disease.39.net/bjzkbdfyy/171015/5762961.html有许多工程师从未涉足统计学或数据科学领域。但为了构建数据科学或将数据科学家生成的代码重写为足够、易于维护的代码,工程方面产生了许多细微差别和误解。对于那些数据/ML工程师和新手数据科学家,我将尝试简单地解释一些基本方法,并在此基础上解释一些数据科学的基本概念。整个系列分为:定义您正在处理的变量类型始终是数据分析过程的第一步。稍后,这很容易确定哪种类型的分析最合适。数据以最一般的形式可分为定量和定性。量,顾名思义,是一种数据类型,其中数字具有数学价值,它们表示特征的数量、数量或测量。当我们进行定量测量时,数字意味着不需要别的信息帮助理解:1.5是1.5,5是5,是。离散刻度是定量刻度,但它不会占用所有空间。我们以家里的孩子数量为例——我们可能有1个孩子、3个孩子、5个孩子甚至10个,但我们不能有1.5个或3.75个孩子。也就是说,这些是一些点状离散值。连续刻度是占用所有空间的刻度,它可以是从-∞到+∞的任何内容,可以是分数级的。例如,我们可以以天、小时、秒、毫秒等为单位来测量时间。连续尺度在所有可能的值中确定。定性变量是反映对象的性质或质量的变量。这里的数字就像在数量情况下一样,而是意味着物体的某些品质或性质。换句话说,它们充当某些类别的标记。例如,假设我们将生活在一个州的人与生活在另一个州的人进行比较。我们可以用1、1、2、2、2来编码来自加利福尼亚的人,除了他们表示这些类别外,什么都没有意义,这是我们分析的核心。定性变量分为标称和序号类型。让我们更仔细地看看每种类型的含义。让我们从名义变量开始,这是最基本、最简单的尺度。它包含的唯一信息是关于属于特定类或组的对象的信息。这意味着这些变量只能通过属于一些明显不同的类来衡量,您将无法确定这些类的顺序。例如,我们可以研究来自不同状态的人,或者眼睛颜色不同的人——蓝色的眼睛、绿色的眼睛、棕色的眼睛。这些都是名义变量——无论你的眼睛是什么颜色——这些值没有顺序。序数变量与标称变量略有不同,因为顺序出现。所以,值不仅将对象划分为类或组,而且以某种方式对其进行排序。例如,我们在学校有成绩——A、B、C、D、F。在这种情况下,我们可以肯定地说,拥有A的人很可能比接受F的人更愿意为考试做好准备。在这种情况下,我们不能说到什么程度,但我们可以肯定地说A比D好。好了,本文到此结束。如果对编程、计算机、程序员方面感兴趣的话,欢迎私信联系我,随时交流!点个