你了解DS中的数据类型吗 - 程序员 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2024/5/15 18:25:00

白癜风治疗时间 https://disease.39.net/bjzkbdfyy/171015/5762961.html
有许多工程师从未涉足统计学或数据科学领域。但为了构建数据科学或将数据科学家生成的代码重写为足够、易于维护的代码，工程方面产生了许多细微差别和误解。对于那些数据/ML工程师和新手数据科学家，我将尝试简单地解释一些基本方法，并在此基础上解释一些数据科学的基本概念。整个系列分为：定义您正在处理的变量类型始终是数据分析过程的第一步。稍后，这很容易确定哪种类型的分析最合适。数据以最一般的形式可分为定量和定性。量，顾名思义，是一种数据类型，其中数字具有数学价值，它们表示特征的数量、数量或测量。当我们进行定量测量时，数字意味着不需要别的信息帮助理解：1.5是1.5，5是5，是。离散刻度是定量刻度，但它不会占用所有空间。我们以家里的孩子数量为例——我们可能有1个孩子、3个孩子、5个孩子甚至10个，但我们不能有1.5个或3.75个孩子。也就是说，这些是一些点状离散值。连续刻度是占用所有空间的刻度，它可以是从-∞到+∞的任何内容，可以是分数级的。例如，我们可以以天、小时、秒、毫秒等为单位来测量时间。连续尺度在所有可能的值中确定。定性变量是反映对象的性质或质量的变量。这里的数字就像在数量情况下一样，而是意味着物体的某些品质或性质。换句话说，它们充当某些类别的标记。例如，假设我们将生活在一个州的人与生活在另一个州的人进行比较。我们可以用1、1、2、2、2来编码来自加利福尼亚的人，除了他们表示这些类别外，什么都没有意义，这是我们分析的核心。定性变量分为标称和序号类型。让我们更仔细地看看每种类型的含义。让我们从名义变量开始，这是最基本、最简单的尺度。它包含的唯一信息是关于属于特定类或组的对象的信息。这意味着这些变量只能通过属于一些明显不同的类来衡量，您将无法确定这些类的顺序。例如，我们可以研究来自不同状态的人，或者眼睛颜色不同的人——蓝色的眼睛、绿色的眼睛、棕色的眼睛。这些都是名义变量——无论你的眼睛是什么颜色——这些值没有顺序。序数变量与标称变量略有不同，因为顺序出现。所以，值不仅将对象划分为类或组，而且以某种方式对其进行排序。例如，我们在学校有成绩——A、B、C、D、F。在这种情况下，我们可以肯定地说，拥有A的人很可能比接受F的人更愿意为考试做好准备。在这种情况下，我们不能说到什么程度，但我们可以肯定地说A比D好。好了，本文到此结束。如果对编程、计算机、程序员方面感兴趣的话，欢迎私信联系我，随时交流！点个