学分高考 web前端

什么是数据科学异常值检测原理？

发布时间: 2022-05-17 10:42:01

什么是数据科学异常值检测原理？异常值的检测方法有基于统计的方法，基于聚类的方法，以及一些专门检测异常值的方法等。使用pandas，可以直接使用describe()来观察数据的统计性描述，或者简单使用散点图也能很清晰的观察到异常值的存在。

什么是数据科学异常值检测
一、数据科学异常值检测前提

数据样本符合标准正态分布，正态分布的核心是中心极限定理即：如果一个事物受到多种因素的影响，不管每个因素本身是什么分布，它们加总后，结果的平均值就是正态分布。如果要符合正态分布则这些因素必须彼此独立，彼此不独立的各项因素会互相加强影响，那么就构不成正态分布。

二、数据科学异常值检测原理

标准正态分布下的曲线为钟型曲线，期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据，如果符合正态分布，则可以通过经验法则来检测异常值，同图中可以发现，68.2%的测量值落在μ值处正负一个标准差σ的区间内，95.4%的测量值将落在μ值处正负两个标准差σ的区间内，99.7%的值落在μ值处正负三个标准差σ的区间内。因此，对于一组符合正态分布的数据，如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据。

标准正态分布下的曲线为钟型曲线

三、计算步骤

μ值：μ是遵从正态分布的随机变量的均值，由于前提是各种因素对结果的影响为相加，因此μ值的计算可以为样本数据的算术平均值。

标准差σ：所有数据减去其平均值的平方和，所得结果除以该组数之个数N(数据集为总体数据情况，一般用于大数据算法)或者个数N减1(数据集为样本数据情况，认为数据集不是总体数据而是总体数据的一部分，一般用于统计学)，再把所得值开根号，所得之数就是这组数据的标准差。

标准差σ 判断逻辑：计算μ+3σ，μ-3σ，当单个数据大于μ+3σ或者小于μ-3σ时，认为此数据为异常值，因为按照经验法则，此数据在数据集的99.7%范围外。

首先理解数据科学异常值检测原理，掌握计算步骤，最终实现对数据科学异常值检测。

温馨提示：

本文【什么是数据科学异常值检测原理？】由作者教培参考提供。该文观点仅代表作者本人，学分高考系信息发布平台，仅提供信息存储空间服务，若存在侵权问题，请及时联系管理员或作者进行删除。

上一篇: 前端开发中绝对路径和相对路径的区别是什么？

下一篇: 什么是大数据即时分析？对金融服务的意义？

相关阅读

教培参考

教育培训行业知识型媒体

相关I T

长沙芙蓉区推荐的web前端线下

济南济阳区推荐的web前端线下培

青岛市南区推荐的web前端线下培

青岛李沧区推荐的web前端线下培

武汉新洲区推荐的web前端线下培

上海浦东新区推荐的web前端线下

广州从化区推荐的web前端线下培

深圳龙岗区推荐的web前端线下培

天津东丽区推荐的web前端线下培

天津宝坻区推荐的web前端线下培

教育资讯

1

县域普通高中振兴有哪些重点举措

2

教育部等六部门联合印发《县域普

3

广西2025年高考录取工作结束顺

4

西藏征集志愿第10号公告

5

黑龙江2025年高考录取工作结束

6

6月7日，2025年全国高考正式拉开

7

倒计时96天！2025年全国高考统考

8

2025年陕西省高考综合改革适应性

9

湖南2025年高考报名将于2024年10

10

2024年全国各省高考人数统计一览

互动交流

微信扫码关注公众号

获取更多考试热门资料

我们采用的作品包括内容和图片部分来源于网络用户投稿，我们不确定投稿用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的权利，请联系我站将及时删除。

内容侵权、违法和不良信息举报

Copyright @ 2024 学分高考 All Rights Reserved 版权所有. 湘ICP备17021685号