发布时间:2023-10-16 12:06
数据分析涉及各种清理、转换、分析和创建数据模型的流程,以生成具体、有意义的信息。这些都有助于做出重要的实时业务决策。探索性数据分析对所有企业都很重要。它允许数据分析师在得出结论之前对数据进行分析。它还能确保获得的结果是有效的,并适用于业务成果和目标。这篇关于探索性数据分析的文章提供了探索性数据分析(EDA)的关键步骤及类型。
探索性数据分析(EDA)是数据科学中机器学习和深度学习模型用于提取相关特征和趋势的技术之一。因此,EDA 已成为数据科学工作者的一个重要里程碑。本文讨论了 EDA 的概念、含义、工具和技术,以便为希望开始数据科学职业生涯的初学者提供完整的信息。文章还列举了经常有效使用 EDA 推动业务发展的行业。
数据科学领域在当今的商业世界中非常重要,因为它通过分析收集到的大量数据,为做出重要的商业决策提供了许多机会。要深入了解数据,就必须从各个角度对其进行研究。高效的操作能够做出有意义和有用的决策,因此,EDA 在数据科学中发挥着不可估量的作用。
探索性数据分析的总体目标是产生有意义的见解,因此通常包括以下子目标:
识别和消除异常值;
确定时间和空间趋势;
确定与目标相关的模式;
提出假设并通过实验进行检验;
确定新的信息源.
数据挖掘分析的作用基于对上述目标的利用。一旦制定了数据,所进行的分析将确定模式和趋势,这将有助于采取所需的适当行动,以实现预期的业务目标。由于我们希望每位经理都能在特定的角色中执行特定的任务,因此我们希望适当的 EA 能够为与特定业务决策相关的问题提供完整的答案。由于数据科学是关于建立预测模型的,因此模型必须考虑到最佳数据特征。这样,EDA 就能确保有正确的模型和趋势组件来训练模型,以实现正确的结果,如成功的配方。因此,在正确的数据上使用正确的工具执行正确的 EDA 将有助于实现预期目标。
EDA 的关键要素是进行 EDA 所涉及的主要步骤。它们是
1.数据收集
如今,在人类生活的各个领域,如健康、体育、工业、旅游等,都会以各种形式产生大量数据。所有企业都知道通过正确分析数据充分利用数据的重要性。然而,这取决于通过调查、社交媒体和客户反馈从不同来源收集必要的数据。如果不收集足够的相关数据,就无法采取进一步行动。
2.发现并了解所有变量
在开始分析过程时,首先要关注可提供大量信息的可用数据。这些数据包含不同特征或特质的变量值,有助于理解它们并获得有价值的见解。这需要首先确定影响结果的重要变量及其潜在影响。这一步对最终结果至关重要。 p
3.清理数据集
下一步是清理数据集,其中可能包含空值和无关信息。需要删除这些信息,以便数据只包含与目标相关且重要的值。这不仅能缩短时间,还能降低进行评估所需的计算能力。预处理涉及到所有方面,如归零、异常值检测、异常检测等。
4.确定相关变量
确定变量之间的相关性有助于找出某一变量与另一变量之间的关系。相关矩阵法可以清楚地显示不同变量之间的相关性,进而帮助理解变量之间的内在关系。
5.选择合适的统计方法
正如我们在以下章节中所看到的,根据数据的大小、是分类数据还是数值数据、变量的类型以及分析的目的,可以使用不同的统计工具。应用于数值结果的统计公式可以提供必要的信息,但图形表示法更具吸引力,也更易于解释。
6.结果的可视化和分析
分析结束后,需要仔细认真地查看结果,以便正确解读。数据的散点趋势和变量之间的相关性为适当修改数据参数提供了很好的启示。数据分析人员应具备必要的分析技能,并对所有分析技术有透彻的了解。获得的结果将与该特定领域的数据保持一致,并适用于零售、医疗保健和农业领域。
要掌握探索性数据分析,数据分析新手需要了解并实践上述欧空局数据科学步骤。了解有关数据科学训练营培训计划的更多信息。
在单变量分析中,结果是一个单一变量,所有收集到的数据都归于该变量。没有因果关系。例如,12 个月的数据显示了每个月生产的产品。在二元分析中,结果取决于两个变量,例如工人的年龄,并与两个变量(即工人的工资和每月支出)进行比较。
在多元分析中,结果取决于两个以上的变量,如产品类型和销售数量,并与产品价格、广告费用和折扣进行比较。数据分析的变量可以是数字变量,也可以是分类变量。分析结果可以以数值、可视化或图表的形式呈现。因此,还可进一步分为非图形和图形。
1. 一维非图形
这是实际使用的所有数据分析类型中最简单的一种。顾名思义,单变量是指只考虑一个变量,并收集和研究该变量(即所谓的总体)的数据。非图形单变量数据分析的主要目的是找出总体数据分布的细节,并了解一些特定的统计参数。从分布角度评估的重要参数如下:
中心倾向: 这个术语指的是位于数据中心位置或中间区域的值。通常估算三个中心倾向参数:平均值、中位数和模式。均值是数据中所有值的平均值,而模式是出现次数最多的值。中位数是其左右两边观测值相等的平均值。
范围:范围是数据中最大值和最小值之间的差值,表示数据在顶部和底部偏离平均值的程度。
方差和标准差: 另外两个有用的参数是标准差和方差。方差是一种离散度量,表示数据集中所有数据点的离散程度。它是最常用的离散度量,是每个数据点与平均值之间差值的平均平方,而标准差是标准差值的平方根。标准差的值越大,说明数据的离散程度越高,而标准差的值越小,说明有更多的值聚集在平均值附近。
2.一维图形
本节中的图表基于 UCI 数据库中的汽车 MPG 数据集。下面是一些常见的一维图表类型:
条形图和数字图:这是一种非常简单但功能强大的数据分析方法,用于以简洁的格式呈现定量数据。它表示数据集中的值,保持每个观测值的完整性,但将它们分开作为茎(起始数),其余或结束数作为叶。但如今条形图使用得更多。
条形图(柱形图): 这些图表用于显示分组和未分组的数据。x 轴显示变量的值,y 轴显示观察次数或频率。条形图非常简单,可以快速了解数据,告知数据值,如中心倾向、方差、异常值等。条形图是最简单的基本图表,它是一个柱形图,其中每个柱形代表不同值的频率,即数量或比例(观察数与观察总数之间的比率)。
条形图有很多种,下面介绍其中的一些:
简单条形图:用于表示分类变量,使用矩形条,不同长度的条与变量值相对应。
多条形图或分组条形图:分组条形图是呈现多组数据项进行比较的条形图,其中使用一种颜色表示数据集中的特定系列。
百分比条形图:这种条形图以百分比的形式显示每个观测点的数据。下图显示的是带有虚拟值的百分比条形图。
饼图:用于显示数据中定量值的分布。如果数据集由分类变量组成,饼图可以显示它们之间的比较。此外,如果数据中有异常值,也可以很容易地识别出来。这些图表在需要以百分比的形式进行比较时非常有用,例如,25%、50% 和 75%(四分位数)范围内的数值。
3.无图表的多元图表
不带图表的多变量数据探索性分析技术通常用于使用交叉表或统计数据显示两个或多个变量之间的关系。
对于分类数据,制表法的扩展称为交叉制表法,非常有用。对于两个变量,交叉制表的方法是制作一个双面表,列标题对应于一个变量的编号,行标题对应于两个相反变量的编号,然后填写所有具有相同水平对的受试者的计数。
对于每个分类变量和定量变量,我们可以针对变量的每个水平分别生成定量变量的统计信息。
4.多元图形
在多元图形中,图形用于显示两个或多个变量之间的关系。在这里,结果取决于两个以上的变量,而引起变化的变量也可能不止一个。
常见的多元图形有以下几种:
(A) 散点图
针对两个定量变量的基本 EDA 制图技术是散点图,其中一个变量在 x 轴上,另一个变量在 y 轴上,因此作为数据集中每个案例的点。这种方法可用于双变量分析。
B) 多元图表
多变量图是一种控制图,用于控制两个或多个相互关联的过程变量。这在过程控制等情况下非常有用,工程师可以从使用多变量图表中受益。这些图表允许在一张图表上同时检查多个参数。使用多变量图的一个重要优势是,它们有助于最大限度地减少业务流程控制图的总数。使用 Seaborn 库创建的配对图就是多变量图的一个很好的例子,因为它们有助于一次性直观显示整个数据集中所有数字变量之间的关系。
C) 执行图
执行图是随时间绘制的数据折线图。换句话说,执行图直观地显示了时间序列中的流程性能或数据值。与汇总统计相比,可视化随时间变化的数据能产生更准确的结果。趋势图或时间序列图是运行图的另一个名称。下图显示了特定时期内的虚构销售值。
D) 气泡图
气泡图是一种散点图,在二维图表上显示几个圆(气泡)。它们用于评估三个或更多数字变量之间的关系。在气泡图中,每个点对应一个数据点,每个点的变量值以不同的位置显示,如水平、垂直、点的大小和点的颜色。
E) 热图
热图是多元数据的彩色图形表示法,其结构为列和行的矩阵。热图将相关矩阵转换为颜色代码,并绘制这些系数,以直观显示变量之间的相关强度。这有助于找到最合适的特征,为机器学习建立精确的模型。
除上述技术外,EDA 还采用了 "分类或聚类分析 "技术。这是一种无监督的机器学习形式,用于将输入数据分类为某些类别或集群,这些类别或集群在不同组中表现出相似的特征。然后可用于在 EDA 中进行重要解释。
海马课堂专业课程辅导,辅导不满意随心退,试听课全面升级,3500+严选硕博学霸师资,针对学生的薄弱科目和学校教学进度,匹配背景相符的导师,根据学生情况进行1V1专属备课,课程辅导产品升级赠送考前保障,上课时间灵活安排,中英双语详细讲解课程中的考点、难点问题,并提供多方位的课后辅导,辅助学生掌握全部课程知识,补足短板。如果你对此还有疑问,或者有更多关于学业辅导方面需求的话,可以添加微信号:hmkt131联系海马课堂的Joye老师哦。
相关热词搜索: