1.数据分析概述

发布于 2022年 01月 17日 09:44

数据分析的背景

随着计算机技术测全面地融入到社会生活,网络数据得到了爆发性地增长,驱使着人们进入一个崭新的大数据时代。

那么问题来了,数据库里面的数据这么多,怎么快速地拿到有价值的数据呢?

数据分析就可以从海量数据中获得潜藏的有价值的信息,帮助企业或个人预测未来的趋势和行为。

结论:不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力

什么是数据分析

数据分析是使用适当的统计分析方法对收集来的大量数据进行分析,从中提取有用信息形成结论,并加以详细研究和概况总结的过程

数据分析的目的

将隐藏在一大批看似杂乱无章的数据信息集中提炼出来有用的数据,以找出所研究对象的内在规律。

数据分析的分类

  • 描述性数据分析

    从一组数据中,可以摘要并且描述这份数据的集中和离散情形
    
  • 探索性数据分析

    从海量数据中找出规律,并产生分析模型和研究假设。
    
  • 验证性数据分析

    验证科研假设测试所需的条件是否达到,以保证验证性分析的可靠性。
    

数据分析的应用场景

营销方面的应用

通过会员卡形式获得消费者的个人信息,以便对消费者的购买信息进一步研究其购买习惯,发现各类有价值的目标群体。

医疗方面的应用

医生通过记录和分析婴儿的心跳来监视早产婴儿和患病婴儿的情况,并针对婴儿的身体可能会出现的不适症状做出预测,这样可以帮助医生更好的救助患儿。

网络安全方面的应用

新型的病毒防御系统可以使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式。

交通物流方面的应用

用户可以通过业务系统和GPS定位系统获得数据,使用数据构建交流状况预测分析模型,有效预测实时路况、物流状况、车流量、货物吞吐量,进而提前补货,制定库存管理策略。

数据分析的流程

数据分析大致可以分为以下五个阶段:

明确的目的和思路数据收集数据处理数据分析数据展现
要解决什么业务问题收集与整合数据数据进行清洗、加工和整理对数据进行探索与分析以图表来展示分析结果

选择python做数据分析的原因

选择Python做数据分析,主要考虑的是Python具有以下优势:

  • 语法简单精炼,适合初学者入门
  • 拥有一个巨大且活跃的科学计算社区
  • 拥有强大的通用编程能力
  • 人工智能时代的通用语言
  • 方便对接其它语言

数据分析环境

这里我们使用 Anaconda 的 python 环境。

我们推荐数据分析的初学者安装Anaconda进行学习。

Anaconda是一个可以便捷获取和管理包,同时对环境可以统一管理的发行版本。

  • 包含了众多流行的科学、数学、工程和数据分析的Python库
  • 完全开源和免费
  • 对于学术用途,可以申请免费的License
  • 全平台支持Linux、Windows、Mac OS X

Windows系统安装 Anaconda

下载地址链接如下

官网下载:www.anaconda.com/download/

清华镜像站下载:mirrors.tuna.tsinghua.edu.cn/anaconda/ar…

单击 Next采用默认安装路径,

安装完以后,在系统左下角的【开始菜单】->【所有程序】中找到Anaconda3文件夹,可以看到该目录下包含了多个组件。

Anaconda Navigator成功打开后的首页界面如下图所示。

通过Anaconda管理Python包

Anaconda集成了常用的扩展包,能够方便地对这些扩展包进行管理,比如安装和卸载包,这些操作都需要依赖conda。

conda是一个在Windows、Mac OS和Linux上运行的开源软件包管理系统和环境管理系统,可以快速地安装、运行和更新软件包及其依赖项。

  • 在Windows系统下,用户可以在Anaconda Prompt中通过命令检测conda是否被安装。 在此之前需要配置下环境变量,把anaconda目录下scripts目录路径添加到环境变量path中即可。

conda --version

如果希望快速了解如何使用conda命令管理包,则可以在Anaconda Prompt中输入“conda -h”或“conda --help”命令来查看帮助文档。

  • 使用list命令可以获取当前环境中已经安装的包信息。

    执行命令后,终端会显示当前环境下已安装的包名及版本号。

conda list
  • 使用search命令可以查找可供安装的包
conda search --full-name 包的全名

上述命令中,--full-name为精确查找的参数,后面紧跟的是包的全名。

  • 如果希望在指定的环境中进行安装,则可以在install 命令的后面显式地指定环境名称。
conda install --name env_name package_name

上述命令中,env_name参数表示包安装的环境名称,package_name表示将要安装的包名称。

  • 如果要在指定的环境中卸载包,则可以在指定环境下使用remove命令进行移除。
conda remove --name env_name package_name

如果要卸载当前环境中的包,可以直接使用remove命令进行卸载。

  • 更新当前环境下所有的包,可使用如下命令完成:
conda update --all
  • 如果只想更新某个包或某些包,则直接在update命令的后面加上包名即可,多个包之间使用空格隔开。
conda update pandas numpy matplotlib

Miniconda,它是最小的conda安装环境,只包含最基本的Python与conda以及相关的必须依赖项。对于空间要求严格的用户,Miniconda是一种选择,它只包含了最基本的库,其它的库需要自己手动安装。

启动Anaconda自带的Jupyter Notebook

在“开始菜单”中打开Anaconda3目录,找到并单击“Jupyter Notebook”会弹出启动窗口。

此时浏览器打开如下图中红框任意链接即可。

下图是浏览器中打开的Jupyter Notebook主界面,默认打开和保存的目录为C:\Users\当前用户名。

常见的数据分析工具

Python本身的数据分析功能并不强,需要安装一些第三方的扩展库来增强它的能力。

NumPy Pandas Matplotlib Seaborn NLTK

结语

作为本栏的第1篇,本篇首先介绍了数据分析的背景、用途、流程以及为什么选择Python做数据分析;然后带领大家认识了一个新的Python环境Anaconda,教大家安装和管理Python包;接着教大家启用Jupyter Notebook,并演示基本使用;最后带领大家认识了一些常见的数据分析工具。通过本篇的学习,希望读者能对数据分析有一个初步了解,并为后续章节的学习准备好开发环境。

推荐文章