当前位置:网站首页>数据分析(一)
数据分析(一)
2022-07-23 05:43:00 【皇儒无上】
— 数据分析的基本知识点,后续会对我所做的实战项目进行分享
一.为什么要做数据分析
1.什么是”大数据时代“
“大数据”时代的概念最早由世界著名的咨询公司麦肯锡提出。麦肯锡说:“数据已渗透到今天的每个行业和业务功能领域,并已成为重要的生产要素。随着新一轮的生产力增长和消费者盈余浪潮的到来,海量数据的挖掘和使用预示着 “大数据”已经存在于物理学,生物学,环境生态学等领域以及军事,金融,通信等行业。
大数据是互联网发展到一定阶段的必然产物,也是互联网的价值体现。随着越来越多的社会资源被网络化和数字化,大数据可以承载的价值也将不断被提及和提高,大数据的应用范围也将不断扩大。因此,在未来的网络时代,大数据本身不仅可以代表价值,而且大数据本身也可以创造价值。
2.大数据能做什么
(1)将实体例如人、车等转换成虚拟标签,用一条条标签数据的组合代表了不同的个体。例如:蓝色、性能优良、性价比高的XX车。企业可以通过大数据完成产品(服务)的设计和创新。
(2)为人工智能、机器学习等的发展奠定了基础。无论是机器学习还是深度学习,都是基于海量数据去进行计算,进而找出相应规律的。
二.数据分析的一般流程
数据分析是在明确分析目的的基础上,有目的地收集数据,并用适当的分析方法及工具对数据进行处理、统计归类以及探索分析,最终将数据中有价值的信息提炼并将关键结论有逻辑地展现。
1.需求分析
明确分析背景及目的,将问题需求转换为业务理解,将业务问题转化为数据问题。
2.思路框架
发散式多角度将需求拆解,确定分析方向,逻辑清晰地组织分析思路。
3.数据准备
确定分析用户群、数据维度及指标,设计并开发数据模型。
4.统计分析
用SQL、Excel数据统计探索,提炼重点结论。
5.数据可视化
设计合适图表可视化数据结论。
6.报告编写
编写数据分析报告,内容要观点鲜明、逻辑清晰。
三.数据分析的思路框架
1.自上而下法
如果你对业务很熟悉,那么首先可以快速地找到问题的中心思想;其次列出要解决问题的分析框架,多角度分析问题,进而确定问题的分析方向;最后,将收集来的素材放置于对应的框架之下。
2.自下而上法
如果你对业务不是很熟悉,那么首先要从底层收集尽可能多的素材;其次根据现有素材搭建初步框架,将收集的素材放置于各框架之下;最后随着素材量的增加,逐步完善框架并补充新的内容。
四.数据分析的数据准备
1.确定统计口径范围
(1)确定分析用户群;
(2)定位数据来源;
(3)确定分析维度;
(4)确定分析指标。
2.设计开发数据表模型
(1)对底层数据结构有明确了解;
(2)在数据提取效率与深度之间权衡,设计数据库模型,尽可能设计单用户表;
(3)离线数据设计立方体(维度+指标)。
3.核对保障数据质量
(1)与统一数据分析系统核对;
(2)与其他相似数据需求核对;
(3)上层数据与底层数据核对;
(4)数据业务逻辑完整性核对。
五.常用的统计分析工具
常用的统计工具有Excel、SPSS、SAS、R、Matlab、Python等。
(1)EXCEL
定义:
EXCLE是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。
主要功能:
可以画各种图标,做方差分析、回归分析等基础分析。
应用领域:EXCLE专业性不是很高,但完全可以胜任日常工作中简单的数据分析工作。
(2)SPSS
定义:
SPSS是“统计产品与服务解决方案”软件,用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务。
主要功能:
SPSS的必需基础模块,管理整个软件平台,管理数据访问、数据处理和输出,并能进行很多种常见基本统计分析;在进行数据处理时,除了基本的数据分析外,如果还想建立分析过程数据,就需要使用此模块。Advanced Statistics为分析结果建立更灵活、更成熟的模型,在处理嵌套数据时以得到更精确的预测模型,可以分析事件历史和持续时间数据;主要用于回归分析。Regression提供大量的非线性建模工具、多维尺度分析以帮助研究人员进行回归分析。它将数据从数据约束中解放出来,方便地把数据分成两组,建立可控制的模型及表达式进行非线性模型的参数估计,能够建立比简单线性回归模型更好的预测模型;SPSS Conjoint是包含三个相互关联过程的一个系统,用于进行全特征联合分析。联合分析使研究人员了解消费者的偏好,或在一定产品属性及其水平条件下的产品评定。
应用领域:
包括在经济管理、项目管理、工程质量控制等方面。 就工程管理,其可以应用到工程项目管理满意度评估、统计分析,特别是在质量控制的统计分析中。还有经济、生物、医学很多领域都能做,要具体说的话实在太多了,但spss最擅长方差分析。
(3)MATLAB
定义:
MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。
主要功能:MATLAB自产生之日起就具有方便的数据可视化功能,以将向量和矩阵用图形表现出来,并且可以对图形进行标注和打印。高层次的作图包括二维和三维的可视化、图象处理、动画和表达式作图。可用于科学计算和工程绘图。
应用领域:
MATLAB 的应用范围非常广,包括信号和图像处理、通讯、控制系统设计、测试和测量、财务建模和分析以及计算生物学等众多应用领域。
边栏推荐
- ADB common commands
- 1. Know the database
- 抽象类和接口有什么区别?
- 1. Initial experience of MySQL
- Gerrit operation manual
- 常用数学知识汇总
- Find the sum of numbers between 1 and 100 that cannot be divided by 3
- Upload pictures to qiniu cloud through the web call interface
- 2. MySQL data management - DML (add, modify, delete data)
- 链表相关面试题
猜你喜欢

11. Multithreading

3D image classification of lung CT scan using propeller

MySQL invalid conn troubleshooting

Eigen多版本库安装

九、实用类

UE4 solves the problem that the WebBrowser cannot play H.264

Affichage itératif des fichiers.h5, opérations de données h5py

对.h5文件的迭代显示,h5py数据操作

UE4解决WebBrowser无法播放H.264的问题

绿色数据中心:风冷GPU服务器和水冷GPU服务器综合分析
随机推荐
八、集合框架和泛型
虚函数
循环队列
Nt68661 screen parameter upgrade-rk3128-start up and upgrade screen parameters yourself
MySQL backup
论文解读:《利用注意力机制提高DNA的N6-甲基腺嘌呤位点的鉴定》
百变冰冰!使用飞桨的PaddleGAN实现妆容迁移
论文解读:《提高N7-甲基鸟苷(m7G)位点预测性能的迭代特征表示方法》
建设“绿色计算”,解读“智算中心”
Rondom总结
Ninja file syntax learning
知识图谱、图数据平台、图技术如何助力零售业飞速发展
Service服务
NT68661-屏参升级-RK3128-开机自己升级屏参
Chain stack
2021信息科学Top10发展态势。深度学习?卷积神经网络?
论文解读:《基于注意力的多标签神经网络用于12种广泛存在的RNA修饰的综合预测和解释》
高德定位---权限弹框不出现的问题
链表相关面试题
“东数西算”数据中心下算力、AI智能芯片如何发展?