当前位置：网站首页>数据可视化实战：实验报告

数据可视化实战：实验报告

2022-06-26 05:55:00 【啊Q老师】

数据可视化实验报告

1.项目背景
- 1.1项目概述
- 1.2数据字段说明
2.提出问题
3.理解数据
4.数据清洗
5.数据可视化

1.项目背景

1.1项目概述

本项目拟对movie.csv数据进行可视化

1.2数据字段说明

id——序号
movieId——电影号
title——电影名
cover——图片网址
rate——评分
director——导演
composer——编剧
actor——演员
category——类型
district——地区
language——语言
showtime——上演时间
length——时长

2.提出问题

电影类型与平均评分之间有什么关系、2000年以来评分前十的电影是什么、2010-2015年电影类型产量前五有什么变化？

3.理解数据

3.1采集数据

数据来源：movie.csv

3.2导入数据

根据提出的问题，确定了对csv文件的数据获取。然后通过pandas操作读取csv文件和 usecols导入指定列的数据。
1.
在这里插入图片描述
2.

3.

3.3查看数据集信息

如图1.2.3:
在这里插入图片描述

4.数据清洗

4.1数据预处理

4.1.1异常数据处理

由于category列数据存在部分为空值，先对其进行以“类型的数据缺失”填充处理。
在这里插入图片描述

4.2特征工程

4.2.1特征提取

1.电影类型与平均评分之间有什么关系？
由于category数据每一个单元格上可能存在多种类型，所以对其先按“/”拆分，并将结果转换成DataFrame；拆分后，再以列的形式进行输出；行列转换后，索引需要对其进行重置；最后，数据处理完毕，将new_category的列替换成category列。第二步，获取每种类型的平均评分，将其命名为Average_rate拼接在表中；获取每种电影类型的总次数，将其命名为Count_category拼接在表中;同时进行对类型列的数据去重和以平均评分进行从高到低排序。第三步，单独获取类型、平均评分、类型次数以列表的形式输出。
在这里插入图片描述
结果如图：