当前位置:网站首页>第2章 关键技术介绍

第2章 关键技术介绍

2022-06-27 04:03:00 H`924

   

目录

2.1 Python爬虫

2.2 Python数据分析 


       本项目是通过Python语言来进行设计和实现的。项目主要用到的技术有Python爬虫,Python数据分析等。数据源来自于www.fangjia.com。

2.1 Python爬虫

       Python爬虫是收集互联网数据的常用工具,近年来随着互联网的发展而快速发展。使用网络爬虫爬取网络数据首先要了解网络概念和主要分类,各类爬虫的系统结构、运作方式,常用策略,以及主要的应用场景,同时,出于版权和数据安全的考虑,还需了解目前有关爬虫的应用合法性以及爬取网站是的需要遵守的协议。目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。但如果将爬取的数据用于其他用途,尤其是转载或者商业用途,严重的将会触犯法律或者引起民事纠纷。 以下两种数据是不能爬取的,更不能用于商业用途。 个人隐私数据:如姓名、手机号码、年龄、血型、婚姻情况等,爬取此类数据将会触犯个人信息保护法。 明确禁止他人访问的数据:例如用户设置了账号密码等权限控制,进行了加密的内容。 还需注意版权相关问题,有作者署名的受版权保护的内容不允许爬取后随意转载或用于商业用途。

2.2 Python数据分析 

       数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。广义的数据挖掘包括狭义数据分析和数据挖掘。狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类模型、分类模型、回归和关联规则等技术,挖掘潜在价值的过程。目前主流的数据分析语言有Python、R、Matlab这三种。其中,Python具有丰富和强大的库,常被称为胶水语言,能够把用其他语言制作的各种模块(尤其是c和c++)很轻松地连接在一起,是一门更易学、更严谨的程序设计语言。R语言则是用于统计分析、绘图的语言与操作环境。它属于GNU系统的一个自由、免费、源代码开放的软件。Matlab的作用是进行矩阵运算、绘制函数与数据、实现算法、创建用户界面和连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通信、图像处理、信号检测、金融建模设计与分析等领域。

Python数据分析主要包含以下五个方面的优势。

  1. 语法简单精炼
  2. 有很多功能强大的库
  3. 功能强大
  4. 不仅适用于研究和原型构建,同时也适用于构建生产系统
  5. Python是一门胶水语言,能够以多种方式轻易地与其他语言的组件粘接在一起。
原网站

版权声明
本文为[H`924]所创,转载请带上原文链接,感谢
https://blog.csdn.net/CJZSDBK/article/details/125289757