当数据量巨大时,如何使数据更直观、更有效地输出有用的信息,需要借助数据可视化技术。经过实战项目全面掌握Matplotlib实现简单直观的数据可视化,Echarts实现更加丰富的交互需求,在此基础上认识更多的可视化数据库并灵活使用。
Python的中间部分:数据获取和收集。
因特网上有大量的数据信息,可以通过爬虫技术*有效地获取这些数据。爬行框架Scrapy是一种目前非常流行的爬行框架。Scrapy使用Python作为开发语言,并提供了非常丰富的扩展功能,掌握Scrapy爬虫框架的使用,就能有效地获得因特网数据。
Python高级:清理和挖掘数据。
这一阶段主要完成对数据处理的学习,使用Python来实现有关数据清理和存储的技能。正式应用到AI核心算法之前,需要对数据进行迁移、清洗、分片等转换处理,使用Python的numpy、pandas模块,可以有效地处理源数据中的空值、噪音、不一致数据、重复数据等。资料来源、存储环境多种多样,分别来自JSON,CSV文件,MySQL,Redis,MongoDB数据库,HDFS文件系统等。可以使用Python的json,csv,pymysql,redis,pymongo,pyhdfs模块来*地解决数据存储问题。