Home
|
简体中文
|
繁体中文
|
杂文
|
知乎专栏
|
51CTO学院
|
CSDN程序员研修院
|
Github
|
OSChina 博客
|
腾讯云社区
|
阿里云栖社区
|
Facebook
|
Linkedin
|
Youtube
|
打赏(Donations)
|
About
部分 II. Python 数据分析
上一页
下一页
知乎专栏
|
多维度架构
部分 II. Python 数据分析
目录
8. Crawler
8.1. Requests
9. Scrapy - Python web scraping and crawling framework
9.1. 安装 scrapy 开发环境
9.1.1. Mac
9.1.2. Ubuntu
9.1.3. 使用 pip 安装 scrapy
9.1.4. 测试 scrapy
9.2. scrapy 命令
9.2.1.
9.2.2. 新建 spider
9.2.3. 列出可用的 spiders
9.2.4. 运行 spider
9.3. Scrapy Shell
9.3.1. response
9.3.1.1. 当前URL地址
9.3.1.2. status HTTP 状态
9.3.1.3. text 正文
9.3.1.4. css
9.3.1.4.1. 获取 html 属性
9.3.1.5. xpath
9.3.1.6. headers
9.4. 爬虫项目
9.4.1. 创建项目
9.4.2. Spider
9.4.2.1. 翻页操作
9.4.2.2. 采集内容保存到文件
9.4.3. settings.py 爬虫配置文件
9.4.3.1. 忽略 robots.txt 规则
9.4.4. Item
9.4.5. Pipeline
9.5. 下载图片
9.5.1. 配置 settings.py
9.5.2. 修改 pipelines.py 文件
9.5.3. 编辑 items.py
9.5.4. Spider 爬虫文件
9.6. xpath
9.6.1. 逻辑运算符
9.6.1.1. and
9.6.1.2. or
9.6.2. function
9.6.2.1. text()
9.6.2.2. contains()
10. Pandas - Python Data Analysis Library
10.1. 安装 pandas
10.2. 数据输入与输出
10.2.1. Pandas 处理 HTML
10.2.1.1. HTML 表格处理
10.2.1.1.1. 安装依赖包
10.2.1.1.2. read_html 参数详解
10.2.1.1.3. 从文本变量中提取数据
10.2.1.1.4. 从文件获取表格数据
10.2.1.1.5. 从网址获取表格数据
10.2.1.1.6. 处理多个表格
10.2.1.1.7. 获取指定属性的表格
10.2.1.1.8. 结合 Xpath 使用
10.2.1.1.9. 指定编码
10.2.1.2. 使用 Dominate 生成 HTML
10.2.2. Excel 处理
10.2.2.1. 安装依赖库
10.2.2.2. 创建 Excel 文档
10.2.2.3. 读取 Excel 文件
10.2.2.3.1. 读取指定列
10.2.2.4. 工作表
10.2.2.4.1. 显示所有工作表
10.2.2.4.2. 打开工作表
10.2.2.4.3. 合并工作表
10.2.2.4.4. 打开工作表,指定返回列数据
10.2.2.4.5. 跳过不需要的数据
10.2.2.5. 数据操作
10.2.2.5.1. 打印头部/尾部数据
10.2.2.5.2. 打印列标题
10.2.2.5.3. 打印行
10.2.2.5.4. 描述数据
10.2.2.5.5. 修改 Excel 数据
10.2.2.5.6. 新增行/列
10.2.2.5.7. 数据筛选
10.2.2.5.8. 数据排序
10.2.2.6. Excel 设置项
10.2.3. Pandas 读写 CSV 文件
10.2.3.1. 将数据保存到CSV文件
10.2.3.2. 替换NaN(dropna,fillna,isnull)
10.2.4. Pandas SQL
10.2.4.1. 建立数据库链接
10.2.4.1.1. sqlite3
10.2.4.1.2. SQLAlchemy
10.2.4.2. DataFrame数据写入到数据库
10.2.4.2.1. 分批写入数据
10.3. 数据帧(DataFrame)
10.3.1. 什么是 DataFrame
10.3.2. 如何创建 DataFrame
10.3.3. 行与列操作 index/columns
10.3.3.1. 方法一,指定 index / columes 名称
10.3.3.2. 方法二,指定 index / columes 名称
10.3.3.3. 获取 columns 名称
10.3.3.4. 插入列
10.3.3.5. 迭代行
10.3.4. 数据访问
10.3.4.1. head() 与 tail()
10.3.4.2. iloc 访问数据
10.3.4.3. loc 访问数据
10.3.4.4. Axis(轴)
10.3.5. 添加操作
10.3.5.1. 添加列
10.3.5.2. 追加数据
10.3.6. 删除操作
10.3.7. 插入数据
10.3.7.1. 插入一列数据
10.3.8. 替换操作
10.3.9. 筛选
10.3.10. 排序
10.3.11. 分类聚合
10.3.12. 数据去重
10.3.13. 数据格式化
10.3.13.1. 日期格式化
10.3.13.2. 浮点格式化
10.3.14. 迭代输出
10.4. 序列
10.4.1. 创建 Series 对象
10.4.2. Series 运算
10.4.3. Series 常用方法
10.4.3.1. head() /tail()
10.4.3.2. isnull() / notnull()
10.4.3.3. 去重复数据
10.5. 数据可视化
10.5.1. 演示代码
10.5.1.1. 折线图
10.5.1.2. 条形图
10.5.1.3. 直方图
10.5.1.4. 区域图
10.5.1.5. 饼形图
10.5.1.6. XY散点图
10.5.1.7. 箱形图
10.5.1.8. 核密度估计图(Kernel Density Estimation, KDE)
10.5.2. 中文支持
10.5.2.1. 查看系统支持的字体
10.5.2.2. 设置字体
10.5.2.3. 中文演示代码
10.5.3. 开启网格
10.5.4. 坐标轴
10.5.4.1. 轴标签旋转
10.5.4.2.
10.5.4.3. 标题/X标签/Y标签
10.5.4.4. 设置X/Y坐标范围
10.5.5. 边框设置
10.5.6. plot 设置
10.5.6.1.
10.5.6.2. 隐藏图例
10.5.7. 保存为图片
10.5.8. matplotlib 绘图风格
10.6. Pandas 实用函数
10.6.1. 日期范围
10.6.2.
10.7. FAQ
10.7.1. xlrd.biffh.XLRDError: Excel xlsx file; not supported
10.7.2. Missing optional dependency 'xlrd'
11. 股票
11.1. easyquotation - 快速获取新浪/腾讯的全市场行情
11.1.1. 安装
11.1.2. 演示
11.2. akshare
12. 数据可视化
12.1. matplotlib
12.1.1. 直方图
12.1.2. 显示中文
12.2. pyecharts