一.学习目标
- 数据科学及需要具备的知识和技能
- 了解数据的特征
- 数据可视化: R的绘图系统
- 制作并发布报告 (markdown, 制作数据报表)
二.环境安装与R Stdio
- R for windows 环境: https://cran.r-project.org/bin/windows/base/R-3.3.1-win.exe
- 如需要自己的版本,可以去官网查询. - 安装好后测试是否能正常运行: 在控制台输入: - 1.vol=trees[[“Girth”]]^2 trees[[“Height”]]/(4 pi) 回车 - 2.hist(vol,col=1)回车 - 显示:
三.数据科学家需要具备的技能
- Hacking Skills 计算机知识
- Math & Statistics 数学统计知识
- Substantive Expertise 生物方面知识(可选) 医学方向
职位 | 包含 | ||
---|---|---|---|
数据开发者 | 开发者 | 工程师 | |
数据研究者 | 研究人员 | 科学家 | 统计学家 |
数据创造者 | 什么都要会一点 | 艺术技能 | 黑客技能 |
商业职位 | 领导者 | 企业家 |
四.数据分析流程
- 初步流程
st=>start: 流程开始
e=>end: 结束
op=>operation: 定义研究问题
op2=>operation: 定义理想的数据集
op3=>operation: 确定能够获取什么数据(与资金相干)
op4=>operation: 获取数据(开始行动)
op5=>operation: 清理数据(只选取关心变量)
ed=>end: 结束
st->op->op2->op3->op4->op5->ed
- 实际操作
st=>start: 操作
e=>end: 结束
op=>operation: 探索性分析(数据可视化)
op2=>operation: 统计分析, 建模, 机器学习等
ed=>end: 结束
st->op->op2->ed
- 尾声
st=>start: 流程
e=>end: 结束
op=>operation: 解释, 交流结果(以可视化为前提)
op2=>operation: 挑战结果(是否遗漏?)
op3=>operation: 书写报告(Reproducible原则)
ed=>end: 结束
st->op->op2->op3->ed
- 驱动方式 : 假设驱动 (Hypothesis Driven) 学术界较多
- 驱动方式: 数据驱动(Data Driven) 商业工业界较多
- 推荐假设驱动
五.数据基础
-
观测, 变量, 数据矩阵
- 变量:
- 数值 -> 连续, 离散.(可进行计算, 加减乘除求平均等)
- 分类 -> 取值空间有限, 不能计算(加减乘除) > 有序, 无序
六.数值变量的特征和可视化1
- 数据集中趋势的测量: 均值, 中位数, 众数
-
分散趋势: 值域, 方差, 标准差, 四分位距
- 操作实践: 打开 R stdio, 新建R script
- 输入 x <- c(1,9,2,8,3,9,4,5,7,6)
- 点击 run
有:
- x <- c(1,9,2,8,3,9,4,5,7,6) mean(x) 均值 median(x) 中位数 var(x) 方差 sd(x) 标准差 summary(x) 自动分类统计
六.数值变量的特征和可视化2
- 稳健统计量
- 是: 中位数, 四分位差(受极端值影响小)
-
否: 均值, 标准差, 值域(受极端值影响大)
- 一个变量的可视化
- 柱状图(正太分布),点图(分布)
- 一般统计分析需要满足正太分布
- 其他: 左偏分布, 右偏分布
- 点图
- 一个变量的可视化
- 箱图,(中位数, 分位点, 极端值)
- 两个变量的关系
- 散点图: 方向, 形状, 强度, 极端值
七.分类变量的特征和可视化
一个分类变量的可视化
- 频率表
- 条形图
两个分类变量的关系
- 关联表, 相对频率表
注意: 相关不代表因果
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。