暨南大学学生成绩、体测数据及图书馆数据

暨南大学学生成绩、体测数据及图书馆数据

经过吐血的整理,我终于整理好了这个涵盖了我们学校学生成绩、体测数据及图书馆数据的 数据集,为了保护隐私,我把数据集中的姓名、学号变量去掉了。

下载

数据下载:暨南大学学生信息表.dta

变量描述

变量名 含义
b绩点 2017年绩点
b学业测评成绩 2017年学业测评成绩
b思想测评成绩 2017年思想测评成绩点
b综测 2017年综测
b综测班级排名 2017年综测班级排名
b综测专业排名 2017年综测专业排名
b绩点班级排名 2017年绩点班级排名
b绩点专业排名 2017年绩点专业排名
a绩点 2016年绩点
a学业测评成绩 2016年学业测评成绩
a思想测评成绩 2016年思想测评成绩
a综测 2016年综测
a综测班级排名 2016年综测班级排名
a综测专业排名 2016年综测专业排名
a绩点班级排名 2016年绩点班级排名
a绩点专业排名 2016年绩点专业排名
民族 民族
年级 年级
行政班级 行政班级
性别 性别
a身高 2016年身高
a体重 2016年体重
a肺活量 2016年肺活量
av50米跑 2016年50米跑
a立定跳远 2016年立定跳远
a千米跑 2016年千米跑
a坐体前屈 2016年坐体前屈
a引体向上_仰卧起坐 2016年引体向上_仰卧起坐
a耐力加分 2016年耐力加分
a柔韧力量加分 2016年柔韧力量加分
b身高 2017年身高
b体重 2017年体重
b肺活量 2017年肺活量
bv50米跑 2017年50米跑
b立定跳远 2017年立定跳远
b千米跑 2017年千米跑
b坐体前屈 2017年坐体前屈
b引体向上_仰卧起坐 2017年引体向上_仰卧起坐
b耐力加分 2017年耐力加分
b柔韧力量加分 2017年柔韧力量加分
v1617学年体测成绩 1617学年体测成绩
v1718学年体测成绩 1718学年体测成绩
入馆次数 2017年入馆次数
进馆次数在全院的排名 2017年进馆次数在全院的排名
每月进馆次数序列 2017年每月进馆次数序列
最早入馆时间 2017年最早入馆时间
最喜欢的入馆时间 2017年最喜欢的入馆时间
总打印数量 2017年总打印数量
总扫描数量 2017年总扫描数量
总逾期归还图书数量 2017年总逾期归还图书数量
每月打印数量序列 2017年每月打印数量序列
总借阅量 2017年总借阅量
借阅量在全院排名 2017年借阅量在全院排名
最早借书的时间 2017年最早借书的时间
最喜欢借书的时间 2017年最喜欢借书的时间
借阅Kindle的次数 2017年借阅Kindle的次数
每个月借阅的次数序列 2017年每个月借阅的次数序列
最喜欢借阅的书的类型 2017年最喜欢借阅的书的类型
区县代码 籍贯所在区县代码
省份 籍贯所在省份
城市 籍贯所在城市
经度 籍贯所在经度
纬度 籍贯所在纬度
专业 专业

当然数据集并不完整。数据来源分别是:

  1. 图书馆数据:暨南大学图书馆公众号;
  2. 体测数据:暨大体育公众号;
  3. 成绩数据:数字暨大。
  4. 籍贯所在区县数据:根据身份证号前六位匹配得到。

这个数据集很有意思呢!不过需要注意以下几个注意事项:

1. 如果你使用了该数据集进行数据分析,请告知我(直接在下面评论即可),谢谢!
2. 请勿使用该数据集侵犯个人隐私甚至从事违法活动;
3. 数据整理至网络,使用时请勿注明数据来源于我这里!注明数据来源于网络即可。
4. 请勿再次爬取,学校似乎已经注意到了这种行为了!(例如文亮同学曾经被图书馆警告过😄)。

一些简单的分析

成绩好的人身体好不好?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
library(readstata13)
library(tidyverse)
df <- read.dta13("暨南大学学生信息表.dta") %>% as_tibble()

df %>%
select(b绩点, v1718学年体测成绩, 年级) %>%
filter(!is.na(b绩点) & !is.na(v1718学年体测成绩)) %>%
rename(testscore = b绩点, healthscore = v1718学年体测成绩, grade = 年级) %>%
ggplot(aes(x = testscore, y = healthscore, color = grade)) +
geom_point(position = 'jitter') +
scale_color_brewer(name = "年级", palette = 'Set2',
breaks = c("2年级", "3年级", ""),
labels = c("大二", "大三", "未知")) +
geom_smooth() +
labs(x = "绩点", y = "体测得分", title = "绩点 vs. 体测", caption = "数据来源:暨南大学")

当然如果你学过计量经济学,你就一定不能把这幅图存在的相关关系当成因果关系,这里面存在很多问题?哪些呢?

身高分布

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
df %>% 
select(b身高, 年级) %>%
filter(!is.na(b身高)) %>%
rename(height = b身高, grade = 年级) %>%
filter(height > 100 & height < 200) %>%
ggplot(aes(x = height)) +
geom_density(aes(y = ..density.., group = grade, fill = grade), alpha = 0.6) +
scale_x_continuous(
breaks = seq(140, 200, by = 20),
labels = paste0(seq(140, 200, by = 20), "cm")
) +
scale_fill_brewer(name = "年级", palette = 'Set2',
breaks = c("2年级", "3年级", ""),
labels = c("大二", "大三", "未知")) +
labs(x = "身高", y = "密度", title = "暨南大学同学身高分布")

体重分布

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
df %>% 
select(b体重, 年级) %>%
filter(!is.na(b体重)) %>%
rename(weight = b体重, grade = 年级) %>%
filter(weight > 25 & weight < 125) %>%
ggplot(aes(x = weight)) +
geom_density(aes(y = ..density.., group = grade, fill = grade), alpha = 0.6) +
scale_x_continuous(
breaks = seq(25, 125, by = 25),
labels = paste0(seq(25, 125, by = 25), "kg")
) +
scale_fill_brewer(name = "年级", palette = 'Set2',
breaks = c("2年级", "3年级", ""),
labels = c("大二", "大三", "未知")) +
labs(x = "体重", y = "密度", title = "暨南大学同学体重分布")

体重的性别分布

1
2
3
4
5
6
7
8
9
10
11
12
13
df %>% 
select(b体重, 性别) %>%
filter(!is.na(b体重)) %>%
rename(weight = b体重, gender = 性别) %>%
filter(weight > 25 & weight < 125) %>%
ggplot(aes(x = weight)) +
geom_density(aes(y = ..density.., group = gender, fill = gender), alpha = 0.6) +
scale_x_continuous(
breaks = seq(25, 125, by = 25),
labels = paste0(seq(25, 125, by = 25), "kg")
) +
scale_fill_brewer(name = "性别", palette = 'Set2') +
labs(x = "体重", y = "密度", title = "暨南大学同学体重分布")

身高的性别分布

1
2
3
4
5
6
7
8
9
10
11
12
13
df %>% 
select(b身高, 性别) %>%
filter(!is.na(b身高)) %>%
rename(height = b身高, gender = 性别) %>%
filter(height > 100 & height < 200) %>%
ggplot(aes(x = height)) +
geom_density(aes(y = ..density.., group = gender, fill = gender), alpha = 0.6) +
scale_x_continuous(
breaks = seq(140, 200, by = 20),
labels = paste0(seq(140, 200, by = 20), "cm")
) +
scale_fill_brewer(name = "性别", palette = 'Set2') +
labs(x = "身高", y = "密度", title = "暨南大学同学身高分布")

BMI指数的分布

BMI = 体重公斤数/身高米数平方

1
2
3
4
5
6
7
8
9
10
11
12
13
df %>% 
select(b身高, b体重, 性别) %>%
rename(height = b身高, weight = b体重, gender = 性别) %>%
filter(!is.na(height) & !is.na(weight)) %>%
filter(height > 100 & height < 200) %>%
filter(weight > 25 & weight < 125) %>%
mutate(
bmi = weight/(height/100)^2
) %>%
ggplot(aes(x = bmi)) +
geom_density(aes(y = ..density.., group = gender, fill = gender), alpha = 0.6) +
scale_fill_brewer(name = "性别", palette = 'Set2') +
labs(x = "BMI", y = "密度", title = "暨南大学同学BMI分布")

好了。。。我知道自己的位置了。。。体重真是大问题!

# Stata

评论

程振兴

程振兴 @czxa.top
截止今天,我已经在本博客上写了658.8k个字了!

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×