SHUISHAN DATASETS
一个基于水杉在线学习平台的开源数据集库
介绍
这个仓库用于公开我们从水杉在线学习平台收集的数据集,您可以下载并使用它们进行您的研究。所有数据集均对特殊字段进行了脱敏(所以如果您想进行特定人群的研究,这份数据集可能并不适合您),涵盖课程资源、学生行为以及其它数据。
数据集
以下是我们目前公开的数据集(暂时只有 SHUISHAN-CLAD ):
下载
我们提供了以下多种下载方式:
1.下载链接:
- Aliyun OSS 阿里云 OSS
- Baidu Disk 百度云盘
- 链接: https://pan.baidu.com/s/1Pbx0u0x2UV0-a9pO8tHtlw
- 密码: l9yr
- Google Drive 谷歌云盘
2. wget
命令:
wget https://shuishan-dataset.oss-accelerate.aliyuncs.com/SHUISHAN-CLAD.zip --no-check-certificate
unzip SHUISHAN-CLAD.zip
wget
命令或阿里云 OSS 链接进行下载,因为这些通常是最新的选项。云存储链接可能不会频繁更新。
联系我们
如需使用我们的数据集进行研究,请通过电子邮件( 51265903105@stu.ecnu.edu.cn )联系我们以获取授权。若在论文致谢中提及我们的贡献,我们将不胜感激。
如有任何疑问或建议,欢迎通过邮件联系我们,或者建立 GitHub issues。
数据描述
1. SHUISHAN-CLAD: 课程学习行为数据集
这个数据集包含了 866,000+ 条课程学习行为记录,包括学生学习活动,例如观看视频、阅读文章和完成练习。数据集是从 113 余门课程中收集,涵盖 18,200 余名不同学生的行为数据。
我们的数据以json
格式存储,具体字段及含义见下文:
SHUISHAN-CLAD 数据集的详细统计信息:
course_id | teachclass_count | video_records | exam_records | homework_records | student_records | attendance_records |
---|---|---|---|---|---|---|
数据挖掘 | 1 | 0 | 0 | 335 | 957 | 0 |
人工智能基础与科学探索实践-郑凯 | 2 | 0 | 0 | 0 | 57 | 0 |
大数据与人工智能 | 1 | 0 | 0 | 12 | 0 | 171 |
专业英语 | 1 | 0 | 0 | 244 | 558 | 0 |
Python编程基础 | 4 | 0 | 995 | 1916 | 6527 | 3205 |
专业英语-2025 | 1 | 0 | 0 | 0 | 284 | 0 |
人工智能与科学探索实践-陈优广 | 4 | 2345 | 2213 | 1028 | 8070 | 2411 |
AIGC在文化教学中的应用 | 3 | 86 | 0 | 4 | 195 | 0 |
数字媒体与AI创作实践 | 6 | 8878 | 0 | 19323 | 6485 | 4287 |
编程思维与实践(体育学院) | 3 | 0 | 289 | 1354 | 3873 | 303 |
汉语口语 | 1 | 0 | 0 | 0 | 0 | 0 |
HSK标准教程3 | 1 | 0 | 1 | 0 | 4 | 0 |
概率论与数理统计 | 3 | 207 | 0 | 2606 | 8662 | 0 |
计算机通识课 | 1 | 427 | 31 | 8 | 210 | 0 |
人工智能与智慧教育实践(体育学院) | 2 | 0 | 0 | 1780 | 3531 | 698 |
说汉语写汉字-tc | 1 | 0 | 0 | 0 | 0 | 0 |
学术英语读写课程 | 1 | 3 | 364 | 0 | 590 | 0 |
设计思维-拔尖班 | 1 | 0 | 0 | 0 | 0 | 51 |
数据与编程 | 1 | 31 | 10 | 0 | 85 | 0 |
数据科学与工程专题选讲 | 2 | 0 | 0 | 0 | 0 | 0 |
编程思维与实践(下)——探索数据的世界 | 1 | 0 | 0 | 0 | 42 | 461 |
开源软件通识基础 | 1 | 28 | 0 | 0 | 10 | 0 |
计算机与程序设计基础(D) | 7 | 0 | 0 | 0 | 0 | 118 |
neXt-lab的机器学习 | 1 | 0 | 0 | 0 | 74 | 17 |
人工智能基础与应用 | 32 | 15101 | 590 | 951 | 19192 | 3041 |
编程思维与实践(理科组)(陈优广) | 2 | 968 | 1110 | 1193 | 3997 | 2012 |
程序设计 | 9 | 6384 | 127 | 0 | 2856 | 0 |
计算机系统 | 4 | 0 | 0 | 217 | 791 | 0 |
数据挖掘-2025春 | 1 | 0 | 0 | 320 | 1682 | 0 |
编译原理 | 2 | 0 | 0 | 0 | 1258 | 0 |
2022年人工智能初探 | 2 | 630 | 61 | 87 | 556 | 536 |
说汉语3 | 1 | 0 | 0 | 0 | 0 | 0 |
事业启航-数据学院 | 2 | 42 | 0 | 0 | 614 | 0 |
AI赋能文化教学-汉语教师志愿者培训 | 1 | 1 | 0 | 0 | 23 | 0 |
当代数据管理系统 | 10 | 74935 | 3003 | 2531 | 66874 | 36 |
社会计算 | 3 | 0 | 50 | 55 | 383 | 0 |
人工智能创意编程之 python | 1 | 0 | 0 | 0 | 3 | 0 |
统计方法与机器学习 | 3 | 1946 | 0 | 1305 | 4230 | 0 |
云计算系统 | 1 | 0 | 0 | 0 | 0 | 0 |
XX | 1 | 0 | 0 | 0 | 0 | 0 |
计算机网络(拔尖基地) | 1 | 0 | 0 | 151 | 535 | 0 |
计算机文化与数字胜任力 | 4 | 0 | 50 | 0 | 54489 | 0 |
编程思维与实践(理科组) | 56 | 36946 | 4284 | 2213 | 41684 | 13849 |
编程思维与实践(2021) | 4 | 1322 | 9 | 0 | 453 | 0 |
开源软件设计与开发(本科生) | 1 | 4 | 6 | 0 | 4 | 20 |
数据科学与数据智能实践 | 37 | 9929 | 9360 | 8945 | 34612 | 13835 |
编程思维与实践 | 31 | 31846 | 3894 | 11463 | 48271 | 12970 |
应用编程实践 | 2 | 0 | 30 | 43 | 438 | 620 |
数据系统前沿 | 1 | 0 | 0 | 0 | 4 | 0 |
2G-语言课 | 1 | 0 | 0 | 0 | 0 | 0 |
数据伦理 | 8 | 0 | 0 | 2466 | 1625 | 213 |
多媒体技术与应用(HA&M) | 7 | 0 | 281 | 4096 | 7544 | 1674 |
机器学习 | 2 | 0 | 0 | 0 | 0 | 0 |
高性能计算与并行计算 | 1 | 0 | 0 | 45 | 1 | 42 |
信息系统与数字社会 | 1 | 11 | 15 | 0 | 47 | 0 |
编程思维与实践(数字媒体) | 6 | 0 | 0 | 6609 | 3537 | 2885 |
Parliamo Cinese我们说汉语(1)(天池) | 1 | 0 | 0 | 0 | 5 | 0 |
机器学习(2024) | 1 | 0 | 0 | 0 | 0 | 684 |
Python语言程序设计 | 1 | 0 | 1 | 0 | 1 | 0 |
数字媒体与交互设计 | 8 | 0 | 0 | 0 | 3 | 771 |
算法与人工智能 | 1 | 0 | 12 | 0 | 52 | 0 |
分布式计算系统 | 3 | 28895 | 0 | 0 | 22108 | 0 |
2022高校学生人工智能训练营(英特尔-华师大) | 1 | 0 | 0 | 119 | 2 | 0 |
计算机视觉 | 1 | 0 | 0 | 0 | 0 | 0 |
程序设计(计算机拔尖基地) | 5 | 425 | 536 | 1780 | 4738 | 1924 |
程序优化系统设计(上) | 1 | 4 | 0 | 0 | 63 | 0 |
2022“人工智能”教学研讨班 | 1 | 322 | 0 | 0 | 459 | 0 |
人工智能与科学探索(蒲鹏) | 3 | 712 | 557 | 939 | 6818 | 3048 |
数据科学与工程算法基础 | 1 | 100 | 0 | 0 | 514 | 0 |
人工智能与科学探索实践-朱晴婷 | 7 | 1070 | 389 | 523 | 2915 | 5453 |
Parliamo Cinese我们说汉语(1) | 1 | 0 | 1 | 3 | 17 | 2 |
人工智能与科学探索实践 | 28 | 7710 | 984 | 0 | 16942 | 7536 |
计算机科学中的伟大思想 | 2 | 0 | 41 | 2 | 167 | 283 |
编程思维与实践(微专业) | 1 | 51 | 0 | 0 | 48 | 0 |
数据结构(拔尖基地) | 2 | 0 | 0 | 44 | 1925 | 0 |
软件系统优化 | 5 | 176 | 0 | 1020 | 2515 | 0 |
数据思维与实践 | 1 | 962 | 0 | 0 | 364 | 0 |
数字素养 | 1 | 3 | 0 | 0 | 1 | 83 |
我们说汉语3 | 2 | 0 | 0 | 0 | 0 | 0 |
计算机视觉(2024) | 1 | 0 | 0 | 0 | 0 | 0 |
统计与机器学习(非全) | 3 | 112 | 0 | 388 | 1214 | 0 |
事业启航 | 2 | 174 | 0 | 23 | 51 | 0 |
数据科学与工程数学基础 | 1 | 123 | 0 | 0 | 35 | 0 |
数据学院2022年双创展示 | 1 | 0 | 0 | 0 | 2 | 0 |
数据分析与大数据 | 18 | 2495 | 250 | 0 | 2809 | 1704 |
人类思维与学科史论-计算机 | 1 | 0 | 0 | 0 | 0 | 0 |
网络与数字安全 | 1 | 0 | 10 | 0 | 29 | 0 |
区块链系统 | 1 | 0 | 0 | 0 | 5 | 0 |
计算机系统(拔尖基地) | 3 | 377 | 0 | 0 | 2627 | 0 |
编程思维与实践(理科组)(刘小平) | 3 | 245 | 0 | 0 | 826 | 1729 |
web编程 | 3 | 0 | 0 | 833 | 5328 | 612 |
Metasequoia Cup Coding Competition | 4 | 0 | 0 | 0 | 0 | 0 |
开源软件开发与社区治理(研究生) | 1 | 21 | 55 | 0 | 20 | 924 |
当代人工智能 | 1 | 0 | 154 | 0 | 1 | 0 |
说汉语写汉字 — 第13课 现在几点 | 1 | 0 | 0 | 0 | 0 | 0 |
算法基础 | 1 | 0 | 0 | 0 | 0 | 0 |
计算教育学2022 | 1 | 0 | 14 | 27 | 1 | 140 |
程序优化系统设计(下) | 1 | 0 | 0 | 0 | 10 | 0 |
云计算应用与开发 | 2 | 0 | 0 | 0 | 14 | 0 |
人工智能基础(上海市重点课程) | 3 | 358 | 185 | 212 | 1643 | 524 |
数据思维与实践(2024) | 3 | 472 | 52 | 144 | 1109 | 498 |
软件开发管理与实践 | 1 | 0 | 0 | 5 | 0 | 0 |
学中文 | 1 | 0 | 0 | 0 | 0 | 0 |
人工智能与数学 | 1 | 4 | 0 | 0 | 5 | 0 |
设计思维 | 1 | 0 | 0 | 0 | 6 | 0 |
水杉公益 | 2 | 0 | 1 | 0 | 0 | 0 |
计算机编程语言 | 1 | 0 | 45 | 0 | 0 | 115 |
计算机视觉与多媒体信息处理 | 5 | 6564 | 0 | 0 | 4976 | 0 |
青少年编程教育训练营 | 6 | 0 | 0 | 70 | 292 | 329 |
数据科学与工程导论 | 6 | 524 | 39 | 865 | 4023 | 129 |
parla e scrivi | 1 | 0 | 0 | 0 | 0 | 0 |
人工智能初探 | 2 | 395 | 141 | 1 | 340 | 0 |
(B2)编程思维与实践 | 22 | 0 | 115 | 0 | 170 | 2609 |
Total Count: 113 | 471 | 244364 | 30355 | 78298 | 421110 | 92552 |
致谢
特别感谢华东师范大学、华东师范大学数据科学与工程学院、水杉在线对本项目的支持和帮助。