Skip to the content.
英文

SHUISHAN DATASETS

LICENSE

一个基于水杉在线学习平台的开源数据集库

介绍

这个仓库用于公开我们从水杉在线学习平台收集的数据集,您可以下载并使用它们进行您的研究。所有数据集均对特殊字段进行了脱敏(所以如果您想进行特定人群的研究,这份数据集可能并不适合您),涵盖课程资源、学生行为以及其它数据。

数据集

以下是我们目前公开的数据集(暂时只有 SHUISHAN-CLAD ):

下载

我们提供了以下多种下载方式:

1.下载链接:

2. wget 命令:

wget https://shuishan-dataset.oss-accelerate.aliyuncs.com/SHUISHAN-CLAD.zip --no-check-certificate
unzip SHUISHAN-CLAD.zip
注: 我们建议使用 wget 命令或阿里云 OSS 链接进行下载,因为这些通常是最新的选项。云存储链接可能不会频繁更新。

联系我们

如需使用我们的数据集进行研究,请通过电子邮件( 51265903105@stu.ecnu.edu.cn )联系我们以获取授权。若在论文致谢中提及我们的贡献,我们将不胜感激。

如有任何疑问或建议,欢迎通过邮件联系我们,或者建立 GitHub issues

数据描述

1. SHUISHAN-CLAD: 课程学习行为数据集

这个数据集包含了 866,000+ 条课程学习行为记录,包括学生学习活动,例如观看视频、阅读文章和完成练习。数据集是从 113 余门课程中收集,涵盖 18,200 余名不同学生的行为数据。

我们的数据以json格式存储,具体字段及含义见下文:

SHUISHAN-CLAD 数据集的详细统计信息:

course_id teachclass_count video_records exam_records homework_records student_records attendance_records
数据挖掘 1 0 0 335 957 0
人工智能基础与科学探索实践-郑凯 2 0 0 0 57 0
大数据与人工智能 1 0 0 12 0 171
专业英语 1 0 0 244 558 0
Python编程基础 4 0 995 1916 6527 3205
专业英语-2025 1 0 0 0 284 0
人工智能与科学探索实践-陈优广 4 2345 2213 1028 8070 2411
AIGC在文化教学中的应用 3 86 0 4 195 0
数字媒体与AI创作实践 6 8878 0 19323 6485 4287
编程思维与实践(体育学院) 3 0 289 1354 3873 303
汉语口语 1 0 0 0 0 0
HSK标准教程3 1 0 1 0 4 0
概率论与数理统计 3 207 0 2606 8662 0
计算机通识课 1 427 31 8 210 0
人工智能与智慧教育实践(体育学院) 2 0 0 1780 3531 698
说汉语写汉字-tc 1 0 0 0 0 0
学术英语读写课程 1 3 364 0 590 0
设计思维-拔尖班 1 0 0 0 0 51
数据与编程 1 31 10 0 85 0
数据科学与工程专题选讲 2 0 0 0 0 0
编程思维与实践(下)——探索数据的世界 1 0 0 0 42 461
开源软件通识基础 1 28 0 0 10 0
计算机与程序设计基础(D) 7 0 0 0 0 118
neXt-lab的机器学习 1 0 0 0 74 17
人工智能基础与应用 32 15101 590 951 19192 3041
编程思维与实践(理科组)(陈优广) 2 968 1110 1193 3997 2012
程序设计 9 6384 127 0 2856 0
计算机系统 4 0 0 217 791 0
数据挖掘-2025春 1 0 0 320 1682 0
编译原理 2 0 0 0 1258 0
2022年人工智能初探 2 630 61 87 556 536
说汉语3 1 0 0 0 0 0
事业启航-数据学院 2 42 0 0 614 0
AI赋能文化教学-汉语教师志愿者培训 1 1 0 0 23 0
当代数据管理系统 10 74935 3003 2531 66874 36
社会计算 3 0 50 55 383 0
人工智能创意编程之 python 1 0 0 0 3 0
统计方法与机器学习 3 1946 0 1305 4230 0
云计算系统 1 0 0 0 0 0
XX 1 0 0 0 0 0
计算机网络(拔尖基地) 1 0 0 151 535 0
计算机文化与数字胜任力 4 0 50 0 54489 0
编程思维与实践(理科组) 56 36946 4284 2213 41684 13849
编程思维与实践(2021) 4 1322 9 0 453 0
开源软件设计与开发(本科生) 1 4 6 0 4 20
数据科学与数据智能实践 37 9929 9360 8945 34612 13835
编程思维与实践 31 31846 3894 11463 48271 12970
应用编程实践 2 0 30 43 438 620
数据系统前沿 1 0 0 0 4 0
2G-语言课 1 0 0 0 0 0
数据伦理 8 0 0 2466 1625 213
多媒体技术与应用(HA&M) 7 0 281 4096 7544 1674
机器学习 2 0 0 0 0 0
高性能计算与并行计算 1 0 0 45 1 42
信息系统与数字社会 1 11 15 0 47 0
编程思维与实践(数字媒体) 6 0 0 6609 3537 2885
Parliamo Cinese我们说汉语(1)(天池) 1 0 0 0 5 0
机器学习(2024) 1 0 0 0 0 684
Python语言程序设计 1 0 1 0 1 0
数字媒体与交互设计 8 0 0 0 3 771
算法与人工智能 1 0 12 0 52 0
分布式计算系统 3 28895 0 0 22108 0
2022高校学生人工智能训练营(英特尔-华师大) 1 0 0 119 2 0
计算机视觉 1 0 0 0 0 0
程序设计(计算机拔尖基地) 5 425 536 1780 4738 1924
程序优化系统设计(上) 1 4 0 0 63 0
2022“人工智能”教学研讨班 1 322 0 0 459 0
人工智能与科学探索(蒲鹏) 3 712 557 939 6818 3048
数据科学与工程算法基础 1 100 0 0 514 0
人工智能与科学探索实践-朱晴婷 7 1070 389 523 2915 5453
Parliamo Cinese我们说汉语(1) 1 0 1 3 17 2
人工智能与科学探索实践 28 7710 984 0 16942 7536
计算机科学中的伟大思想 2 0 41 2 167 283
编程思维与实践(微专业) 1 51 0 0 48 0
数据结构(拔尖基地) 2 0 0 44 1925 0
软件系统优化 5 176 0 1020 2515 0
数据思维与实践 1 962 0 0 364 0
数字素养 1 3 0 0 1 83
我们说汉语3 2 0 0 0 0 0
计算机视觉(2024) 1 0 0 0 0 0
统计与机器学习(非全) 3 112 0 388 1214 0
事业启航 2 174 0 23 51 0
数据科学与工程数学基础 1 123 0 0 35 0
数据学院2022年双创展示 1 0 0 0 2 0
数据分析与大数据 18 2495 250 0 2809 1704
人类思维与学科史论-计算机 1 0 0 0 0 0
网络与数字安全 1 0 10 0 29 0
区块链系统 1 0 0 0 5 0
计算机系统(拔尖基地) 3 377 0 0 2627 0
编程思维与实践(理科组)(刘小平) 3 245 0 0 826 1729
web编程 3 0 0 833 5328 612
Metasequoia Cup Coding Competition 4 0 0 0 0 0
开源软件开发与社区治理(研究生) 1 21 55 0 20 924
当代人工智能 1 0 154 0 1 0
说汉语写汉字 — 第13课 现在几点 1 0 0 0 0 0
算法基础 1 0 0 0 0 0
计算教育学2022 1 0 14 27 1 140
程序优化系统设计(下) 1 0 0 0 10 0
云计算应用与开发 2 0 0 0 14 0
人工智能基础(上海市重点课程) 3 358 185 212 1643 524
数据思维与实践(2024) 3 472 52 144 1109 498
软件开发管理与实践 1 0 0 5 0 0
学中文 1 0 0 0 0 0
人工智能与数学 1 4 0 0 5 0
设计思维 1 0 0 0 6 0
水杉公益 2 0 1 0 0 0
计算机编程语言 1 0 45 0 0 115
计算机视觉与多媒体信息处理 5 6564 0 0 4976 0
青少年编程教育训练营 6 0 0 70 292 329
数据科学与工程导论 6 524 39 865 4023 129
parla e scrivi 1 0 0 0 0 0
人工智能初探 2 395 141 1 340 0
(B2)编程思维与实践 22 0 115 0 170 2609
Total Count: 113 471 244364 30355 78298 421110 92552

致谢

特别感谢华东师范大学、华东师范大学数据科学与工程学院、水杉在线对本项目的支持和帮助。

ECNU DaSE SHUISHAN