页码
图 3-1 系统模块图 10
图 3-2 爬取结构 10
图 3-3 数据可视化模块结构图 11
图 3-4 数据库 ER 图 12
图 4-1 论坛页面 13
图 4-2 帖子页面 15
图 4-3 评论区页面 16
图 4-4 任务队列 18
图 4-5 任务队列处理流程图 18
图 4-6 爬虫活动监控面板 20
图 4-7 爬虫控制台 24
图 4-8 用户活跃度图表 25
图 4-9 词语趋势图 27
图 4-10 主题模型图 28
图 5-1 程序运行结果 31
图 5-2 浏览器扩展创建 32
表清单
表序号 表名称 页码
表 3-1 课程表 11
表 3-2 帖子表 11
表 3-3 评论表 12
表 5-1 事件处理方法 30
表 5-2 消息输出方法 30
变量注释表
currentPage 当前页面
SubjectCode 课程代码
mainInterval 主调度
1 绪论
1。1 课题背景及研究意义
1。1。1 课题背景
慕课[1](MOOC,massive open online courses)即大型开放式网络课程,是新近涌现 出来的一种在线课程模式,它将在线学习管理系统与开放的网络课程资源综合起来,形成了 一种新的课程开发模式。为了提升用户体验,如今很多慕课系统使用大量 JavaScript 技术 进行开发,使得传统爬虫在应对这些网页时遇到很多困难。为了从慕课系统的大量课程及讨 论资料中获得有价值的信息,一个针对慕课的爬虫和数据分析系统成为迫切需求。
1。1。2 研究意义
在当今时代,互联网的出现为教育改变提供了数字化的支撑,让优质的教育资源得以 高效地传输,开放课程资源、推进教育公平势在必行。本系统通过对慕课系统大量课程的讨 论资料进行整理、总结,帮助教育工作者获得课程的重点、难点,从而提高教学质量。
1。2 开发工具的选择及语言介绍 Python+PostgreSQL慕课论坛爬取系统的设计与实现(2):http://www.youerw.com/jisuanji/lunwen_82239.html