高新技术企业 | 双软认定企业 | 新三板预上市企业
百度地图|网站群系统 | 视频直播系统   全国客服热线:400-666-4048
  • 如何应用大数据提高高校教育创新?
  • 信息来源:政府   发布时间:2017-02-21 13:50:48    阅读:1153次   字体:[ ]

    • 高校的大数据创新(应用)大多是一种倒逼式的创新,即大数据技术成熟促使互联网教育企业采取创新模式来改变学习方式(大多以营利为目的),这种方式在社会上引起关注,最终被高校关注,并应用到高校教育创新中。 
      无论是在科技文献、论文还是技术演讲、讨论中,提到大数据,通常会听到两种解释,一是数据本身,即海量、高增长率、多样化和真实的数据,本身无法使用传统工具或流程处理或分析,是一种有价值的数据资产;二是大数据分析及应用技术,指通过数据挖掘、云计算、分布式存储等技术对具有价值的海量真实数据进行处理,从中获得数据中隐含的联系、规律、价值。这里有必要阐明,以区分数据和数据处理技术。本文中提到的大数据,多指大数据分析及应用技术。 

      网站群

      大数据分析在一些领域取得了不错成绩而且技术也比较成熟,如互联网、销售、人口迁移等,2014、2015年央视和百度联合推出的“百度迁徙”,更是将大数据推向了风口浪尖。大数据分析在教育领域的应用可以说是凤毛麟角,相对较少,大多是在互联网教育领域,在高校中的应用鲜有出色且技术储备也不充足。而部分发达国家已经将大数据提升到国家战略层面,并投入巨资对大数据相关核心技术进行研究,尤其是在教育层面,2012年美国教育部发表《通过教育数据挖掘和学习分析促进教与学》报告及2014年美国政府发布的《大数据》白皮书,指出大数据将变革生活中的每一个领域,教育领域已经进入了一个“数据驱动学校,分析变革教育”的大数据时代,大数据必将改变传统教育的面貌。 
      教育大数据分析架构 
      数据来源
      大数据的来源种类繁多,格式不一,常见的来源包括物联网应用中的传感数据;用户上网浏览网页产生的浏览记录;玩游戏、聊天产生等社交网络应用产生的交互数据;消费者网络或者实体的消费记录等等。教育大数据有自己独特的特点,如数据产生范围比较集中;数据量达到一定规模,但不是特别大;数据格式不一,多为半结构化数据等。类型大致可分为以下几类:一是教育教学中课程资料及对应的各种文本、音频、视频资料;二是老师、学生在线学习中产生的交互记录、浏览资料产生的行为记录;三是高校等教育机构的师资、学生资料;四是师生上网行为资料及网络社交行为资料;五是消费资料尤其是校园一卡通的消费记录;六是学校的固定资产资料;七是图书馆的书籍资料及用户的借阅资料等等。其中,最主要的来源是师生在学习、生活和工作过程中留下的大量数字化足迹碎片,如在线学习和网络社交行为、一卡通的使用等。 
      这些资料有的增长、变动快慢不一。有的变动较慢如师资、学生资料,固定资产资料等;有些资料变动较快,如各种课程资料,图书馆的书籍资料等,这些都成为教育大数据分析中的辅助资料;有些资料则呈指数级增长,如各种文本、音视频资料,师生的交互资料、社交资料、消费资料、图书借阅资料等等,这些则是数据分析中最有价值的信息,也是分析的重点。 
      大数据分析相关技术概述 
      1.数据采集及处理
      常用的ETL工具包括Informatica、Datastage、OWB、微软DTS及开源的eclipse插件cloveretl。ETL工具负责将网页上的,分布式或者关系数据库中结构化、半结构或者非结构化的数据抽取到临时中间层后进行一系列处理,包括清洗、转换、集成,最后加载到核心数据库中,成为后续分析处理、数据挖掘的基础。 
      常用的网络爬虫工具种类繁多,既包括通用型的爬虫VietSpider、Heritrix、Nutch、MetaSeeker、Nagios等,也包括专题型的爬虫BaiduSpider、Yahoo Slurp、Googlebot等。这些工具大多是开源的,采用Java语言编写,具有很高的扩展性和适用性,方便根据不同的网页类型采取不同的抽取规则,采集的数据更加规范。 
      常用的数据处理工具包括一些常见的Java中间件,如SSH工具,即Spring+Struts+Hibernate。还包括一些成熟的框架结构如Hadoop、Tableau等,在此基础上基于Map-Reduce机制做数据清洗和分析。通过这些工具可以将不同数据库中不同格式的数据进行整理、分析、提取,最终形成格式统一的有价值的初步数据。 
      2.数据存储数据存储技术的发展,经历了关系数据库,NoSQL数据库,分布式存储、云存储等技术。不同的数据类型、数据量对数据存储技术的要求也不同。大数据分析技术要求对各类数据进行整理、交叉分析、比对,对数据进行深度挖掘,实现对非结构化数据的特征提取,以及半结构化数据的内容检索、理解等。 
      常见的大数据存储技术包括基于Hadoop环境下的各种NoSQL技术,分布式云存储技术等。 
      3.数据分析数据分析技术主要是基于各种算法对存储于分布式数据库或者分布式计算集群中的海量数据进行计算、分析和分类汇总,以满足大多数常见的分析需求或者实现一些高级别数据分析的需求。 
      常用数据分析工具包括EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。 
      4.数据可视化数据可视化是对数据分析结果的最终呈现方式,信息只有展示出来,呈现给最终用户才能显示其价值。而且这种可视化、直观展示给用户的是一种“信息地图”,使用户能够更好地理解数据分析结果,使结果得到更好利用。 
      常用的数据可视化工具繁多,既包括常用的入门级工具如Excel、XCEl、JSON,也包括一些在线的数据可视化工具如Google Chart API、Flot、D3,还包括GU(I互动图形用户界面)控制工具如Crossfilter、Tangle,其他的还包括地图工具、一些高级进阶工具如OpenLayers、Processing等。


  • 分享到:0
  • 编辑:周诗诚