首页 >> 图书情报学
              数据科学及其对情报学变革的影响
              2019年01月30日 11:02 来源:情报学报 作者:巴志超 李纲 周利琴 毛进 字号

              内容摘要:数据时代,科学界倡导建立属于不同科学领域的数据科学,以形成具有学科差异化、特色化的数据科学研究范?#25509;?#24605;维模式,情报学也应积极吸纳数据科学的理论、?#38469;?#19982;方法,?#28304;?#21160;情报学的变革与发展。在把握数据科学的学科内涵、理论体系与方法论的基础上,探究数据、数据科学以及情报学三者之间的内在关系,从理论逻辑、?#38469;?#26041;法与?#23548;?#24212;用等方面分析数据科学对情报学研究范式转型的重大影响,并指出在当前大数据与数据科学发展视角下情报学应该重点关注的新课题。

              关键词:

              作者简介:

                1 引言   

                在当前大数据时代,数据不再是科学领域研究的成果,而成为科学研究的重要基础,在商业领域,对数据的重视程度也从简单的处理对象演变为重要的战略性资源,如何对数据进行有效的管理、开发与利用,引起了学术界对以数据为中心的科学——数据科学的积极探讨。越来越多的学者意识到:探索数据是人类认识和理解真实世界的最有效方法,其不同于以自然界为研究对象的自然科学,也不同于以人类社会为研究对象的社会科学,却成为推动自然、社会和?#23435;?#31185;学发展的动力。但数据科学作为一项新的科学,目前还有很多根本性问题没有解决,甚?#38142;?#22312;很多问题还未提出,对数据科学的定义以及是否为一门独立学科的问题也?#24418;?#32479;一界定。1974年,丹麦计算机科学家、图灵奖获得者Peter Naur在其著作的Concise Survey of Computer Methods中首次定义数据科学(Data Science)是“一门处理数据的科学”[1]。之后《数据科学》杂志界定“数据科学几乎是与数据所有有关的研究内容,包括数据的采集、组织、分析与应用等”[2]。Moraes等[3]认为数据科学一个重要目标是从跨学科领域的不同元素、?#38469;?#21644;理论中概括和提炼知识,并创造新的数据产品。Mondal[4]认为数据科学?#35789;?#22823;数据建模,主要是通过应用计算、统计分析及可视化来洞察数据。王曰芬等[5]也?#21360;?#30446;的与过?#25506;?#21512;”“方法与领域结合”以及“人才与需求结合”三个角度对已有相关成果定义的数据科学内涵进行详细的概括与总结,得出由于面对的科学问题不同,导致不同领域学者对数据科学的内涵界定、研究方法及?#23548;?#36807;程描述都不尽相同。但数据科学具有较强的跨学科特性却成为学术界的共识。   

                数据科学是在计算机科学、统计学等相关基础理论以及社会科学、自然科学等领域专业理论进行继?#23567;?#25193;展与创新兴起的一个交叉性科学领域,主要研究由于大数据的规模效应所引起的数据处理复?#26377;?#38382;题。在国内专书出版的《数据学》[6]中也明?#20998;?#20986;数据科学的两个主要内涵:一是针对数据本身,研究数据的各种类型、状态、属性及变化形式和规律;另一个是为自然科学和社会科学研究提供一?#20013;?#30340;方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律[7]。但由于不同学科的数据差异?#38498;?#24037;作任务要求不同学科需要建立具有自身特色的数据科学,培养各自领域的数据科学人才。情报学科也需要结合自己的历史使命、时代特征与发展,寻求践行大数据的最佳范式,通过引入数据科学的相关基础理论、?#38469;?#19982;方法,催动情报学的变革与发展。因此,有必要在了解数据科学的历史形成以及学术界对数据科学体系探索和诠释的基础上,分析数据、数据科学与情报学之间的内在逻辑关系,把握情报学与数据科学融合交汇的研究前沿,从?#38469;?#26041;法、体系建设及应用?#23548;?#31561;角度探究数据科学对情报学范式转型的重大影响,进一步提出数据科学研究视角下情报学发展应该重点关注的研究方向。   

                2 数据科学相关概述   

                2.1 数据科学的科学定位   

                任何领域的研究,若要成为一门科学,需要研究共性的问题[8],而数据科学能否作为一门独立的学科存在也非常值得探讨。从一个毫无争议的观点——数据科学是一门数据驱动的交叉性科学研究角度分析,其作为一个容纳计算机科学、统计学、信息科学、数学等学科的组合体,在以数据研究和应用为首要任务和目标的导向下,驱动和关联着各个学科并形成有机统一。而数据科学研究需要?#26639;接?#29305;定、具体的领域才变得更有意义,无法对交叉学科的领域知识深入理解,单纯地去设计脱离?#23548;视?#29992;的数据分析方法研究很难有广阔的发展前景。因此,从目前来看将数据科学不再作为一个独立学科存在,而看作?#27465;?#20010;交叉科学的载体会更为合理。但相关学者试图从学科建构的角度将数据作为一个“自然体”(Data nature)进行研究,并提出了“数据界”(Data universe)的概念,其主要是从数据的基本规律、关联与分类以及数据安全与主权问题等方面展开研究。然而,提炼“数据界”共性关键科学问题仍需进一步的?#23548;?#31215;累与探索,需要通过更多的“白盒研究”抽象出通用性较强的“黑?#24515;?#22411;”与普适规律。尽管无法一致明确数据科学是否能够成为一个独立的学科,但数据科学仍具有自己的基本内涵和外延,丝毫不影响对数据科学的研究对象、科学性质、学科体系以及研究方法等内容进行探索。   

                对数据科学的科学定位需要在界定数据科学基本内涵的基础上,明确数据科学的主要研究内容、研究范围、知识结构、学科体系以及与其他传统学科之间的关系等问题。不同学者从不同的认知角度定义了数据科学的基本概念,但都一致认可数据科学是一门研究数据的科学或关于数据的科学,是探索网络空间数据奥秘的理论、方法?#22270;际鮗9],包括用数据的方法研究科学以及用科学的方法研究数据。尽管数据可作为信息和知识的符号表示或载体,但数据科学基本的研究对象是数据,而非信息与知识,主要是通过研究数据的特征与规律来获取对自然、生命和行为的认识,进而通过对数据的解析化、集成化、模型化与智能化形成信息和知识。因此,数据科学的研究对象、研究目的与研究方法等与计算机科学、信息科学及社会科学等?#21152;?#30528;本质的不同。   

                2014年,国家自然科学基金委员会组织的未来五年的“十三五”规划中,特别尝试设立“数据与计算科学”这一专门面向大数据研究的学科方向,主要研究数据的感知、收集、传输、管理、分析与应用的交叉性学科,旨在揭示数据的内在规律,探索数据计算理论、实现从数据到知识的转化,为大数据的科学计算以及在重要应用领域的预测、决策与应用提供基础。而在当前大数据生存时代下,数据科学的基础问题体系本身也就是大数据领域的研究热点,主要解决大数据发展和共性?#38469;?#38382;题,并利用大数据?#38469;?#36827;行收集、整理、解读和应用大数据。针对数据科学的知识体系问题,朝?#32622;?#31561;[10]指出数据科学是以统计学、数据可视化、机器学习以及某一领域知识为基础,包括数据科学基础理论、数据预处理、数据计算和数据管理。Aalst等[11]认为数据科学具有关联着过程挖掘、大规模分?#38469;?#35745;算、可视化分析、行为科学、工业工程、推测学、数据库等不同分支学科融合的理论体系。Moraes等[3]提出数据科学包括信号处理、机器学习、数学、不?#33539;?#24314;模、数据工程以及统计学等基础理论。而从数据科学所涉及的学科领域来看,其知识结构不仅仅包括数学、统计学、计算机科学、信息科学等在内的基础性理论,还应该包括社会学、物理学、情报学、生物医学等在内的专业性领域理论。刘潇等[9]?#25569;誛arfield提出的科学论域体系,?#21360;?#22522;础—理论—方法?#22270;际酢?#24212;用”四个方面尝试建构数据科学的学科体系结构,如图1所?#23613;?#33267;少可以看出,数据科学的基础研究是离不开对相关学科的领域知识与研究方法论的借鉴,其“方法”也主要是针对信息空间—物理世界—人类社会(Cyber-Physical-Society,CPS)三元世界中数据完整链条的探索,包括数据感知与获取、数据组织与融合、数据学习与认知、数据交换与经济等主题的一系列方法或?#38469;酰?#36890;过研究数据智能的全生命周期,实现“数据—信息—知识—智慧”的转化、互哺与共享。其中,问题或数据驱动而非模型驱动的方法正成为数据科学研究方法的主要特征。另外,数据科学的“应用”层面也不仅仅包括对商业智能的支持、新型数据产业的推动及单一科学研究领域的具体应用,还应上升到国家安全观层面,以关乎国计民生的科学决策、应急管理、环境管理、社会计算以及知识经济为主要应用领域。综上所述,尽管数据科学的术语由来已久,但作为一门新科学正处于萌芽阶段,对数据科学的学科体系、研究边界、研究内容等问题,仍然需要各个科学领域的学者进行集体探索与思考。

              作者简介

              姓名:巴志超 李纲 周利琴 毛进 工作单位:

              转载请注明来源:中国社会科学网 (责编:闫琪)
              W020180116412817190956.jpg
              用户昵称:  (您填写的昵?#24179;?#20986;现在评论列表中)  匿名
               验证码 
              所有评论仅代表网友意见
              最新发表的评论0条,总共0 查看全?#31185;?#35770;

              回到频道首页
              QQ图片20180105134100.jpg
              jrtt.jpg
              wxgzh.jpg
              777.jpg
              内文页广告3(手机版).jpg
              中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律?#23435;?/a>|广告服务|网站声明|联系我们
              1 3 8 24 72倍投