《软科学》杂志社
首页 > 期刊导读
 
/ / /
 

软科学研究中的数据选型问题研究

 
来源:软科学 栏目:期刊导读 时间:2021-03-22
 
1 引言 软科学研究是以实现决策科学化和管理现代化为宗旨,采用定量与定性相结合的研究方法,以推动经济、科技、社会的持续协调发展为目标的一类政策研究活动[1]。针对数据的研究在软科学中一直是不可或缺的。很多研究如果没有数据做支撑,就可能真假难辨,相关结论会缺乏可验证性。一些关键的指标,一旦出现失误可能对经济社会发展造成巨大的负面影响,所以数据指标的设立从来都是一项耗时而艰巨的工作。特别是我国发布《促进大数据发展行动纲要》[2]之后,“用数据说话、用数据决策、用数据管理、用数据创新”被作为一种要求提出,对数据的研究重要性和紧迫性更加突出了。 然而在实际工作中,不恰当的数据选用却经常对研究造成不良影响。不合理的数据组合、低质量的数据或者数据与使用场景不匹配等,都可能降低报告的质量,需要引起重视。 2 数据选型中的若干问题举例 2.1 数据本身的意义问题 在选择数据时,必须注重数据本身是否切合应用场景,也就是必须对数据类型和内容有清晰的认识。这里,我们用公司市值为例进行说明。很多时候,人们会把公司的市值或者未上市公司的估值作为其发展状况的一种验证性数据使用,比如某领域内市值前10的公司等。但市值是一个动态、瞬时的概念,随着市场的波动而不断变化,一般只能用于说明短期状况。尤其是一些上市时间短的公司,市值很难用于说明经营发展方面的根本问题。当下的价格体现并不能简单地作为某种业务或公司发展前景的预兆。比如互联网金融行业从事P2P借贷的知名企业lendingclub,在过去几年互联网金融热潮下,市值非常高,许多软科学报告都会提到其市值和排名,并对这种新型的借贷活动大为赞赏,为其贴上金融脱媒、大数据风控等时髦标签,认为这是未来金融发展的方向。然而不到2年的时间,其市值缩水为不足1/5,甚至还爆出了创始人违规操作的丑闻[3]。反过来看,即便如此,市值变化也不能有力说明P2P借贷就一定是不合理的,或者简单认为是骗人的业务。其实,银行的委托贷款以及各种专项理财计划等,都带有P2P的特点。现实生活中,人们也少不了私人借贷行为,无论金额大小,也都属于P2P的概念范畴。所以,市值只能代表一种当下的热点或者资金资产供求关系,受到事件或者特殊环境的驱动非常明显。特别一些新兴市场国家的股市,天然具有较高的波动率,市值很难有可靠的预示性的意义。道琼斯指数所覆盖的公司,自指数创建以来也多次变更。类似通用电气(GE)这样的百年巨星企业凤毛麟角。所以在列举市值这类数据时,务必要明确数据本身所能代表的意义,清楚地说明其运用边界。 2.2 组合数据有效性问题 在数据研究中,难免需要对一组数据而非一个数据进行研究。这种情况下,既需要对单个数据指标有所理解,又需要考虑指标之间的融合度和组合有效性的问题。最近上海市发布了《2015年上海市国民经济和社会发展统计公报》[4],与2014年[5]相比,2015年末常住人口减少了10万余人。对此,一般被认为是上海十五年来首次外来常住人口的负增长。例如,在知乎的一个相关问题下,就有人用了三个方面的指标从侧面来考察和证明这一结论。本文以此为例,重点来研究网络上从侧面引证指标选取方面的合理性和组合结论的有效性问题。 首先是通勤人口数。报告中统计上海市公共交通运量仅仅增长0.9%,增速低于2014年的2.7%。虽然有人用这一指标来试图证明上述结论,但其实这样的小幅变化很难说明人口变化的问题。实际生活中,非常住人口也可能因为租房换房等因素,搬到离工作地较近的地方,从而不再需要日常公共交通,或者因为打车软件的出现和各种补贴现象,他们愿意选择更舒服的拼车方式去上班。所以这个窄幅波动本身无法有力说明人口变动问题。 其次是居民用水量。有文章认为,2013至2015年度的居民用水量几乎没有变化,或许印证了人口数的变化。这个指标也有值得怀疑之处。除了人口数量,居民用水量和天气也有一定关系:天气过热,人们保持卫生等会需要经常洗澡或洗衣服,用水量会增加;反之,则会减少。但这是经常性的用水,除非天气气候变化特别剧烈,否则其难以直接明显地影响该指标,而上海市近三年没有发生极端天气。但是,随着人们生活质量的改善,很多人已经习惯于购买矿泉水或者桶装水,喝自来水的家庭数量在减少。这种变化也有可能反映在用水量上,从而抵消了人口增长带来的用水增量。此外,受国家节能减排政策的影响,一些节水、节能设备的使用,也对减少用水量有积极影响。所以,小幅的用水量变化也不能说明问题。 最后,有关文章用工业增加值作为一个指标,来试图证明经济形势不好,有人离开。确实,钢铁行业已经连年亏损,低端制造业、人力密集型的产业发展都存在很多困难,一些人或家庭可能选择压力小环境好的家乡或其他地方工作。如类似于重庆这样的人力输出大省,当下发展还比较快,也确实吸引了一些出去打工的人返乡。但是,如果说这种情况会直接造成上海人口减少却不一定。一线城市每年都要吸引大量年轻人、外来务工人员。大城市因为行业分得细、品类齐全,找工作相对容易,特别是服务业当前仍然处于扩张状态,需要吸收大量的劳动人口。制造业机器替代人的进程刚刚开启,人口转移如果仅仅用工业增加值来计算,恐怕难以说明问题,更不能确定单位工业增加值所转移的劳动人口。 对以上三个指标,如果人口大量下降或大量增加,都会受到影响而变化。但是单纯小幅波动,难以说明人口变化问题。另外,每一个指标都存在问题的情况下,这个指标组合就更不能增加结论的可信度。 在选择组合指标印证问题的时候,指标之间的关联度也应该成为考察要素之一,而以上三个指标关联度也相对较低。 当然,尽管每个指标都存在一定疑义,但是也并不能证明人口下降的结论是错误的。长三角经济带的建设,以及一些无形的限制因素等影响,不排除中低收入人群选择异地就业、或在上海市周边而不是市内工作和生活的可能性。这本身并非一件坏事。结论的可靠性并不能完全评价研究对象的意义和价值。这里举这个例子,只是想说明应该慎重使用短期数据或者可信度不高的数据组合来进行长期决策。即便外来人口真的下降了一点,一旦市内经济形势大好,按照过去的经验,人口提升速度很可能比“下降”的速度快得多。简单地依数行政,风险较高。 2.3 指标名称问题 因为各种原因,一些指标的名称有一定的迷惑性,甚至有些过时。比如在电信业中存在的普及率指标[12]。该指标的定义如公式(1)所示。 在过去,电信发展初期,通信能力有限,很少有一家安装两部电话的情况。但是经过多年的高速发展,电信业务价格已经急剧下滑,双卡双待的手机终端在市场上广泛销售,不少人“公私分离”,愿意使用两个号码。由于类似原因,许多地区的移动通信业务普及率超过了100%[6],这显然失去了原有的“普及”概念。如果1/4的人使用双卡,假设所有人均有移动电话,那么渗透率将达到125%。若非所有人均有手机,则该指标掩盖了那些未使用该业务的人的信息,具体普及率达到多少算作人手一部手机仍然是一个未知数。作为当初电信业务发展充分度的一个指标,现在已经无法服务于最初的意图。对此,本文建议分立两个指标,原有普及率改名为使用率,计算方法不变,主要衡量一个地区该项业务发展用户量的程度。由于当下我国移动用户全面实名制,可以再设立一个指标,叫充分率,衡量该项业务发展的充分情况,具体如公式(2)所示。 其中,自然人用户数指的是实名认证的用户数,同一个身份证号无论拥有多少手机号,均只算一个自然人用户。行政区人口数不仅仅指户籍认可,而是所有人口。充分率指标可以利用基站与终端的联系以及后台的用户认证信息作直接的数据计算得出。叫充分率的好处在于,把普及率作为历史指标封存,使得长期研究的时候不存在概念混淆的问题。这个指标也不是越高越好,如固定电话,现在的大趋势是被很多家庭弃用,所以固定电话使用率会长期下降。所以,充分率这个指标可以有效看出多少人没有移动电话,以替代原有普及率的指示功能。而且充分率一定是小于等于1的一个数字,能够指示业务发展的充分程度。而使用率是一个理论上无上限的数字,用来考察业务用户发展情况。一个自然人可能是多个用户的实际控制人。 对类似这样的指标名称存在误导性的情况,需要及时加以纠正,便于读者理解,对软科学研究的发展也具有积极意义。 2.4 数据采样问题 数据的来源是数据研究首要解决的问题。软科学研究需要长期稳定、质量较高的数据源,才能分析出可靠的结论。而且在数据分析之前,最好能对数据本身有一个完整的描述性说明。比如大数据舆情监测,大家都默认大数据为全量数据,样本多、代表性强。但是在民意调查的过程中必须注意到,网民只占总人口的约一半,而网民中活跃发言的又只占一小部分。特别针对一定的话题,受到负面影响的人比受到正面影响的人更有发言欲望。这样的“代表”是不符合程序正义要求的,所以代表产生的合法性及言论中的情感倾向分析模型效果等问题,需要在舆情监测的报告中有适当说明[7]。不能简单认为,来自网络的大数据舆情分析就是主流民意。有些以大数据名义发布的调研分析结果,其实只是一个封闭系统内的全量数据,而不是具有相应属性的样本的全体,并不是一个全集的概念,有时候这样的一个封闭系统数据质量还不如基于传统分层抽样得来的小样本可靠。所以,如果把大数据标签等同于全集的概念,这样的软科学研究成果也是值得警惕的。 另外,一些名字相同的指标,也要注意对其来源、组成成分进行预先分析。比如我国和外国的GDP、CPI,统计定义、算法上会存在差异,简单直接对比是否恰当也需要作出说明。 2.5 衡量手段的选择问题 在对数据的研究中,有时需要对数据做简单处理,如加和、求平均数等。用算术平均数还是用加权平均数,有时候甚至还需要考虑是否用中位数。这和样本的分布情况有关,如果无法得到样本分布情况或者特征的话,就需要多个指标对比来看。即便如此,相关结论也易引发学术争论。 在过去工业时代,特别对于耐用品而言,市场占有率是一个很好的经济学、统计学概念。比如汽车市场、空调市场、手机市场等。但是,在互联网领域的研究中,就很难直接地使用这个概念。首先,互联网存在天然的迁徙自由,如果不是付费用户的话,迁徙经济成本极低,甚至为负。因此,这个概念稳定性差。其次,类似手机APP这样的软件,很多人会同时安装多个竞品,比如视频类的乐视网、腾讯网、爱奇艺等;购物类的京东、天猫等。分母统计上存在大量重复,发生几家APP市场占有率加起来大于100%的事情普遍存在。这样的市场占有率实际上从对比数据看意义有限,更多的是暗示某个APP的市场空间。在过去,市场占有率更多地是暗示多主体竞争的情况,是一种在市场容量有限情况下的存亡营销战,但在互联网领域却不是这样的。所以同样的衡量工具,在不同领域内,其价值也在发生变化。 衡量数据的手段选择,与数据本身关系密切。如果无法证明搜集到的数据之间的关联度和可靠度,就需要尝试多角度、采用多种处理方法对数据进行研究。 3 数据选型标准和研究过程中需要遵循的原则 在软科学研究中涉及数据方面的问题,可以参照会计学中的原则处理。对于数据本身,务求做到真实、准确、完整[8]。数据真实是基础,即便是采集到的错误数据,也不能轻易更改;也就是说,宁可重新采集数据,也不能改变数字本身。准确性的要求是相对的,比如很多时候人口统计数据都是抽样调查的数据,特别是流动人口,不可能是完全准确的数据,需要在数据使用前进行说明。完整性主要是为了保障分析结论的可靠,要尽量搜集到能够支持做出正确结论所需要的全部信息。这三项是会计学的重要原则,也非常值得软科学研究中数据研究人员借鉴。 另外,软科学报告中,也经常需要对数据选取、模型选择和构建作出详细说明。这里,同样借鉴会计学中的概念,应做到无虚假记载、误导性陈述和重大遗漏[9]。软科学是用来辅助决策的,产生的影响很大,有时候又不能立即验证或者有经验可供参考,所以务必实事求是,使得数据能够接受同行和阅读者得推敲,模型可经受得住各种考验。 在数据研究过程中,首先需要考察数据选择的原则。需要在列举数据、制作图表之前,清晰表明数据指标定义、数据入选原则以及数据质量方面的讨论。其次,要注重对前提假设的讨论。一旦前提假设出现问题,无论什么处理模型,得出的结论都会被质疑。前提假设一定要注重逻辑性,要符合常识,具有极强的一般性,否则可能造成“政策误伤”。少数服从多数的原则不能绝对化,设置合理的假设应该包括对可能发生的少数情况进行评估。 最后,要清晰描绘数据研究过程中的理论框架。同样的数据,通过不同的理论框架进行分析,会得出不同的结论。建议在软科学研究过程中,对相同的数据进行多视角考察,或者对于相同的事物,多角度选择几组数据进行验证。这样做能够保障研究结论的可靠性,提高软科学报告的质量。 遵循以上各条原则,不仅仅具有学术意义,商业价值也非常大。比如链家网是一个房地产中介公司重点打造的互联网信息平台,该公司在北京、上海地区有很高的市场占有率,相对排名第二的企业有明显领先优势。它主要的宣传就是真实性,真实房源、真实成交数据。该公司在维护数据真实、准确,以及利用市场占有率优势保持数据完整性方面都做了大量工作,投入了不少人力,经济方面的回报是非常可观的。 4 如何看待数据研究在软科学中的作用 软科学研究离不开数据的支持,即便是在法律、信息安全等领域,也需要一些重要的数据积累。长期积累的有效数据一直是学术研究的宝藏。但是,在当前条件下,还做不到依据数据的决策自动化。尽管决策支撑系统已经历过若干代的优化[10],但仍然需要人工进行大量的预先判断和结论评估。而另一方面,对计算机模型的人工干预,本身又存在结论造假和提高模型有效性方面的边界模糊。因此,就目前人工智能发展水平,还做不到全自动决策,也无法涉足过多领域。如自动驾驶这样的技术,也因为事故频发而变得低调了许多。 当下我国正在开展供给侧结构性改革,一些人把供给侧改革与供给侧管理相混淆。本文认为,供给侧改革重在增加供给侧的弹性和灵活性,与供给侧管理那种指令性生产、收紧生产弹性的做法恰恰相反。尽管供给侧管理更加典型地体现依数决策,但在数据无法全面反映问题的时候,必须更加注重平等、公平性原则,务必充分考虑限制性政策所引发的各类矛盾,最大程度释放经济活力。 5 数据研究结果的验证问题 在软科学数据研究中,如果是通过对数据的研究得出结论,要验证这个结论,可以主要考虑两方面的工作。一方面就是对数据选择的正确性、数据模型的合理性以及数据计算的准确性进行考察,主要是围绕报告中给出的介绍和数据进行。另一方面,需要注重数据验证的侧面性。也就是说选取一些与原有研究数据相关的、或者与结论关系密切的其他数据,进行佐证,而不局限于已有数据,甚至可以不源自数据,而是通过一些感性因素来验证。 数据验证不一定需要在报告中进行,可以是由读者自发进行的一项工作。数据验证之所以重要,既是因为软科学研究成果的重要性所致,又是因为出于严谨、全面的研究态度考虑,需要在引用相关结论或提出建议时确保其可靠性、可行性。 QUAN Xiangrong,ZHAO Yan.Data selection research in soft science domain[J].Modern Science&Technology of Telecommunications,2016,46(05):52-57.

文章来源:软科学 网址: http://rkx.400nongye.com/lunwen/itemid-8132.shtml


上一篇: 我国软科学元理论体系框架的初步探讨
下一篇: 地质学论文_从科学战略演变看美国地质调查局科研领域的发展



点击在线投稿

 
/ / /
 
 
 
 

Copyright 2001-2021 400农业期刊网版权所有 做最专业学术期刊论文发表网站
本站不是《软科学杂志社》官网,如果需要联系官方杂志社,请联系客服索取网站或者电话。