谢宇:我不同意你给的定义。硬件限制不应该成为定义。我们传统的方法是用少量的随机抽样的数据来代替整体的数据,比如我们的CFPS,用16000户的家庭、超过4万人的一个抽样数据来了解整个13亿人的状况。这是个经济的办法,通过随机抽样得到的小样本,我们可以推算出整体信息。我的定义是:“大数据”是指不是专门为了研究收集,而是本来就有的现代社会工作和生活中自然产生的数据。因为这样,大数据可能会很薄,只有很少的几个变量。我的看法很简单,数据都是好的,数据是信息,大数据很好,有数据总比没数据好,但要用好。
在这里,我还要泼点冷水,因为大数据这概念最近太火了,我现在差不多跑哪儿都有人跟我讲智库,讲大数据,但大多数人,包括很多官员,对大数据理解不一,也不太懂。你要知道,做任何政治性的建议都是不容易的,都需要有很坚实的基础科学底子。有很好的大数据作为依托来做决策,但这里面有个麻烦,你的能力如果小数据都做不了,就要急着做大数据,那就麻烦了……数据的研究方法不像手机,iPhone 6出来了,iPhone 5就淘汰了。社会科学的量化方法没有新与旧、先进与落后的区别,好的研究是好的问题和合适的方法的结合,没有捷径,必须从基础做起。做大数据得先从小数据做起,先做好小数据,再去搞大数据。任何数据,包括大数据,都有局限性,不懂装懂,以为有大数据就自以为什么都知道了是危险的。
自然科学家代表着中国社会最进步的力量
人物周刊:谈谈你政治经济文化上的立场?
谢宇:我觉得,中国的意识形态与西方的意识形态不是一回事。中国实际上并没有真正主流意识形态上的分歧,没有真正的左派和右派。
人物周刊:你是怎么想到要去做“赛先生”呢?
谢宇:我跟饶毅认识了很多年,我很欣赏他,虽然我们在第一次交流时并不是很愉快,但我一直认为,他是个很正直的科学家,他对自己的要求也比较高。他们几个人来找我,他们希望“赛先生”不仅仅是提供自然科学的东西,也能够提供一些社会科学的东西,反映中国社会科学的变化,我也很愿意做这样的事情。
从社会的需要来看,中国现在和将来最需要的不一定是自然科学,而是社会科学和人文科学,但中国目前做得好的主要是自然科学。我认为,中国的自然科学家代表着中国社会最进步的力量,是中国的整个社会最积极的一个阶层。而中国社会科学、人文科学相对比较弱,社会影响小。自然科学家,特别是海外回来的自然科学家,他们多数有几个特点:第一,他们有尊重事实的职业习惯,有更好的客观性;第二,他们有更好的独立性;第三,自然科学家更国际化。所以,自然科学家往往要更诚实和有远见一些,包括对很多社会问题,他们的看法往往很值得听,很多都超过社会科学家。
(感谢北京大学张春泥、社会科学院於嘉对本文提供的帮助。本文部分参考了谢宇著作《社会学方法与定量研究》)
本刊记者 李珊珊/编辑 郑廷鑫
- 看不过瘾?点击下面链接! 【本站微信公众号:gsjx365,天天有好故事感动你!】