2017年12月8日,中央政治局就实施国家大数据战略进行学习。习近平总书记对实施国家大数据战略、加快建设数字中国提出5点指示,对出版业服务新时代中国特色社会主义建设提出了新的要求。我结合学习和贯彻,谈谈传统出版数字化的关键与产业方向。
重视四种数字化趋势
1995年美国麻省理工学院教授尼葛洛·庞帝出版的《数字化生存》,已经被时间所证实。20多年了,数字化已经成为一股席卷全球的大潮,改变了人类传统生活方式,还重构了全球商业生态系统,旧的生态体系不断分崩离析,而新的生态系统不断成长出来。展望新的数字化浪潮,有4种情况值得重视:
一是虚拟成为新的技术主流。我们每个人都只坚信自己眼里看到的东西,这是人类的基本逻辑。但是,人工智能和VR、AR技术打破了这个逻辑。2017年10月26日,美国著名的机器人公司汉森生产的“女性”机器人索菲亚获得沙特阿拉伯政府授予的公民身份,成为人类历史上第一个获得公民身份的机器人。索菲亚的大脑里存储了62种面部表情,能识别人类面部、理解语言,能记住与人类的互动,并能与人进行眼神接触。
二是共享成为新的经济形态。工业革命以来的这300年,所有的资本都归资本家所有。可是,在互联网时代,共享单车、淘宝、滴滴打车等新的经济形式出现,资本家独占生产资料这一现实正在被掀翻。以租代买的形式使得资源可以复制,不仅改变了大工业时代的资本的独占性,还具有很强的公共服务共赢共享的色彩。
三是移动支付成为新的支付方式。2017年5月,“一带一路”沿线的20国青年评选出了中国的“新四大发明”:高铁、支付宝、共享单车和网购。随后,麦肯锡发布的名为《数字中国:提升经济全球竞争力》的报告指出,2016年中国互联网用户数达到7.31亿,超过了欧盟和美国的网民总和;超过6亿的中国手机用户使用移动支付,中国已成为全球最大的移动支付市场,移动支付交易额相当于美国的11倍。
四是数字经济成为新时代经济增长的主要动力源泉。腾讯研究院数据表明,2016年我国数字经济总体量达到22.77万亿元,是仅次于美国的世界第二大数字经济体,在国民经济中的占比达到30.61%。我国的计算机出货量、手机出货量、网民数量和网络零售额保持世界第一位。在全球市值最高的15家互联网公司中,中国占6席;在全球十大市值“独角兽”企业中,中国占一半。麦肯锡报告中最新的“中国行业数字化指数”也表明,2013年,美国的数字化程度是中国的4.9倍,到2016年已缩小到3.7倍。
数据是当前出版业最大的资产
在这几个趋势中,我们都可以看到,无论是人工智能、共享经济、移动支付还是数字经济,都离不开大数据作为基本前提。正是这些大数据的存在,使得机器人产品、共享产品、支付体系的创新等成为可能。我们再看一个行业内的案例。2004年谷歌启动了它历史上的第一个“探月”项目,即数字图书馆计划,准备将全世界一共1.2亿种图书进行扫描,转化成为PDF格式的数字化资源。它和密歇根大学、哈佛大学、斯坦福大学、牛津大学图书馆以及纽约公共图书馆、许多其他图书馆系统都订立了合约,并且短短10年内扫描了大约2500万册图书,总共花费了近4亿美元。但是这个野心勃勃的计划失败了。因为在海量的、碎片化的、个性化的需求面前,内容资源的数字化不是关键,关键的是内容资源的数据化。数字化是把模拟数据转换成用0和1表示的二进制码,而数据化则是把现象转变为可制表分析的量化形式。一切皆可数据化,DATA的拉丁语本意是“已知”和“现实”。我们可以把一切都看成是数据存在。它们过去是默默无闻的,因为没有数字化、云计算。在云计算、互联网的条件下,它们神通广大起来。
对于出版而言,数据包括:第一,营销数据。如发行量、购买人群等,主要提供用户消费行为分析。第二,生产数据。如首印数、开本、定价等,主要是提供产品的外部基本信息。但是,还有一种最关键、最本质、最有用的数据,那就是内容本身所蕴含的全部知识数据,也就是,“内容即数据”。
就出版产业而言,近10年的发展,第一波是转企改制驱动,第二波是上市融资驱动,第三波是数据驱动。从这个意义上讲,内容不再是一种传统意义上的资源,而是一种大数据时代意义上的数据资源。传统的数字内容是单一文本、语义固定的、静态呈现的,适合整体浏览和阅读,不可自由组合,采取关键词搜索,遵循整体范式逻辑;而数据资源是开放文本、语义多元的、动态呈现的,适合碎片化和个性化需求,可以随机抽取,采取语义搜索,遵循个体范式逻辑。传统的内容是一种产品,而数据资源是一种资产;传统的内容资源是一次投入、一次消耗的,而数据资源是一次投入、循环使用的;传统的内容资源是算术级增值,而数据资源是几何级增值。
在传统时代,内容是出版业最大的资产;而大数据时代,数据是出版业最大的资产。出版业要努力做大数据资源规模,做大数据资产规模,做大数据增值规模。
中版集团正形成多种专业数据库
近年来,中国出版集团正在形成古籍、辞书、翻译、百科学术文化、音乐、美术、法律等专业数据库,同时集团资源总库的建设已拥有20多万种资源。我举几个例子:
“经典古籍数据库”。中华书局经过3年的开发,已上线古籍1200多种、10亿字。2017年实现升级改造:第一,建立“传统文化大数据中心”,未来3年实现5万种古籍、150亿字的数据化。第二,依托大数据中心,开发古籍、善本、工具书、论著4个数据库。第三,依托大数据中心,一是以众筹分包的形式向大众组稿,二是对古籍整理进行自动标点、注释、校勘、翻译,三是采取数字平台+按需印刷的方式进行出版。
语言文字知识服务平台。商务印书馆以300种工具书和500多种语言文字图书,为中小学生提供了学习平台。它以字词所涵盖的丰富内容,通过可读、可视、可听的方式,构建生动形象、触类旁通、激发思考的知识学习体系:一是纸本到线上的产品服务,目前已上线《新华字典》APP;二是数据库服务,可针对不同需求开发不同数据库;三是多语种学习;四是与华为、腾讯、百度、搜狗、科大讯飞合作,提供权威的语言文字基础数据。预计在5年内实现个人付费用户达到60万人/年、累计150万人次,机构用户累计达到1400家,APP累计销售157.5万份,数据包产品用户最高达到500万人/年。
中读。汇集杂志、自媒体、书籍等内容数据,通过大数据的深度解析,提取内容兴趣、知识点、阅读习惯、阅读互动行为等标签,对用户的知识需求进行精准画像,为用户提供更精准的内容。同时,通过互联网化的手段,不断聚集内容、用户及需求,形成内容生产传播大数据生态。
在线音乐教育平台。以音乐大数据为基础,采取“开发区招商模式”,吸引国内外音乐培训机构入驻,以众包众筹方式,提供各种音乐学习产品和服务。同时,通过语音识别技术,导入名师资源,提供测试、问诊及解决方案,规划未来几年吸引5万名商家入驻,积累2000万用户。
易阅通平台。一是实现数据资源的海量聚合。目前已上线外文电子书36万种、数字期刊1.35万种,中文电子书39万种、数字期刊3700多种,有声书10.5万集,开放获取资源5.4万种。二是实现对图书馆由纸本提供向数据内容提供商转变。三是易阅通打通了国内外4万多家图书馆和100多万个人用户的渠道,并在100多个国家开通了72小时直供的按需印刷网点。
译见跨语言大数据。一是构建起了全球最大规模的语言资源大数据,其中双语平行语料累计超过48亿句对,仅次于谷歌,中英平行语料规模全球最大;二是构建了全球最大规模的多语文本大数据,采集数据源超过2000万个,日更新超过3000万篇新闻和5亿条社交媒体数据,数据总量达到2PB,其中新闻数据量超过200亿篇,覆盖60多种语言和100多个国家;三是领先的跨语言搜索技术和基于知识图谱的语义搜索技术,构建起了新闻、企业和科技等领域知识图谱。
大数据再大、再神也是工具
身处大数据时代,我对大数据的认识是:第一,大数据无处不在,古已有文,云计算激活了它的蓬勃生机;第二,大数据的核心是预测,特点是大而全,是样本即整体,因而放弃精确,拥抱混杂,反而更加精确;第三,大数据的关键在相关关系,一旦掌握了量化的相关性,就掌握了预测的钥匙;第四,大数据再大、再神也是工具,传统出版可以在学习中掌握主动。
在数据驱动的第三波产业发展中,我们也更清晰地认识到:第一,新时代,主要矛盾,高质量发展,底层的最基本问题是创新,而创新的决定性因素是科技。第二,传统出版本身还有自己的发展空间,但中心正在转移,融合发展将逐步成为主旋律。第三,在数字化网络化的浪潮中,传统出版商的要害是内容数据,前提是内容的数据化,关键是内容数据的集成,核心是内容数据的研发应用,而出版数字化的前景是内容数据的提供商、研发商和服务商。第四,在数据化中出版将真正成为内容的提供、服务和创新主体。内容数据的规模,它的资产化、集约性、增值潜力将越来越代表着出版新业态的方向。总之,内容数据,对我们的数字化来说是“一”的一切,是一切的“一”。
我们力图构建一个以数据为核心、以出版新业态为导向的由内向外、逐步延展的大数据现代知识服务体系。从目前发展看可描述为4个圈层:一是基础层,即数据资源平台,也是知识服务的前端,主要解决数字标准、资源供给问题,回答“数据从哪里来”。二是核心层,即知识服务的核心平台,主要提供不同领域的专业化知识服务,主要解决“数据生成了什么”,主要包括大众、古籍、工具书、百科、音乐、美术、动漫、法宣等多个知识服务平台。三是中间层,即电商平台,解决关联领域的交易机制问题,主要解决“数据如何交易”,主要包括综合运营、易阅通国际、艺术品、新华、大中专采选等多个平台。四是外围层,即大数据智能分析,属于知识服务的衍生领域,主要包括译云、新华物流大数据平台。
责任编辑:曹宇