考拉阅读CEO赵梓淳：用AI赋能儿童知识服务和阅读教育

空城旧人

2019-09-17 02:01:50

9月6日，以“探索·破局”为主题的“2019年度知识服务行业峰会”在北京望京凯悦酒店举办，考拉阅读CEO赵梓淳受邀出席并发表主题演讲。他表示，考拉阅读根据孩子阅读能力的差异，实行分级阅读，并自适应的推荐读与听的内容。再通过AI赋能，帮助中国孩子实现更有针对性的知识服务与阅读教育。

什么是分级阅读？赵梓淳表示，就像给孩子买鞋一样，我们要知道孩子脚的大小，也要知道鞋的尺码，而阅读也是一样，要根据孩子能力的不同有针对性地选择书本进行阅读。

“考拉阅读有点像儿童版的今日头条，今日头条是根据我们的阅读兴趣推荐相关的阅读内容、视频内容，我们根据孩子的阅读能力，自适应的推荐阅读的内容与听的内容，有长篇、短篇以及音频的东西。” 赵梓淳说。

据悉，西方世界的分级阅读已经有几百年的时间，而中国却在近些年才出现，其难点主要在于，不同于西方印欧语系繁复的格标记语法系统，汉语语法过于灵活、意合语义相当复杂等特点，让分级阅读的技术实现面临严峻挑战，要想完成规模化的解决方案只能依赖于现代科学技术的发展。

考拉阅读历时两年，构建起全球最大的中文分级底层语料库，结合语言学，测量心理学以及深度神经网络为代表的前沿AI算法解决了这一难题。

微信图片_20190906162822.jpg

对于教育行业，赵梓淳认为数据是相对比较重要的，“整个教育领域没有技术壁垒，优势还是在于数据的累计”，考拉阅读可以将全省范围内学生的历年数据进行纵向比较，也可将不同地区和学校的数据进行横向比较。

对于行业竞争，赵梓淳表示，行业内有竞争者是好事，大家可以一同建立生态，完成对用户的教育，考拉阅读也会学习其他竞争者的优点，做到更好。

目前，考拉阅读的总用户已经达到1400万，占据80%的K12阅读市场份额，累计阅读字数3935亿，累计阅读时长3456年。

本次峰会由猎云网主办，有书联合主办，锐视角、猎云资本、猎云财经、企业管家协办，云集顶级专家、创业精英及投资机构等各行各业领军大咖，邀请数十位资本大咖与创业精英把脉行业新风向，众从业者将解读30+行业典型应用案例，寻找学习2.0时代的新风向。

首先非常感谢猎云网与有书联合主办提供这样的机会，可以跟大家一起分享一下考拉阅读用AI赋能儿童知识服务和阅读教育。

成年人没有能力的层级，但是对于孩子来讲，一个5岁的孩子与10岁的孩子能力差异非常巨大。在这样巨大的差异之下，如何给中国的孩子提供自适应、有针对性的阅读教育与知识服务？接下来是考拉阅读的分享。

考拉阅读成立于2016年底，是做分级阅读的。很多人可能不太了解分级阅读的概念，我举一个不太恰当但是容易理解的例子，我们给孩子买鞋，我们需要知道孩子脚的大小，需要知道鞋的尺码，才能买到最合适的鞋子，但我们对于孩子的阅读教育却是一样的教育。不同的孩子，不同的教育背景，能力差异是非常巨大的，如何给每个孩子找到适合他的阅读内容，这是我们在做的事情。

分级阅读这个概念提出来的时间已经非常长了，在西方世界里面大概有几百年的时间，可以很精准地把每个小孩的英文阅读能力测出来，并且有大量的儿童读物是以分级阅读的标准进行标注的。像我们在亚马逊买书的时候，书后面会有分值，告诉你哪本书适合你的孩子，并且证明了分级阅读有利于提升孩子的阅读能力，至少达到1.5倍以上。

在中国，分级阅读之前是没有的，古代的中国孩子也是从四书五经开始读起，到现在有些改变，孩子按照岁数读书，这是0-5岁的书单，这是5-8岁的书单，但是忽略了孩子的个体差异，导致孩子没有那么大的兴趣。分级阅读在西方标准有很多，有GE、A-Z，中国孩子的阅读量也低于西方孩子。

微信图片_20190906170652.jpg

什么样的情况导致今天这样的局面？为什么中国的分级阅读迟迟没有发展。中文跟英文不太相似，属于不同语系，中文的意合语义表达非常灵活。大家都知道英文的基础单位是26个字母，但是中国的基础单位是汉字，我们常用的汉字有3500个，在康熙字典里面收录的汉字有8万多个，分析中文的时候往往需要更庞大的语料库，所以难度倍增。另外，英文有天然的分词在，但是在中文连标点符号都是白话文运动之后引进到中国的。其实对于普通孩子的理解，怎么去分词，分词不同，理解不同，分词也给中国分级阅读带来很大的难度。另外，句法结构等种种的不同点，使中文的分析难度增加，有点类似于国际象棋与围棋，国际象棋在很久之前就战胜了人类的大师，但是AlphaGo最近才战胜了人类的棋手。

我先讲一下英文是怎么处理阅读难度的，主要由两部分构成，一个是词频，一个是句长，词频很简单，是词出现的频率，比如说同样表现好看的意思，这个词出现的频率高，就相对简单。另外一个是句长，英文相对比较简单，把这两个进行拟合，通过数学公式进行表达。像刚才讲的词频，在中文里面不太适用，比如说非洲鬣狗，鬣可能写起来比较复杂，但是并不影响我们去理解这个词，我们只需要理解是一个狗。单纯的按照词频，即使出现的频次比较低，但是理解程度不一样，这都是中文与英文的差距。我们最后提取了上百维的特征，将其进行拟合，有点像AlphaGo解决围棋问题，AlphaGo输入的是海量的对弈棋谱，输出的是每一步下棋的概率，我们精标了几亿字的语料库，输入是这些，输出是什么呢？输出是结构化的特征，训练的是认知语义理解网络，通过这样的方法得到文本值，现在任何一个文本输到系统里面，可以得到200-1300ER的文本难度值，我们在公司成立前一年多时间都在做这样的事情。

刚才讲的是测文本的，我们都知道给孩子选鞋，需要测脚的大小。另一方面需要测孩子的能力，怎么把孩子的能力测出来，这是非常大的难题。大家都知道中文的考试，没有信服非常高的考试，大家说高考，例如今年的高考语文考了130分，明年考了120分，并不见得120分比130分差，有可能那一届题难。西方的考试可以进行横向纵向的比较，比如说托福什么的，五年内成绩都是有效的，可以进行横向比较。所以我们做了学生常模，把中国学生能力量化出来，进行横向纵向比较，现在测了上千万的小学生，遍布中国31个省，可以及时通过自适应学习，得到孩子在200-1300ER的能力。例如一个孩子能力在600ER，应该看什么样的文本？他可能适合看的文本在500-800ER，给孩子找到适合他的文字。我们想要实现AI赋能，给中国孩子提供更有针对性的知识服务与阅读教育。

这是测评的界面，这是真题，这是我们的产品。刚才讲的都是底层的算法，基于这套算法，我们做出了一套产品，现在在全中国有31个省市都在使用。说起来有点像儿童版的今日头条，今日头条是根据我们的阅读兴趣推荐相关的阅读内容、视频内容，我们根据孩子的阅读能力，自适应的推荐阅读的内容与听的内容，有长篇、短篇以及音频的东西。

考拉阅读在前一年半的时间内，都在做底层算法与底层常模的搭建。去年与今年开始大量跟各地省市合作，所以在比较短时间内用户有比较大的增长，有1400万的用户。这是我们的一些数据，现在累计阅读次数已经达到3935亿次，相当于中国孩子在我们平台上读了50万本《红楼梦》。

我们进到学校，深入到线下的时候发现了很多很多问题，每个人都觉得读书是非常简单的事情，是门槛非常低的事情，不同于现在北京非常红火的非素质教育，比如说橄榄球教育、编程教育、马术教育，这些相对比较高端。我们深入到线下测了上千万个孩子之后发现触目惊心的事情，孩子的阅读能力差异非常大。我们测的甘肃省韩集镇的孩子，父母外出打工，基本上都是留守儿童，3年级孩子的阅读、相当于中国孩子一年级的平均阅读水平，这样的差异我们觉得震撼。像我们之前去云南省保山捐献的时候，我们跟他们交流的时候看到触目惊心的事实与情况，甚至偏远地区的老师水平都没有那么尽如人意。中国现在的教育信息化发展是日新月异的，我们去偏远的山区硬件设施非常好，但是老师连普通话都说不好，老师甚至没有看过课外书。我们去保山的时候，当一个班集体朗诵一篇文章时，他们推荐了一个小朋友说是最厉害的，读的时候磕磕绊绊，读不下来。所以有AI赋能，这些孩子可以与北京一线孩子有一样的教育，是非常有意义的。

基于此，我们走到了线下三四线城市，平台上大概有将近200万的小学生是四线与农村孩子，我们每天给他们提供阅读教育与产品，我们有很多偏远地区的孩子是免费送产品的，VIP一年是298元。有小朋友给我写了一封信，很触动我，他说，爸爸妈妈不在我身边，考拉阅读陪伴了我每个晚上。大量的农村孩子并没有接收到优质教育的能力，这是AI赋能带来的价值与意义。

之前著名的儿童文学作家秦文军说过一句话，教育应该是一扇窗，推开它应该满是阳光与鲜花，它可以给小孩子带来快乐和自信。可以给小朋友带来阳光与鲜花，快乐和自信，这是我们一生的使命。

谢谢大家！