考拉阅读CEO赵梓淳:用AI赋能儿童知识服务和阅读教育

空城旧人

2019-09-17 02:01:50

9月6日,以“探索·破局”为主题的“2019年度知识服务行业峰会”在北京望京凯悦酒店举办,考拉阅读CEO赵梓淳受邀出席并发表主题演讲。他表示,考拉阅读根据孩子阅读能力的差异,实行分级阅读,并自适应的推荐读与听的内容。再通过AI赋能,帮助中国孩子实现更有针对性的知识服务与阅读教育。

什么是分级阅读?赵梓淳表示,就像给孩子买鞋一样,我们要知道孩子脚的大小,也要知道鞋的尺码,而阅读也是一样,要根据孩子能力的不同有针对性地选择书本进行阅读。

“考拉阅读有点像儿童版的今日头条,今日头条是根据我们的阅读兴趣推荐相关的阅读内容、视频内容,我们根据孩子的阅读能力,自适应的推荐阅读的内容与听的内容,有长篇、短篇以及音频的东西。” 赵梓淳说。

据悉,西方世界的分级阅读已经有几百年的时间,而中国却在近些年才出现,其难点主要在于,不同于西方印欧语系繁复的格标记语法系统,汉语语法过于灵活、意合语义相当复杂等特点,让分级阅读的技术实现面临严峻挑战,要想完成规模化的解决方案只能依赖于现代科学技术的发展。

考拉阅读历时两年,构建起全球最大的中文分级底层语料库,结合语言学,测量心理学以及深度神经网络为代表的前沿AI算法解决了这一难题。

微信图片_20190906162822.jpg

对于教育行业,赵梓淳认为数据是相对比较重要的,“整个教育领域没有技术壁垒,优势还是在于数据的累计”,考拉阅读可以将全省范围内学生的历年数据进行纵向比较,也可将不同地区和学校的数据进行横向比较。

对于行业竞争,赵梓淳表示,行业内有竞争者是好事,大家可以一同建立生态,完成对用户的教育,考拉阅读也会学习其他竞争者的优点,做到更好。

目前,考拉阅读的总用户已经达到1400万,占据80%的K12阅读市场份额,累计阅读字数3935亿,累计阅读时长3456年。

本次峰会由猎云网主办,有书联合主办,锐视角、猎云资本、猎云财经、企业管家协办,云集顶级专家、创业精英及投资机构等各行各业领军大咖,邀请数十位资本大咖与创业精英把脉行业新风向,众从业者将解读30+行业典型应用案例,寻找学习2.0时代的新风向。

首先非常感谢猎云网与有书联合主办提供这样的机会,可以跟大家一起分享一下考拉阅读用AI赋能儿童知识服务和阅读教育。

成年人没有能力的层级,但是对于孩子来讲,一个5岁的孩子与10岁的孩子能力差异非常巨大。在这样巨大的差异之下,如何给中国的孩子提供自适应、有针对性的阅读教育与知识服务?接下来是考拉阅读的分享。

考拉阅读成立于2016年底,是做分级阅读的。很多人可能不太了解分级阅读的概念,我举一个不太恰当但是容易理解的例子,我们给孩子买鞋,我们需要知道孩子脚的大小,需要知道鞋的尺码,才能买到最合适的鞋子,但我们对于孩子的阅读教育却是一样的教育。不同的孩子,不同的教育背景,能力差异是非常巨大的,如何给每个孩子找到适合他的阅读内容,这是我们在做的事情。

分级阅读这个概念提出来的时间已经非常长了,在西方世界里面大概有几百年的时间,可以很精准地把每个小孩的英文阅读能力测出来,并且有大量的儿童读物是以分级阅读的标准进行标注的。像我们在亚马逊买书的时候,书后面会有分值,告诉你哪本书适合你的孩子,并且证明了分级阅读有利于提升孩子的阅读能力,至少达到1.5倍以上。

在中国,分级阅读之前是没有的,古代的中国孩子也是从四书五经开始读起,到现在有些改变,孩子按照岁数读书,这是0-5岁的书单,这是5-8岁的书单,但是忽略了孩子的个体差异,导致孩子没有那么大的兴趣。分级阅读在西方标准有很多,有GE、A-Z,中国孩子的阅读量也低于西方孩子。

微信图片_20190906170652.jpg

什么样的情况导致今天这样的局面?为什么中国的分级阅读迟迟没有发展。中文跟英文不太相似,属于不同语系,中文的意合语义表达非常灵活。大家都知道英文的基础单位是26个字母,但是中国的基础单位是汉字,我们常用的汉字有3500个,在康熙字典里面收录的汉字有8万多个,分析中文的时候往往需要更庞大的语料库,所以难度倍增。另外,英文有天然的分词在,但是在中文连标点符号都是白话文运动之后引进到中国的。其实对于普通孩子的理解,怎么去分词,分词不同,理解不同,分词也给中国分级阅读带来很大的难度。另外,句法结构等种种的不同点,使中文的分析难度增加,有点类似于国际象棋与围棋,国际象棋在很久之前就战胜了人类的大师,但是AlphaGo最近才战胜了人类的棋手。

我先讲一下英文是怎么处理阅读难度的,主要由两部分构成,一个是词频,一个是句长,词频很简单,是词出现的频率,比如说同样表现好看的意思,这个词出现的频率高,就相对简单。另外一个是句长,英文相对比较简单,把这两个进行 拟合,通过数学公式进行表达。像刚才讲的词频,在中文里面不太适用,比如说非洲鬣狗,鬣可能写起来比较复杂,但是并不影响我们去理解这个词,我们只需要理解是一个狗。单纯的按照词频,即使出现的频次比较低,但是理解程度不一样,这都是中文与英文的差距。我们最后提取了上百维的特征,将其进行拟合,有点像AlphaGo解决围棋问题,AlphaGo输入的是海量的对弈棋谱,输出的是每一步下棋的概率,我们精标了几亿字的语料库,输入是这些,输出是什么呢?输出是结构化的特征,训练的是认知语义理解网络,通过这样的方法得到文本值,现在任何一个文本输到系统里面,可以得到200-1300ER的文本难度值,我们在公司成立前一年多时间都在做这样的事情。

刚才讲的是测文本的,我们都知道给孩子选鞋,需要测脚的大小。另一方面需要测孩子的能力,怎么把孩子的能力测出来,这是非常大的难题。大家都知道中文的考试,没有信服非常高的考试,大家说高考,例如今年的高考语文考了130分,明年考了120分,并不见得120分比130分差,有可能那一届题难。西方的考试可以进行横向纵向的比较,比如说托福什么的,五年内成绩都是有效的,可以进行横向比较。所以我们做了学生常模,把中国学生能力量化出来,进行横向纵向比较,现在测了上千万的小学生,遍布中国31个省,可以及时通过自适应学习,得到孩子在200-1300ER的能力。例如一个孩子能力在600ER,应该看什么样的文本?他可能适合看的文本在500-800ER,给孩子找到适合他的文字。我们想要实现AI赋能,给中国孩子提供更有针对性的知识服务与阅读教育。

这是测评的界面,这是真题,这是我们的产品。刚才讲的都是底层的算法,基于这套算法,我们做出了一套产品,现在在全中国有31个省市都在使用。说起来有点像儿童版的今日头条,今日头条是根据我们的阅读兴趣推荐相关的阅读内容、视频内容,我们根据孩子的阅读能力,自适应的推荐阅读的内容与听的内容,有长篇、短篇以及音频的东西。

考拉阅读在前一年半的时间内,都在做底层算法与底层常模的搭建。去年与今年开始大量跟各地省市合作,所以在比较短时间内用户有比较大的增长,有1400万的用户。这是我们的一些数据,现在累计阅读次数已经达到3935亿次,相当于中国孩子在我们平台上读了50万本《红楼梦》。

我们进到学校,深入到线下的时候发现了很多很多问题,每个人都觉得读书是非常简单的事情,是门槛非常低的事情,不同于现在北京非常红火的非素质教育,比如说橄榄球教育、编程教育、马术教育,这些相对比较高端。我们深入到线下测了上千万个孩子之后发现触目惊心的事情,孩子的阅读能力差异非常大。我们测的甘肃省韩集镇的孩子,父母外出打工,基本上都是留守儿童,3年级孩子的阅读、相当于中国孩子一年级的平均阅读水平,这样的差异我们觉得震撼。像我们之前去云南省保山捐献的时候,我们跟他们交流的时候看到触目惊心的事实与情况,甚至偏远地区的老师水平都没有那么尽如人意。中国现在的教育信息化发展是日新月异的,我们去偏远的山区硬件设施非常好,但是老师连普通话都说不好,老师甚至没有看过课外书。我们去保山的时候,当一个班集体朗诵一篇文章时,他们推荐了一个小朋友说是最厉害的,读的时候磕磕绊绊,读不下来。所以有AI赋能,这些孩子可以与北京一线孩子有一样的教育,是非常有意义的。

基于此,我们走到了线下三四线城市,平台上大概有将近200万的小学生是四线与农村孩子,我们每天给他们提供阅读教育与产品,我们有很多偏远地区的孩子是免费送产品的,VIP一年是298元。有小朋友给我写了一封信,很触动我,他说,爸爸妈妈不在我身边,考拉阅读陪伴了我每个晚上。大量的农村孩子并没有接收到优质教育的能力,这是AI赋能带来的价值与意义。

之前著名的儿童文学作家秦文军说过一句话,教育应该是一扇窗,推开它应该满是阳光与鲜花,它可以给小孩子带来快乐和自信。可以给小朋友带来阳光与鲜花,快乐和自信,这是我们一生的使命。

谢谢大家!


版权声明:本文版权归原作者所有