"我所说的一切都可能是错的! 即使你赞同我的观点,你的生活也不会因此有任何改变! 除非——你采取了相应的行动。 (这是书先生在简书的第33篇文章。本文约3300字,请花8分钟来阅读。)"

linguistats | 语言学告诉你为什么微信要做小程序

我所说的一切都可能是错的!
即使你赞同我的观点,你的生活也不会因此有任何改变!
除非——你采取了相应的行动。


(这是书先生在简书的第33篇文章。本文约3300字,请花8分钟来阅读。)

引子

今天大家期待已久的微信小程序上线了。作为一个应用工具控,书先生自然也是要把玩一番。

关于张小龙为什么要做小程序,从这个消息放出之日起,各种版本的解读不断。不过,在书先生看来,已有的所有解读都没有说到事情的本质,因为现有的各种解读都是在商言商,没有上升到哲学的高度。

但是,几乎所有的解读都认为,小程序最适用的是低频的应用场景,也符合张小龙关于小程序用完即走的设计理念。这一点,书先生是认同的。而且,揭开张小龙推出小程序秘密的关键就在“低频”两个字上。

虽然几乎所有的解读都认同小程序适用于低频的应用场景,但却没有一种解读认为这是优点。然而,在书先生看来,“低频”应用场景才是小程序真正的杀手锏——小程序的整个设计理念都是为了“低频”服务的。张小龙要的就是低频,这一点所有人都看出来了。

可是为什么?为什么当所有应用都巴不得用户每天打开自己100次时,张小龙要瞄准“低频”的应用场景?这一点,看出来的人就少了。

书先生看出来了,因为书先生是学语言学的,专长是文本分析。你没有看错,微信做小程序背后的秘密和语言学有关。有点怀疑?那且听我慢慢道来。

先来谈谈武侠小说

书先生从小学三年级开始看武侠小说,到初中毕业,金庸、古龙、温润安等的几乎所有小说都已看过。每个作家都有自己的特色,无论是情节上还是用词上。

在情节上,金庸的小说像一棵大树,先从一个小苗开始,越散越开、越散越开,最终枝繁叶茂,不过都来自于同一个大树桩;古龙的小说像一个迷宫,你以为你看到了出口,却总难免在里面打转,直到小说结束;温润安则是以详细的描述打斗情节见长,估计这和温先生本身是个武术家有关。

小说人物的命运也有很鲜明的特色:金庸小说里的人物往往会有一连串的奇遇,不用怎么费劲就可以练成绝世武功(典型的例子就是段誉);古龙小说里的主角功夫都是苦练出来的,不过古龙一般不会写练功的部分,相反,主角一出场就几乎是天下无敌(典型的例子就是李寻欢);温润安小说里的人物形象类似于古龙小说里的人物形象,不过与古龙小说里英雄的落寞孤寂不同,温瑞安小说的英雄往往是拉帮结派的(典型的例子就是四大名捕)。

然而,让书先生最感兴趣的还是他们的用词。如果你把古龙的全集看过好几遍,你一定会对这个词深有感触——“岂非”。这个词的意思是“难道不”,很少人用,但是古龙用得很多。我随意从古龙的《风铃中的刀声》中复制几句,大家感受一下:

——在人类的生命历史中说来,死亡岂非通常都是一种没有人能够猜测得到的诡秘游
戏。
—痛痛快快的活,痛痛快快的死,这岂非正是多数人的希望?
一个人在临死之前还要被人隐瞒欺骗,岂非是件很不公平的事。
这个世界上岂非也有很多人像老马一样,总是不懂得那些聪明人的原则,总是不会吃
人,只会吃草。
一个以“刀”为命的人,身边如果没有带刀,岂非就好像一个大姑娘没穿衣服一样。
这当然不是真的,这是谎话,可是谎话岂非总是能让人愉快的,这个世界上又有几个女
孩子不喜欢听谎话的?

有意思的是,一般古龙用岂非就意味着他要发点议论了。然而,如果你只读古龙的小说,你不会对“岂非”有特别的感受。只有当你同时读过很多不同作者的小说,你才能感受出“岂非”在古龙小说中的特殊之处——它是一个通常低频但在古龙小说里高频的词

古龙用“岂非”是如此的频繁,以至于有段时间当书先生沉迷于古龙小说时,张口都离不开“岂非”两个字:“如果能活在古龙的小说里,岂非人生快事。”古龙的小说很多都不是他亲做,而是由他徒弟丁情代笔。不过据说小李飞刀系列是古龙亲自写的,而这个系列使用“岂非”非常频繁。所以,当年书先生读到一本古龙小说“岂非”用得很少的时候,基本上就可以判定那本小说是他人代笔的。

特色的统计学定义

凡同时看过金庸、古龙、温瑞安小说的人都会承认,他们的小说各有特色。特色的意思就是有独特的地方,可是独特是个很模糊的概念,似乎只是一种感觉。今天书先生就要为“特色”下个精确的统计学定义。

如果一个样本集(sample set)存在元素X,其在样本集中的出现概率显著高于其在全集(universal set)中出现的概率,则称该元素X为样本集的特色(special feature)。

如果把古龙小说里的所有词组成一个集合A,以世界上所有武侠小说(包括古龙小说在内)里的词组成的集合为全集U,则“岂非”就是A的一个特色。

ESP(English for Specific Purposes,专门用途英语)的研究中用这个方法来自动找出专有名词。所谓专有名词,就是一个专业特有的名词,也即特色。按照上面的定义,我们只需找出在给定专业文本中出现频率显著高于在通用大型语料库中出现频率的词,这些词大概率就是专有名词。

举个例子。现在有100篇建筑工程的论文,大约100万字。我们的任务是找出里面的所有专有名词。当然,我们都是懒人,不想人工去找,想让计算机自动去做。这时候,我们就需要一个大型的通用语料库,越大越好,比如像COCA那样5亿词左右的就不错。现在我们只需要计算哪些词在那100篇论文中出现的概率显著高于其在通用语料库出现的概率。一般采用卡方检验或者计算对数似然率两种统计方法来实现这个目的。

“特色”的语言学应用

这个很简单的原理在语言学上有非常广泛的应用。如果我们已知某些文本属于同一类,那么我们就可以找出这些文本的“特色”。如果下次我们在另外一个观察文本中发现了这些特色,就可以判断这个文本属于那个类型。

比如,我们搜集到了很多人说谎的文本,然后计算出了说谎的文本特征。下次,我们就可以通过一个人说的话是否符合这些特征来判断这个人是否在说谎。研究发现,说谎者会更多的使用人称代词来拉开自己和所指之人的距离,比如比尔·克林顿的经典谎言:

I did not have sex with that woman.

that woman当然是指莱温斯基。克林顿避免直呼其名,以拉开自己和她的距离。

研究还发现,说谎者更倾向于用完整形式来回答一般疑问句。

Question: Were you alone then?
一般回答:Yes.
说谎者回答:Yes, I was alone then.

上述两个例子就是谎言文本的特色,也即谎言文本区别于非谎言文本的特征。

这和微信小程序有什么关系?

看到这里,有的朋友已经明白了,有的朋友可能还有疑问:“特色”的统计学定义的确在语言学上有广泛的应用,可这和微信小程序有什么关系?

要回答这个问题,首先我们必须明白小程序所谓的低频应用场景是个相对概念。这里的低频,是指通常来说,大家用的频率都不高。然而,当大家用得都不多,而你用得特别多的时候,这就是你的“特色”了。

腾讯通过微信已经把人分好了类,各种分类都可能有,按年龄的,按职业的,按性别的,这就相当于我们已知某些文本属于同一类了。但是,每一类人到底在行为上有什么不同的特征呢?这是腾讯想知道的,这是精准投放广告的前提。然而,腾讯缺乏这些人群的行为数据,而这是微信本身接触不到的,因为这些数据分散在各个应用当中。

微信想要这些行为数据,就必须让这些数据流经自己的通道。然而,微信不需要那些高频的行为,因为高频行为都是趋同的,不具备区别意义。于是,微信推出小程序,让其他应用的数据进入自己的通道。同时通过设计,使得小程序更适用于低频应用场景,以搜集到具有区别性特征的行为数据。

今天的文章提到了武侠小说。虽然现在看武侠小说的人已经很少了,不过书先生还是想推荐一个武侠小说作者和他的作品。这个人的作品无论是文采、立意、谋篇布局都甩金庸几条街。可惜他的作品不多,而且不知道为什么,名气不大。我只知道这个人笔名叫凌霄子,他出版过两部小说,一名《龙凤英雄》,另一名《雪山英雄》,是姊妹篇。书先生只看过《龙凤英雄》,震撼至今。《雪山英雄》尚无缘拜读,因为实在是找不到,乃书先生平生憾事。
书先生第一次读《龙凤英雄》,惊为天书。情节构思极其宏大,人物关系异常复杂,引经据典,信手拈来。全书几十章,章节名皆有出处,不是出自古诗词,就是出自名著名言,偏偏又与章节内容贴切至极,作者功底可见一斑。
书先生看金庸的时候,希望自己也能成为一名武侠小说作家,写出金庸那样的小说。然而,当书先生读过《龙凤英雄》后,立马打消了当小说家的念头——因为觉得无论如何写不出这样的作品来。这种绝望感,相信每一个认真读过乔姆斯基和韩礼德著作的语言学学生都曾经体会过。
让你感到绝望的才是真正的高手。

作者 万卷书和万里路

0   0   0   0      
0 回帖