浅谈自然语言的本质

浅谈自然语言的本质

从祖先谈起

  • 我们真的了解自然语言的本质吗?

现在我们穿越“现代人”的时代。
我们面前出现了一头大熊,我们要怎么告诉同伴“快躲开”呢?
“呀呀呀唔咕噜噜”这种模糊不清的声带振动就是最为原始的自然语言,同样的,“咕噜噜呀呀呀”就可能表示“我们拾起来这块石头去拍死它!”。

现在我们把这些古人换成当下炒的很火的人工智能,我们在大脑内“编程”,形成一段字符串,然后我们按一下我们的鼻子(编译运行按钮
随之开始用声带形成相应的结果:我们说话了。
程序员会非常熟悉这个过程:这不就是敲代码的日常嘛!

现在我们再偷一个超级牛的人工智能机器人过来,和它“正襟危坐”,再重复一遍刚才的过程
我们把我们的“代码运行结果”传输给了这个牛哄哄的铁皮玩意儿,它现在会做什么?
自然是反其道而行之
它想试图理解我们的代码结果,就要探寻到我们把“xxxx”(不明信号)编程了里面的这个xxxx。(毕竟人家机器人只会一元语言0101…之类的东西)
它将进行“还原”——
还原我们的代码段,然后找到我们编写代码的真正意图(并进行抽象、简化和分类),随之做出响应,将“响应”编写成相应的代码,编译运行生成字符串并通过它的声带(电磁学之类的云云)发出回应

正不正确就是另一回事了,之后再将数学模型扯上好好深究

人与人之间的沟通也是这个过程的反复进行,只不过我们的处理速度太快,加上早已习惯这个过程,习以为常的惯性思维阻碍了我们发现这个进程。

语言就是信息,信息就要编码解码,计算机就要编程**。
回归主题,自然语言的本质就是信息
为了避免有人钻牛角尖,特意在这里点出来,我们的自然语言是多元语言,计算机是一元语言,并不能完全等同,这只是一个极度抽象的例子罢了。
若要让其等同,还需要大量的数据处理和分析。后续再谈论。

  • 信息的一些常用特性?
  1. 翻译达成的条件:不同文字系统在记录信息上的能力是等价的。
    (为“反其道而行之”提供了基础)

解释一下:
文言文可以描述“秦王绕柱走”这件事,新课标英语同样也能。就算新课标英语失传了,我们也可以根据文言文描述的“秦王绕柱走”来解读遗留的新课标英语问题。
顺带一提,语言的学习也是编码和解码的过程 。(一旦领悟到本质和内在的东西,突飞猛进只是必然结果)

  1. 信息的冗余是信息安全的保障。
    (此安全非彼安全,此处安全侧重是指防止信息的丢失,以及有利于反其道而行之的进行)

解释*2:比如说,“我喜欢放纵”(努力适应丧文化的时潮 )这句话可以有很多解释:“我喜欢旷工”、“我喜欢熬夜上网”、“我喜欢看些禁忌的东西”等等,一旦加上语境,信息就是绝对的、不容误解的。如果当事人忘了自己说这句话想要传达的意思,就可以提及语境进行推测,选取概率最大的信息得出结论。如果没有语境,那只能当作垃圾信息丢进垃圾箱了。
另外还有一个例子,可以百度犹太学者抄写《圣经》避免错误率的方法。(类似于增添了“验证码”)

  1. 最短编码原理。
    (在通信时,如果信道较宽,信息不必压缩可以直接传达,反之,传送前需要尽可能的压缩并伴随着后续的解压。)

解释*3:假如我生在蔡伦造纸之前,还得被逼着上课+打笔记,我觉得我会以头抢地尔尔…之前是要把文字刻在竹子龟壳石头的!一个字刻半天,鬼才会絮絮叨叨半天在上面刻一堆废话!正因为它的信道窄,所以字数也极少,非常简洁、难懂(正如第二条,也容易丢失 。有时候觉得古语学家也挺惨的,一个字找半月

信息的特性和纵然语言的特性几乎完全吻合,侧面印证了第一个小标题探讨的问题:语言的本质是信息。

了解了本质就要进行处理,欲知后事如何,且听下回分解。
浅谈自然语言的本质

附上圣经抄本图。(往往每行每列都会有数字用来纠错。)