天问一号降落火星,中华民族关于浩瀚苍穹的探索又远了一程。在这值得举国欢庆的时刻,过往关于火星文的种种科幻想象又更近了一步。
那么,假如火星文真的存在,在现有的技术条件下,我们该怎么解读呢?
字典大法:查表
若是对方对中华文明已早有研究,那么一本现成的字典是最好的工具。
比如地球语言中,中文英文的互译,很大程度上便是依赖字典。譬如“Mars”:
通过字典,即使没见过这个词,其中含义也可以一览无余。
这种策略在电信编码方面用得更加普遍。比如UTF8编码。UTF8编码可以理解为计算机所说的中英文,它将汉字转换为特定的二进制,然后通过查表进行还原。在谍战中大显身手的摩斯码则是声音表达的中文,每个长音和短音及其组合,都有对应的意思。
这方面近来最广为人知的创作,恐怕还是《长安十二时辰》中的望楼。这部优秀的作品创造了一组灯光传讯密码,实现了用光来讲述的中文。
这种方法也是计算机领域最容易实现的方法。从词典,便携电子辞典,到各类划词翻译设备,基于字典的方法已为文化沟通交流提供了许多便利。
猜词:结合上下文进行推断
如果这个词汇字典里没有,又该怎么办呢?
即使是阅读中文,也经常会遇到新的词汇,词典可能尚未收录。火星文与流行语便是例子。
先说火星文。在真正登上火星以前,我们把看不懂的文字称为火星文。其实它也是网络流行文化的一种。火星文长得奇特,直接查字典未必能够得到解答,比如:
砹吖,伱ぬ(哎呀,你好)
火星文中的几个字都不是正确的字,甚至混有其他符号,但是通过形近和同音的联想,我们还是能够猜出这句话本来的意思。
对程序而言,它可以内置一个字典,然后搜索出与现有的文字形近又音近的词汇,完成这项工作。比起直接查字典,难度只能说是略有提升。
结合语境猜测则是更高级的任务。比如外来词,酷,它是英文cool的翻译。
酷的原意是残忍,程度深;但是在新时代的语境下,它使用的句子发生了变化。如果能收集到大量的文本对比,程序就会发现,原本“这件事让人很想试试“,”让人觉得很好“,之类的表述,变成了”这件事很酷“。通过附近的词汇,程序可以大概推断出这个词的意思,这便是一类基于概率的翻译思路。
完全破译:多维空间上的抽象计算
如果完全没有信息,是一个全新的文字,收集到的资料又少,那才是真正的考验。
现有的文字系统有表音和表意两类;拿到一份古文字,首先要确定它是表音还是表意;这点可以通过观察符号的数量,做大致的推测。一般表音的符号数要低于表意的。
然后通过符号组合出现在一起的概率,可以大致划分出几个词汇;这一步与之前基于概率的思路类似。
富有知识的古文字专家,在这一步后就会根据重点词汇的形式,结合自己所知的语言,对文字的组成进行猜测,比如哪些符号代表哪些音节,再依次破译。
这一步以算法的语言来说,便是寻找【词汇间对应的连结关系】。假设有n个符号,那么它组成一个长度为a的句子,便有a^n种可能。通过现有的语料,我们能统计出经常出现的那些可能;同样,对另一种语言,我们也能做类似的统计;如果两种语言有着类似的关系,比如都是表音或者都是表意,他们之间能对应的词汇 应该也有一个类似的【统计关系】。通过对这种关系的描述,我们便能得到一对一的翻译。
利用这种方法,计算机学家已经在Linear-B数据集上进行了尝试,准确率达到了67.。
如果有真正的火星文,想必按照现有的科学技术,理解他们也并非不可能;关键在于探索未知的意愿与开放的心态。接纳未知,探索未知,在航空器走向深邃的同时,我们的认知也才能同样走向深刻。
%3