当前位置: 书通网 > 学习方法 > 在线火星文转换（如何用算法将火星文转化为中文）

在线火星文转换（如何用算法将火星文转化为中文）

时间:2023-02-06 分类:学习方法来源:书通网

天问一号降落火星，中华民族关于浩瀚苍穹的探索又远了一程。在这值得举国欢庆的时刻，过往关于火星文的种种科幻想象又更近了一步。

那么，假如火星文真的存在，在现有的技术条件下，我们该怎么解读呢？

字典大法：查表

若是对方对中华文明已早有研究，那么一本现成的字典是最好的工具。

比如地球语言中，中文英文的互译，很大程度上便是依赖字典。譬如“Mars”：

通过字典，即使没见过这个词，其中含义也可以一览无余。

这种策略在电信编码方面用得更加普遍。比如UTF8编码。UTF8编码可以理解为计算机所说的中英文，它将汉字转换为特定的二进制，然后通过查表进行还原。在谍战中大显身手的摩斯码则是声音表达的中文，每个长音和短音及其组合，都有对应的意思。

这方面近来最广为人知的创作，恐怕还是《长安十二时辰》中的望楼。这部优秀的作品创造了一组灯光传讯密码，实现了用光来讲述的中文。

这种方法也是计算机领域最容易实现的方法。从词典，便携电子辞典，到各类划词翻译设备，基于字典的方法已为文化沟通交流提供了许多便利。

猜词：结合上下文进行推断

如果这个词汇字典里没有，又该怎么办呢？

即使是阅读中文，也经常会遇到新的词汇，词典可能尚未收录。火星文与流行语便是例子。

先说火星文。在真正登上火星以前，我们把看不懂的文字称为火星文。其实它也是网络流行文化的一种。火星文长得奇特，直接查字典未必能够得到解答，比如：

砹吖,伱ぬ（哎呀，你好）

火星文中的几个字都不是正确的字，甚至混有其他符号，但是通过形近和同音的联想，我们还是能够猜出这句话本来的意思。

对程序而言，它可以内置一个字典，然后搜索出与现有的文字形近又音近的词汇，完成这项工作。比起直接查字典，难度只能说是略有提升。

结合语境猜测则是更高级的任务。比如外来词，酷，它是英文cool的翻译。

酷的原意是残忍，程度深；但是在新时代的语境下，它使用的句子发生了变化。如果能收集到大量的文本对比，程序就会发现，原本“这件事让人很想试试“，”让人觉得很好“，之类的表述，变成了”这件事很酷“。通过附近的词汇，程序可以大概推断出这个词的意思，这便是一类基于概率的翻译思路。

完全破译：多维空间上的抽象计算

如果完全没有信息，是一个全新的文字，收集到的资料又少，那才是真正的考验。

现有的文字系统有表音和表意两类；拿到一份古文字，首先要确定它是表音还是表意；这点可以通过观察符号的数量，做大致的推测。一般表音的符号数要低于表意的。

然后通过符号组合出现在一起的概率，可以大致划分出几个词汇；这一步与之前基于概率的思路类似。

富有知识的古文字专家，在这一步后就会根据重点词汇的形式，结合自己所知的语言，对文字的组成进行猜测，比如哪些符号代表哪些音节，再依次破译。

这一步以算法的语言来说，便是寻找【词汇间对应的连结关系】。假设有n个符号，那么它组成一个长度为a的句子，便有a^n种可能。通过现有的语料，我们能统计出经常出现的那些可能；同样，对另一种语言，我们也能做类似的统计；如果两种语言有着类似的关系，比如都是表音或者都是表意，他们之间能对应的词汇应该也有一个类似的【统计关系】。通过对这种关系的描述，我们便能得到一对一的翻译。

利用这种方法，计算机学家已经在Linear-B数据集上进行了尝试，准确率达到了67.。

如果有真正的火星文，想必按照现有的科学技术，理解他们也并非不可能；关键在于探索未知的意愿与开放的心态。接纳未知，探索未知，在航空器走向深邃的同时，我们的认知也才能同样走向深刻。

学习方法分类

在线火星文转换（如何用算法将火星文转化为中文）