陈根：汉语大模型，究竟有多难？正观新闻

陈根：汉语大模型，究竟有多难？

2023-08-01 11:05

关注

文/陈根

牛津大学最近进行的一项研究表明，从诸多语言模型的计费方式看，英语的输入和输出比其他语言的输入和输出要便宜得多。例如，西班牙语的成本约为英语的1.5倍，简体中文的价格约为2倍以上，缅甸掸语在15倍以上。

成本的差异也间接导致英语使用者和世界其他语言使用者之间形成AI鸿沟。

成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元，这个更小的单元就是标记（Token）。这是一个人工智能（AI）公司将用户输入转换为计算成本的过程。

研究显示，使用英语以外的语言访问和训练模型的成本都更高。例如中文，无论是在语法上还是在字符数量上，都有更复杂的结构，从而导致更高的标记化（Token）率。

汉语训练大语言模型不仅成本更高，并且难度更大，这其中的原因就在于汉语的词性、语法都比英文更为复杂。

因此，目前谈论汉语大模型训练成本的企业，基本上都只是一种自我假象。并且所谓的一些测试，更多的只是基于特定数据库的检索问答，跟真正的机器具备自我生成式能力还存在比较大的差异。

当然，这也是目前我们所看到的，各种发布会都很领先，但是至今没有可以公开使用的大模型。偶尔有个别公司上线了手机端的APP应用，也基本上没有真正的用户使用，更多的是一种面向资本市场的营销行为。

因为这些应用背后的技术，从真正能够提供、赋能、解决工作的层面来看，基本上没有实质性的价值，更多的只是提供给一些用户尝先使用。

当然，一些企业更多的则是借助于国际上已经开源的一些大模型，然后进行换脸。不过这些包装应用，由于还没有受到市场关注，也没有什么实质性的用户，因此监管部门还没有介入。

从严格意义上来说，不论是套壳，还是自我研发的大模型，目前没有一个大模型是具备在正常讲话的前提下，并且能够正确的讲话。

特别声明

本文为正观号作者或机构在正观新闻上传并发布，仅代表该作者或机构观点，不代表正观新闻的观点和立场，正观新闻仅提供信息发布平台。