| /
★
开篇导语:
词元(Token)。在自然语言处理中,词元是文本经过分词、子词切分或字节切分后得到的离散符号单元。在基于大模型的人工智能技术中,词元不仅用于文本数据,也被类比性地用于指代多模态数据离散化或嵌入表示后的基本单元。例如,图像、语音、视频等连续信号通过切分、量化或编码转换为可计算的序列化基本单元。词元统一了不同模态的输入形式,使模型能够在同一空间下进行理解、生成与跨模态对齐,同时也成为衡量上下文长度、计算成本与存储带宽的计量单位。
词元
(Token)
作者:东昱晓(清华大学)、
文继荣(中国人民大学)、
唐杰(清华大学)
InfoBox:
中文名:词元
英文名:Token
实质:将文本或其他模态数据映射为离散符号序列的基本单位,是模型可嵌入表示的基本粒度。
学科:计算机科学与技术
关键词:词元;人工智能;大模型;自然语言处理;多模态大模型
Key words: token, artificial intelligence, large language models, natural language processing; large multimodal models
摘要:
词元(Token)是近年自然语言算法处理数据的最小离散符号单元。在当前人工智能大模型快速发展的背景下,词元的概念被拓展到不同模态数据,使大模型能够进行跨模态理解与生成。从文本子词到视觉像素块,词元化技术在提升大模型处理效率的同时,也面临着语义对齐与信息损耗等挑战。本文介绍词元的背景、概况以及未来发展方向。
Abstract:
A Token is the discrete unit for data processing in recent natural language processing techniques. With the rapid development of large language models, tokens provide a unified representation for diverse modalities, enabling cross-modal understanding and generation. From text subwords to visual patches, tokenization enhances data processing efficiency but also faces challenges such as semantic alignment and information loss. This brief introduces the background, overview, and future directions of tokenization technology.
背景:
深度学习模型,尤其基于Transformer架构的序列模型 [1,2],天然处理序列数据。为了让模型能够处理自然语言,需通过分词或子词切分技术将连续的文本切割成离散的序列单元[3]。对于图像、语音、视频等连续信号,直接输入序列模型会导致维度高、长度长、计算昂贵等挑战。近年来,随着大模型技术的发展,各种模态数据可通过相应离散化或序列化技术形成词元序列,成为跨模态嵌入表示对齐的接口。
定义:
词元是数据进入模型前,经由切分、编码或量化得到的基本处理单元,如文本子词和图片像素方块(patch或codebook)。以自然语言处理为例,词元可以是一个汉字、多个汉字、一个或多个英文单词,或单词中的一部分。例如,在中文中,“人工智能”既可以作为一个词元,也可以切分为“人工”和“智能”;在英文中,单词“learning”可能会被切分为“learn”和“ing”两个词元。词元是将原始输入数据嵌入映射到连续向量空间的桥梁。
挑战:
尽管词元将原始数据变成模型可嵌入表示的离散序列,其仍面临若干挑战:(1)数据词元化并非模型训练中的端到端阶段,如何实现词元切分粒度和数据压缩效率的平衡?词元切分过细会增加序列长度,导致模型计算开销增加;切分过粗会导致词表臃肿及大量未知词,长尾覆盖差。(2)一个词元可能包含多个字符,模型无法看到内部的字符结构;对于一个多位数字,可能被切分成不可预知的多个词元,令模型难以学习基础算术逻辑;对特殊字符如空格等敏感,导致模型输出的随机性 [11]。(3)文本词元相对接近语义单位,但图像、音频、视频等模态的词元更偏低级信号单位,不同的语义密度导致跨模态语义对齐困难。因此,设计高效的词元化技术需综合考虑语义密度、计算效率、模态适配性等关键因素,以确保其在多语言、多模态场景中的有效性和鲁棒性。
发展:
词元处理技术经历了从规则匹配到统计学习,再到自适应学习的演进过程。早期自然语言处理主要依赖词级别分词 [13,14],但面临词表过大和无法处理新词的问题。1990 年代起,字符级别分词 [12]虽解决了未知词问题,但牺牲了语义表达。进入深度学习时代,子词分词算法成为主流,2016年BPE(Byte Pair Encoding)算法 [10]被引入机器翻译等序列任务 [3,5],随后WordPiece 应用于 BERT预训练算法 [4],实现了词表规模与建模能力的平衡。2018年后,随着自回归预训练大模型以“预测下一个词元(Next token prediction)”为目标 [6]的生成式建模的普及,基于字节流的Byte-level BPE 方法逐渐普及,它能够处理任何Unicode文本,在形式上避免了未知词问题,与此同时,词元成为训练目标、推理成本与上下文窗口的基本处理单元。近年来,人工智能大模型的发展正走向“万物皆可词元”的阶段,比如视觉领域中的Vision Transformer [7]首先将图像切分成像素方块(Patch),实现图像的空间离散化,同时通过嵌入表示将其映射到向量空间,而VQ-VAE [8]则引入码本(codebook)概念实现图像语义的离散化词元。当下的前沿多模态模型通过分词器,将文本、图像、音频等映射到同一个词元空间,实现跨模态理解与生成。此外,探索无词元(Token-free) [9] 的模型架构,尝试绕过分词环节带来的信息损耗也是当下的前沿探索问题。
参考文献:
1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
2. Sutskever, I., Vinyals, O. and Le, Q.V., 2014. Sequence to sequence learning with neural networks. Advances in neural information processing systems, 27.
3. Sennrich, R., Haddow, B. and Birch, A., 2016, August. Neural machine translation of rare words with subword units. In Proceedings of the 54th annual meeting of the association for computational linguistics (volume 1: long papers) (pp. 1715-1725).
4. Devlin, J., Chang, M.W., Lee, K. and Toutanova, K., 2019, June. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers) (pp. 4171-4186).
5. Schuster, M. and Nakajima, K., 2012, March. Japanese and korean voice search. In 2012 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 5149-5152). IEEE.
6. Radford, A., Narasimhan, K., Salimans, T. and Sutskever, I., 2018. Improving language understanding by generative pre-training.
7. Dosovitskiy, A., 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
8. Van Den Oord, A. and Vinyals, O., 2017. Neural discrete representation learning. Advances in neural information processing systems, 30.
9. Clark, J.H., Garrette, D., Turc, I. and Wieting, J., 2022. Canine: Pre-training an efficient tokenization-free encoder for language representation. Transactions of the Association for Computational Linguistics, 10, pp.73-91.
10. Gage, P., 1994. A new algorithm for data compression. The C Users Journal, 12(2), pp.23-38.
11. Karpathy, A. 2024. Let's build the GPT Tokenizer. https://www.youtube.com/watch?v=zduSFxRajkE.Accessed on Jan 10. 2025.
12. Shannon, C.E., 1948. A mathematical theory of communication. The Bell system technical journal, 27(3), pp.379-423.
13. Hutchins, W. J. (2004). The Georgetown-IBM Experiment Demonstrated in January 1954. In Machine Translation: From Real Users to Research, Springer, Berlin, Heidelberg.
14. Luhn, H. P. (1957). A Statistical Approach to Mechanized Encoding and Searching of Literary Information, IBM Journal of Research and Development. 1 (4): 309-317.
作者简介:
东昱晓
CCF高级会员,清华大学副教授,主要研究方向为数据挖掘、知识图谱、基础大模型。
邮箱:[email protected] (通讯作者)
文继荣
CCF常务理事,中国人民大学教授,主要研究方向为大模型与人工智能。
唐杰
CCF常务理事,清华大学教授,主要研究方向为人工智能、认知图谱、数据挖掘、大模型。
计算机术语审定委员会及术语平台介绍:
计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。
计算机术语审定工作委员会:
主任:
李国良(清华大学)
副主任:
王昊奋(同济大学)
林俊宇(复旦大学)
主任助理:
李一斌(上海海乂知信息科技有限公司)
执行委员:
丁 军(上海海乂知信息科技有限公司)
兰艳艳(清华大学)
张伟男(哈尔滨工业大学)
彭 鑫(复旦大学)
李博涵(南京航空航天大学)
委员:
柴成亮(北京理工大学)
李晨亮(武汉大学)
张 鹏(天津大学)
王昌栋(中山大学)
张宁豫(浙江大学)
孔祥杰(浙江工业大学)
魏 巍(华中科技大学)
术语投稿热线:[email protected]
点击“阅读原文”,加入CCF。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...