
近日,宇宙科学技巧名词坚硬委员会发布《对于发布试用东说念主工智能鸿沟名词token中语名“词元”的公告》,决定在详尽考量社会各界宗旨提出的基础上,优先保举“词元”算作东说念主工智能鸿沟名词token的中语名,并面向全社会发布试用。
“词元”这一定名合适单义性、科学性、简明性、诱惑性等科技名词坚硬原则。该定名经宇宙臆度机科学技巧名词坚硬委员会坚硬后,由宇宙科学技巧名词坚硬委员会批准向全社会发布试用。
清华大学臆度机系副栽培东昱晓觉得,“词元”的定名捕捉了其在东说念主工智能讲话模子中算作“基本翻脸秀丽单元”的践诺,又不错通过类比当然延迟至多模态鸿沟。在“词元”这一定名中,“词”点明其在讲话场景下的根源,体现出token与抒发对象语义的密切关系;“元”传达出“基本单元”之意,与“元素”等术语中的“元”保抓一致的语义条理。
“token”一词源于古英语tācen,意为“秀丽”或“标记”。在讲话模子中,token是文本进程切分或字节级编码后获得的最小翻脸单元。它既可能是东说念主类讲话真谛上的词串、单个词,hg真人也可能是词根、词缀、子词或单个字符。讲话模子通过对token序列建模,展现出一定的智能水平。
宇宙臆度机科学技巧名词坚硬委员会副主任委员兼东说念主工智能分委员会主任委员、中国科学院臆度技巧盘考所盘考员陈熙霖暗示,“词元”一词不错将“算作讲话基本语义单元”这一领先践诺了了抒发出来,更贴合其在东说念主工智能中的运行变装。
跟着大模子从纯文本走向多模态,“token”所指也曾彭胀。图像被切分为“图像块”并映射为镶嵌序列,语音片断不错被量化编码为翻脸单元,银河国际(GALAXY)这些单元在多模态模子中相似被称为token,主要建模技能仍为序列模子。
此时,“词元”中的“词”杰出了东说念主类讲话真谛上的“词”,却能暗合术语定名中大批存在的类比想维——将非文本模态的翻脸基本单元也视作“广义的词”。这种用法与“词云”(word cloud)、“词袋”(bag of word)雷同,虽由文本生息,但已成为东说念主工智能鸿沟中抒发更平时语义的通用术语。“词元”在跨模态场景中承载了“翻脸基本单元”的语义,这种语义大批存在于总计模态之中。
在中语文件、技巧文档及学术疏通中,“词元”算作形色大模子中token的译名,冷静被学术界好多学者认可。token是模子将数据映射为翻脸秀丽序列的基本单元,自己并不捎带智能,仅仅承载信息的载体;与“镶嵌”“预防力”“隐景况”等术语并排时,保抓了作风一致性;合适中语“二字词”偏好,表述简约,易于传播。
国度数据局数据显现,2024年头,中国日均词元(token)调用量为1000亿;至2025年底,跃升至100万亿;本年3月,已冲破140万亿,两年增长超千倍。
更多热门速报、巨擘资讯、深度分析尽在北京日报App银河国际
OD体育(ODSports)官网入口热点资讯