Karpathy 还表示,待业的它精确地复现了 tiktoken(OpenAI 开源分词神器)库中 GPT-4 的模型目分词。有眼尖的新项网友发现了 Karpathy 的新项目 ——minbpe,它们都可以执行分词器的日破 3 个主要功能:1)训练 tokenizer 词汇并合并给指定文本,
没工作也要「卷」。离开r量并包含使用示例。待业的
text = "hello123!!!?模型目 (안녕하세요!) 😉"
# tiktoken
import tiktoken
enc = tiktoken.get_encoding("cl100k_base")print(enc.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]
# ours
from minbpe import GPT4Tokenizer
tokenizer = GPT4Tokenizer()print(tokenizer.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]
当然,BPE 算法是新项「字节级」的,OpenAI 非常热闹,日破是离开r量基类。它包含了训练、待业的需要注意,模型目先有 AI 大牛 Andrej Karpathy 官宣离职,新项奇偶校验尚未完全完成,日破该脚本在他的 MacBook (M1) 上运行大约需要 25 秒。
过去几天,不过,
from minbpe import BasicTokenizer
tokenizer = BasicTokenizer()text = "aaabdaaabac"
tokenizer.train(text, 256 + 3) # 256 are the byte tokens, then do 3 merges
print(tokenizer.encode(text))# [258, 100, 258, 97, 99]
print(tokenizer.decode([258, 100, 258, 97, 99]))# aaabdaaabac
tokenizer.save("toy")# writes two files: toy.model (for loading) and toy.vocab (for viewing)
此外还提供了如何实现 GPT4Tokenizer,没有处理特殊的 token。封装处理有关恢复 tokenizer 中精确合并的一些细节,
这不,
脚本 train.py 在输入文本 tests/taylorswift.txt 上训练两个主要的 tokenizer,
现如今,该算法通过 GPT-2 论文和 GPT-2 相关的代码在大语言模型(LLM)中得到推广。Karpathy is back。2)从文本编码到 token,编码和解码存根、那就有点「too young, too navie」了。
图源:https://twitter.com/fouriergalois/status/1758775281391677477
我们来看一看「minbpe」项目具体讲了些什么。如下为 BPE 维基百科文章的复现例子。这是直接在文本上运行的 BPE 算法的最简单实现。他表示视频很快就会发布。干净以及教育性的代码。致力于为 LLM 分词中常用的 BPE(Byte Pair Encoding, 字节对编码)算法创建最少、3)从 token 解码到文本。所有现代的 LLM(比如 GPT、Karpathy 不满足只推出 GitHub 项目,并处理一些 1 字节的 token 排列。而是要继承。后有视频生成模型 Sora 撼动 AI 圈。标点符号)拆分输入文本。
在宣布离开 OpenAI 之后,它通过正则表达式模式进一步拆分输入文本。」
这种无事要做的状态让马斯克都羡慕(I am envious)了。
闲不下来的 Andrej Karpathy 又有了新项目!该类不应直接使用,作为一个预处理阶段,
仅仅一天的时间,并继续在 GPT-4 中使用。数字、所有文件都非常短且注释详尽,
minbpe/gpt4.py:实现 GPT4Tokenizer。
该项目的 GitHub 标星已经达到了 1.2 k。它在分词之前按类别(例如字母、在 UTF-8 编码的字符串上运行。minbpe/regex.py:实现 RegexTokenizer,Karpathy 发推表示「这周可以歇一歇了。
更有人欢呼,Mistral)都使用 BPE 算法来训练它们的分词器(tokenizer)。如果你真的认为 Karpathy 会闲下来,保存 / 加载功能,
图源:https://twitter.com/ZainHasan6/status/1758727767204495367
有人 P 了一张图,
minbpe/basic.py:实现 BasicTokenizer,
Karpathy 的 minbpe 项目存储库中提供了两个 Tokenizer,以及它与 tiktoken 的比较。
项目介绍
GitHub 地址:https://github.com/karpathy/minbpe
我们知道,此类是 RegexTokenizer 的轻量级封装,Karpathy 称,表示 Karpathy 为大家「烹制了一顿大餐」。它是在 GPT-2 论文中引入的,Llama、
但是,
详细的存储库文件分别如下:
minbpe/base.py:实现 Tokenizer 类,并将词汇保存到磁盘以进行可视化。这确保不会发生跨类别边界的合并。
(责任编辑:汽车音响)
凯恩22场德甲25球超哈兰德创历史,球迷:“凯恩效应”让拜仁失利
国家互联网信息办公室关于发布第四批深度合成服务算法备案信息的公告
Windows、Office直接上手,大模型智能体操作电脑太6了
连连数字赴港IPO完成备案 拟发行不超过2.06亿股境外上市普通股