Transformers.js
适用于 web 的最先进机器学习。直接在您的浏览器中运行 🤗 Transformers,无需服务器!
Transformers.js 的设计旨在与 Hugging Face 的 transformers python 库在功能上等效,这意味着您可以使用非常相似的 API 运行相同的预训练模型。这些模型支持不同模态中的常见任务,例如
- 📝 自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。
- 🖼️ 计算机视觉:图像分类、目标检测、分割和深度估计。
- 🗣️ 音频:自动语音识别、音频分类和文本转语音。
- 🐙 多模态:嵌入、零样本音频分类、零样本图像分类和零样本目标检测。
Transformers.js 使用 ONNX Runtime 在浏览器中运行模型。最棒的是,您可以轻松地 转换 您使用 🤗 Optimum 预训练的 PyTorch、TensorFlow 或 JAX 模型为 ONNX。
有关更多信息,请查看完整的 文档。
快速浏览
从现有代码进行转换非常简单!就像 python 库一样,我们支持 pipeline
API。管道将预训练模型与输入的预处理和输出的后处理组合在一起,使其成为使用该库运行模型的最简单方法。
Python(原始) | Javascript(我们的) |
---|---|
from transformers import pipeline
# Allocate a pipeline for sentiment-analysis
pipe = pipeline('sentiment-analysis')
out = pipe('I love transformers!')
# [{'label': 'POSITIVE', 'score': 0.999806941}] | import { pipeline } from '@huggingface/transformers';
// Allocate a pipeline for sentiment-analysis
let pipe = await pipeline('sentiment-analysis');
let out = await pipe('I love transformers!');
// [{'label': 'POSITIVE', 'score': 0.999817686}] |
您还可以通过将模型 ID 或路径指定为 pipeline
函数的第二个参数来使用不同的模型。例如
// Use a different model for sentiment-analysis
let pipe = await pipeline('sentiment-analysis', 'Xenova/bert-base-multilingual-uncased-sentiment');
目录
文档分为 4 个部分
- 入门提供库的快速浏览和安装说明,帮助您快速上手。
- 教程是初学者的绝佳起点!我们还包括了一些示例应用程序,供您随意玩耍!
- 开发者指南向您展示如何使用库来实现特定目标。
- API 参考描述所有类和函数,以及它们的可用参数和类型。
示例
想要直接上手?从我们的示例应用程序/模板之一开始
名称 | 描述 | 链接 |
---|---|---|
Whisper Web | 使用 Whisper 进行语音识别 | 代码,演示 |
Doodle Dash | 实时涂鸦识别游戏 | 博客,代码,演示 |
代码游乐场 | 浏览器内代码补全网站 | 代码,演示 |
语义图像搜索(客户端) | 使用文本搜索图像 | 代码,演示 |
语义图像搜索(服务器端) | 使用文本搜索图像(Supabase) | 代码,演示 |
Vanilla JavaScript | 浏览器内目标检测 | 视频,代码,演示 |
React | 多语言翻译网站 | 代码,演示 |
文本转语音(客户端) | 浏览器内语音合成 | 代码, 演示 |
浏览器扩展 | 文本分类扩展 | 代码 |
Electron | 文本分类应用程序 | 代码 |
Next.js (客户端) | 情感分析(浏览器内推理) | 代码, 演示 |
Next.js (服务器端) | 情感分析(Node.js 推理) | 代码, 演示 |
Node.js | 情感分析 API | 代码 |
演示网站 | 一系列演示 | 代码, 演示 |
查看 Transformers.js 模板 在 Hugging Face 上,一键开始!
支持的任务/模型
以下是 Transformers.js 目前支持的所有任务和架构列表。如果你没有在这里看到你的任务/模型,或者它尚未被支持,请随时打开一个功能请求 这里。
要在 Hub 上找到兼容的模型,请在筛选器菜单中选择“transformers.js”库标签(或访问 此链接)。您可以通过选择您感兴趣的任务来细化搜索(例如,文本分类)。
任务
自然语言处理
任务 | ID | 描述 | 支持? |
---|---|---|---|
填空 | fill-mask | 遮蔽句子中的某些词,并预测哪些词应该替换这些遮蔽。 | ✅ (文档) (模型) |
问答 | question-answering | 从给定的文本中检索问题的答案。 | ✅ (文档) (模型) |
句子相似度 | sentence-similarity | 确定两个文本的相似程度。 | ✅ (文档) (模型) |
摘要 | summarization | 生成文档的简短版本,同时保留其重要信息。 | ✅ (文档) (模型) |
表格问答 | table-question-answering | 回答关于给定表格中信息的问题。 | ❌ |
文本分类 | text-classification 或 sentiment-analysis | 为给定的文本分配标签或类别。 | ✅ (文档) (模型) |
文本生成 | text-generation | 通过预测序列中的下一个词来生成新文本。 | ✅ (文档) (模型) |
文本到文本生成 | text2text-generation | 将一个文本序列转换为另一个文本序列。 | ✅ (文档) (模型) |
词语分类 | token-classification 或 ner | 为文本中的每个词语分配一个标签。 | ✅ (文档) (模型) |
翻译 | translation | 将文本从一种语言转换为另一种语言。 | ✅ (文档) (模型) |
零样本分类 | zero-shot-classification | 将文本分类为训练期间未见过的类别。 | ✅ (文档) (模型) |
特征提取 | feature-extraction | 将原始数据转换为可处理的数值特征,同时保留原始数据集中的信息。 | ✅ (文档) (模型) |
视觉
任务 | ID | 描述 | 支持? |
---|---|---|---|
深度估计 | depth-estimation | 预测图像中存在的物体的深度。 | ✅ (文档) (模型) |
图像分类 | image-classification | 为整个图像分配标签或类别。 | ✅ (文档) (模型) |
图像分割 | image-segmentation | 将图像划分为多个片段,其中每个像素都映射到一个物体。此任务有多个变体,例如实例分割、全景分割和语义分割。 | ✅ (文档) (模型) |
图像到图像 | image-to-image | 将源图像转换为匹配目标图像或目标图像域的特征。 | ✅ (文档) (模型) |
掩码生成 | mask-generation | 为图像中的物体生成掩码。 | ❌ |
目标检测 | object-detection | 识别图像中某些定义类别的物体。 | ✅ (文档) (模型) |
视频分类 | n/a | 为整个视频分配标签或类别。 | ❌ |
无条件图像生成 | n/a | 在任何上下文中(如提示文本或其他图像)生成没有条件的图像。 | ❌ |
图像特征提取 | image-feature-extraction | 将原始数据转换为可处理的数值特征,同时保留原始图像中的信息。 | ✅ (文档) (模型) |
音频
任务 | ID | 描述 | 支持? |
---|---|---|---|
音频分类 | audio-classification | 为给定的音频分配标签或类别。 | ✅ (文档) (模型) |
音频到音频 | n/a | 从输入音频源生成音频。 | ❌ |
自动语音识别 | automatic-speech-recognition | 将给定的音频转录为文本。 | ✅ (文档) (模型) |
文本到语音 | text-to-speech 或 text-to-audio | 根据文本输入生成自然发声的语音。 | ✅ (文档) (模型) |
表格
任务 | ID | 描述 | 支持? |
---|---|---|---|
表格分类 | n/a | 根据一组属性对目标类别(组)进行分类。 | ❌ |
表格回归 | n/a | 根据一组属性预测数值。 | ❌ |
多模态
任务 | ID | 描述 | 支持? |
---|---|---|---|
文档问答 | document-question-answering | 回答文档图像中的问题。 | ✅ (docs) (模型) |
图像转文本 | image-to-text | 从给定图像中输出文本。 | ✅ (docs) (模型) |
文本转图像 | text-to-image | 根据输入文本生成图像。 | ❌ |
视觉问答 | visual-question-answering | 根据图像回答开放式问题。 | ❌ |
零样本音频分类 | zero-shot-audio-classification | 将音频分类为训练期间未见过的类别。 | ✅ (docs) (模型) |
零样本图像分类 | zero-shot-image-classification | 将图像分类为训练期间未见过的类别。 | ✅ (docs) (模型) |
零样本目标检测 | zero-shot-object-detection | 识别训练期间未见过的类别的对象。 | ✅ (docs) (模型) |
强化学习
任务 | ID | 描述 | 支持? |
---|---|---|---|
强化学习 | n/a | 通过反复试验与环境互动,并接收奖励(负面或正面)作为反馈,从行动中学习。 | ✅ |
模型
- ALBERT (来自 Google Research 和芝加哥丰田工业大学) 发布了论文ALBERT: A Lite BERT for Self-supervised Learning of Language Representations,作者为 Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut。
- 音频频谱图转换器 (来自 MIT) 发布了论文AST: Audio Spectrogram Transformer,作者为 Yuan Gong, Yu-An Chung, James Glass。
- BART (来自 Facebook) 发布了论文BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension,作者为 Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov 和 Luke Zettlemoyer。
- BEiT (来自微软) 发布了论文BEiT: BERT Pre-Training of Image Transformers,作者为 Hangbo Bao, Li Dong, Furu Wei。
- BERT (来自 Google) 发布了论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,作者为 Jacob Devlin, Ming-Wei Chang, Kenton Lee 和 Kristina Toutanova。
- Blenderbot (来自 Facebook) 发布了论文Recipes for building an open-domain chatbot,作者为 Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston。
- BlenderbotSmall (来自 Facebook) 发布了论文Recipes for building an open-domain chatbot,作者为 Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston。
- BLOOM (来自 BigScience 工作坊) 由 BigScience 工作坊 发布。
- CamemBERT (来自 Inria/Facebook/Sorbonne) 发布了论文CamemBERT: a Tasty French Language Model,作者为 Louis Martin*,Benjamin Muller*,Pedro Javier Ortiz Suárez*,Yoann Dupont,Laurent Romary,Éric Villemonte de la Clergerie,Djamé Seddah 和 Benoît Sagot。
- 中文-CLIP (来自 OFA-Sys) 发布了论文Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese,作者为 An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou。
- CLAP (来自 LAION-AI) 发布了论文Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation,作者为 Yusong Wu, Ke Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, Shlomo Dubnov。
- CLIP (来自 OpenAI) 发布了论文Learning Transferable Visual Models From Natural Language Supervision,作者为 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever。
- CLIPSeg (来自哥廷根大学) 发布了论文Image Segmentation Using Text and Image Prompts,作者为 Timo Lüddecke 和 Alexander Ecker。
- CodeGen (来自 Salesforce) 发布了论文A Conversational Paradigm for Program Synthesis,作者为 Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong。
- CodeLlama (来自 MetaAI) 发布了论文Code Llama: Open Foundation Models for Code,作者为 Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve。
- Cohere (来自 Cohere) 发布了论文Command-R: Retrieval Augmented Generation at Production Scale,作者为 Cohere。
- ConvBERT (来自 YituTech) 发布了论文ConvBERT: Improving BERT with Span-based Dynamic Convolution,作者为 Zihang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, Shuicheng Yan。
- ConvNeXT (来自 Facebook AI) 发布了论文A ConvNet for the 2020s,作者为 Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie。
- ConvNeXTV2 (来自 Facebook AI) 发布了论文ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders,作者为 Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, Saining Xie。
- DeBERTa (来自微软) 发布了论文DeBERTa: Decoding-enhanced BERT with Disentangled Attention,作者为 Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen。
- DeBERTa-v2 (来自微软) 发布了论文DeBERTa: Decoding-enhanced BERT with Disentangled Attention,作者为 Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen。
- 决策转换器 (来自伯克利/Facebook/Google) 发布了论文Decision Transformer: Reinforcement Learning via Sequence Modeling,作者为 Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch。
- DeiT (来自 Facebook) 发布了论文Training data-efficient image transformers & distillation through attention,作者为 Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou。
- 深度任何事物 (来自香港大学和抖音) 发布了论文Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,作者为 Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao。
- 深度专业版 (来自 Apple) 发布了论文Depth Pro: Sharp Monocular Metric Depth in Less Than a Second,作者为 Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun。
- DETR(来自 Facebook)发布,论文名为使用 Transformer 进行端到端目标检测,作者为 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov、Sergey Zagoruyko。
- DINOv2(来自 Meta AI)发布,论文名为DINOv2:在无监督的情况下学习鲁棒的视觉特征,作者为 Maxime Oquab、Timothée Darcet、Théo Moutakanni、Huy Vo、Marc Szafraniec、Vasil Khalidov、Pierre Fernandez、Daniel Haziza、Francisco Massa、Alaaeldin El-Nouby、Mahmoud Assran、Nicolas Ballas、Wojciech Galuba、Russell Howes、Po-Yao Huang、Shang-Wen Li、Ishan Misra、Michael Rabbat、Vasu Sharma、Gabriel Synnaeve、Hu Xu、Hervé Jegou、Julien Mairal、Patrick Labatut、Armand Joulin、Piotr Bojanowski。
- DistilBERT(来自 HuggingFace),发布,论文名为DistilBERT,BERT 的蒸馏版本:更小、更快、更便宜、更轻,作者为 Victor Sanh、Lysandre Debut 和 Thomas Wolf。同样的方法被用来压缩 GPT2 到 DistilGPT2,RoBERTa 到 DistilRoBERTa,多语言 BERT 到 DistilmBERT 以及 DistilBERT 的德语版本。
- DiT(来自 Microsoft Research)发布,论文名为DiT:用于文档图像 Transformer 的自监督预训练,作者为 Junlong Li、Yiheng Xu、Tengchao Lv、Lei Cui、Cha Zhang、Furu Wei。
- Donut(来自 NAVER),发布,论文名为无 OCR 文档理解 Transformer,作者为 Geewook Kim、Teakgyu Hong、Moonbin Yim、Jeongyeon Nam、Jinyoung Park、Jinyeong Yim、Wonseok Hwang、Sangdoo Yun、Dongyoon Han、Seunghyun Park。
- DPT(来自 Intel Labs)发布,论文名为用于密集预测的视觉 Transformer,作者为 René Ranftl、Alexey Bochkovskiy、Vladlen Koltun。
- EfficientNet(来自 Google Brain)发布,论文名为EfficientNet:重新思考卷积神经网络的模型缩放,作者为 Mingxing Tan、Quoc V. Le。
- ELECTRA(来自 Google Research/Stanford University)发布,论文名为ELECTRA:将文本编码器预训练为判别器而不是生成器,作者为 Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning。
- ESM(来自 Meta AI)是 Transformer 蛋白质语言模型。ESM-1b 发布,论文名为生物结构和功能从将无监督学习扩展到 2.5 亿个蛋白质序列中出现,作者为 Alexander Rives、Joshua Meier、Tom Sercu、Siddharth Goyal、Zeming Lin、Jason Liu、Demi Guo、Myle Ott、C. Lawrence Zitnick、Jerry Ma 和 Rob Fergus。ESM-1v 发布,论文名为语言模型使蛋白质功能突变影响的零样本预测成为可能,作者为 Joshua Meier、Roshan Rao、Robert Verkuil、Jason Liu、Tom Sercu 和 Alexander Rives。ESM-2 和 ESMFold 发布,论文名为进化尺度的蛋白质序列语言模型可以实现准确的结构预测,作者为 Zeming Lin、Halil Akin、Roshan Rao、Brian Hie、Zhongkai Zhu、Wenting Lu、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Sal Candido、Alexander Rives。
- Falcon(来自 Technology Innovation Institute),作者为 Almazrouei, Ebtesam 和 Alobeidli, Hamza 和 Alshamsi, Abdulaziz 和 Cappelli, Alessandro 和 Cojocaru, Ruxandra 和 Debbah, Merouane 和 Goffinet, Etienne 和 Heslow, Daniel 和 Launay, Julien 和 Malartic, Quentin 和 Noune, Badreddine 和 Pannier, Baptiste 和 Penedo, Guilherme。
- FastViT(来自 Apple)发布,论文名为FastViT:使用结构重参数化的快速混合视觉 Transformer,作者为 Pavan Kumar Anasosalu Vasu、James Gabriel、Jeff Zhu、Oncel Tuzel 和 Anurag Ranjan。
- FLAN-T5(来自 Google AI)发布,位于仓库 google-research/t5x,作者为 Hyung Won Chung、Le Hou、Shayne Longpre、Barret Zoph、Yi Tay、William Fedus、Eric Li、Xuezhi Wang、Mostafa Dehghani、Siddhartha Brahma、Albert Webson、Shixiang Shane Gu、Zhuyun Dai、Mirac Suzgun、Xinyun Chen、Aakanksha Chowdhery、Sharan Narang、Gaurav Mishra、Adams Yu、Vincent Zhao、Yanping Huang、Andrew Dai、Hongkun Yu、Slav Petrov、Ed H. Chi、Jeff Dean、Jacob Devlin、Adam Roberts、Denny Zhou、Quoc V. Le 和 Jason Wei
- Florence2(来自 Microsoft)发布,论文名为Florence-2:推进用于各种视觉任务的统一表示,作者为 Bin Xiao、Haiping Wu、Weijian Xu、Xiyang Dai、Houdong Hu、Yumao Lu、Michael Zeng、Ce Liu、Lu Yuan。
- Gemma(来自 Google)发布,论文名为Gemma:基于 Gemini 技术和研究的开放模型,作者为 Gemma Google 团队。
- Gemma2(来自 Google)发布,论文名为Gemma2:基于 Gemini 技术和研究的开放模型,作者为 Gemma Google 团队。
- GLPN(来自 KAIST)发布,论文名为用于单目深度估计的全局-局部路径网络,具有垂直切深度,作者为 Doyeon Kim、Woonghyun Ga、Pyungwhan Ahn、Donggyu Joo、Sehwan Chun、Junmo Kim。
- GPT Neo(来自 EleutherAI)发布,位于仓库 EleutherAI/gpt-neo,作者为 Sid Black、Stella Biderman、Leo Gao、Phil Wang 和 Connor Leahy。
- GPT NeoX(来自 EleutherAI)发布,论文名为GPT-NeoX-20B:一个开源的自回归语言模型,作者为 Sid Black、Stella Biderman、Eric Hallahan、Quentin Anthony、Leo Gao、Laurence Golding、Horace He、Connor Leahy、Kyle McDonell、Jason Phang、Michael Pieler、USVSN Sai Prashanth、Shivanshu Purohit、Laria Reynolds、Jonathan Tow、Ben Wang、Samuel Weinbach
- GPT-2(来自 OpenAI)发布,论文名为语言模型是无监督多任务学习器,作者为 Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei 和 Ilya Sutskever。
- GPT-J(来自 EleutherAI)发布,位于仓库 kingoflolz/mesh-transformer-jax,作者为 Ben Wang 和 Aran Komatsuzaki。
- GPTBigCode(来自 BigCode)发布,论文名为SantaCoder:不要触碰星星!,作者为 Loubna Ben Allal、Raymond Li、Denis Kocetkov、Chenghao Mou、Christopher Akiki、Carlos Munoz Ferrandis、Niklas Muennighoff、Mayank Mishra、Alex Gu、Manan Dey、Logesh Kumar Umapathi、Carolyn Jane Anderson、Yangtian Zi、Joel Lamy Poirier、Hailey Schoelkopf、Sergey Troshin、Dmitry Abulkhanov、Manuel Romero、Michael Lappert、Francesco De Toni、Bernardo García del Río、Qian Liu、Shamik Bose、Urvashi Bhattacharyya、Terry Yue Zhuo、Ian Yu、Paulo Villegas、Marco Zocca、Sourab Mangrulkar、David Lansky、Huu Nguyen、Danish Contractor、Luis Villa、Jia Li、Dzmitry Bahdanau、Yacine Jernite、Sean Hughes、Daniel Fried、Arjun Guha、Harm de Vries、Leandro von Werra。
- Granite(来自 IBM)发布,论文名为Power Scheduler:一个与批次大小和 Token 数量无关的学习率调度器,作者为 Yikang Shen、Matthew Stallone、Mayank Mishra、Gaoyuan Zhang、Shawn Tan、Aditya Prasad、Adriana Meza Soria、David D. Cox、Rameswar Panda。
- GroupViT(来自 UCSD、NVIDIA)发布,论文名为GroupViT:语义分割从文本监督中出现,作者为 Jiarui Xu、Shalini De Mello、Sifei Liu、Wonmin Byeon、Thomas Breuel、Jan Kautz、Xiaolong Wang。
- HerBERT(来自 Allegro.pl、AGH 科技大学)发布,论文名为KLEJ:波兰语理解的综合基准,作者为 Piotr Rybak、Robert Mroczkowski、Janusz Tracz、Ireneusz Gawlik。
- Hiera(来自 Meta)发布,论文名为Hiera:一个没有花里胡哨的层次化视觉 Transformer,作者为 Chaitanya Ryali、Yuan-Ting Hu、Daniel Bolya、Chen Wei、Haoqi Fan、Po-Yao Huang、Vaibhav Aggarwal、Arkabandhu Chowdhury、Omid Poursaeed、Judy Hoffman、Jitendra Malik、Yanghao Li、Christoph Feichtenhofer。
- Hubert(来自 Facebook)发布,论文名为HuBERT:通过隐藏单元的掩码预测进行自监督语音表示学习,作者为 Wei-Ning Hsu、Benjamin Bolte、Yao-Hung Hubert Tsai、Kushal Lakhotia、Ruslan Salakhutdinov、Abdelrahman Mohamed。
- JAIS(来自 Core42)发布,论文名为Jais 和 Jais-chat:以阿拉伯语为中心的基石和指令调整的开放式生成大型语言模型,作者为 Neha Sengupta、Sunil Kumar Sahu、Bokang Jia、Satheesh Katipomu、Haonan Li、Fajri Koto、William Marshall、Gurpreet Gosal、Cynthia Liu、Zhiming Chen、Osama Mohammed Afzal、Samta Kamboj、Onkar Pandit、Rahul Pal、Lalit Pradhan、Zain Muhammad Mujahid、Massa Baali、Xudong Han、Sondos Mahmoud Bsharat、Alham Fikri Aji、Zhiqiang Shen、Zhengzhong Liu、Natalia Vassilieva、Joel Hestness、Andy Hock、Andrew Feldman、Jonathan Lee、Andrew Jackson、Hector Xuguang Ren、Preslav Nakov、Timothy Baldwin、Eric Xing。
- LongT5(来自 Google AI)发布,论文名为LongT5:用于长序列的有效文本到文本 Transformer,作者为 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung、Yinfei Yang。
- LLaMA(来自 Meta AI 的 FAIR 团队)发布,论文名为LLaMA:开放且高效的基础语言模型,作者为 Hugo Touvron、Thibaut Lavril、Gautier Izacard、Xavier Martinet、Marie-Anne Lachaux、Timothée Lacroix、Baptiste Rozière、Naman Goyal、Eric Hambro、Faisal Azhar、Aurelien Rodriguez、Armand Joulin、Edouard Grave、Guillaume Lample。
- Llama2(来自 Meta AI 的 FAIR 团队)发布,论文为 Llama2:开放基础和微调的聊天模型,作者为 Hugo Touvron、Louis Martin、Kevin Stone、Peter Albert、Amjad Almahairi、Yasmine Babaei、Nikolay Bashlykov、Soumya Batra、Prajjwal Bhargava、Shruti Bhosale、Dan Bikel、Lukas Blecher、Cristian Canton Ferrer、Moya Chen、Guillem Cucurull、David Esiobu、Jude Fernandes、Jeremy Fu、Wenyin Fu、Brian Fuller、Cynthia Gao、Vedanuj Goswami、Naman Goyal、Anthony Hartshorn、Saghar Hosseini、Rui Hou、Hakan Inan、Marcin Kardas、Viktor Kerkez Madian Khabsa、Isabel Kloumann、Artem Korenev、Punit Singh Koura、Marie-Anne Lachaux、Thibaut Lavril、Jenya Lee、Diana Liskovich、Yinghai Lu、Yuning Mao、Xavier Martinet、Todor Mihaylov、Pushka rMishra、Igor Molybog、Yixin Nie、Andrew Poulton、Jeremy Reizenstein、Rashi Rungta、Kalyan Saladi、Alan Schelten、Ruan Silva、Eric Michael Smith、Ranjan Subramanian、Xiaoqing EllenTan、Binh Tang、Ross Taylor、Adina Williams、Jian Xiang Kuan、Puxin Xu、Zheng Yan、Iliyan Zarov、Yuchen Zhang、Angela Fan、Melanie Kambadur、Sharan Narang、Aurelien Rodriguez、Robert Stojnic、Sergey Edunov、Thomas Scialom。
- LLaVa(来自微软研究院 & 威斯康星大学麦迪逊分校)发布,论文为 视觉指令微调,作者为 Haotian Liu、Chunyuan Li、Yuheng Li 和 Yong Jae Lee。
- M2M100(来自 Facebook)发布,论文为 超越以英语为中心的跨语言机器翻译,作者为 Angela Fan、Shruti Bhosale、Holger Schwenk、Zhiyi Ma、Ahmed El-Kishky、Siddharth Goyal、Mandeep Baines、Onur Celebi、Guillaume Wenzek、Vishrav Chaudhary、Naman Goyal、Tom Birch、Vitaliy Liptchinsky、Sergey Edunov、Edouard Grave、Michael Auli、Armand Joulin。
- MarianMT 机器翻译模型,使用 OPUS 数据训练,由 Jörg Tiedemann 训练。 Marian 框架 由微软翻译团队开发。
- MaskFormer(来自 Meta 和 UIUC)发布,论文为 逐像素分类不是语义分割所需的全部,作者为 Bowen Cheng、Alexander G. Schwing、Alexander Kirillov。
- mBART(来自 Facebook)发布,论文为 用于神经机器翻译的多语言去噪预训练,作者为 Yinhan Liu、Jiatao Gu、Naman Goyal、Xian Li、Sergey Edunov、Marjan Ghazvininejad、Mike Lewis、Luke Zettlemoyer。
- mBART-50(来自 Facebook)发布,论文为 具有可扩展的多语言预训练和微调的多语言翻译,作者为 Yuqing Tang、Chau Tran、Xian Li、Peng-Jen Chen、Naman Goyal、Vishrav Chaudhary、Jiatao Gu、Angela Fan。
- MusicGen(来自 Meta)发布,论文为 简单可控的音乐生成,作者为 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi 和 Alexandre Défossez。
- Mistral(来自 Mistral AI)由 Mistral AI 团队开发:Albert Jiang、Alexandre Sablayrolles、Arthur Mensch、Chris Bamford、Devendra Singh Chaplot、Diego de las Casas、Florian Bressand、Gianna Lengyel、Guillaume Lample、Lélio Renard Lavaud、Lucile Saulnier、Marie-Anne Lachaux、Pierre Stock、Teven Le Scao、Thibaut Lavril、Thomas Wang、Timothée Lacroix、William El Sayed。
- MMS(来自 Facebook)发布,论文为 将语音技术扩展到 1,000 多种语言,作者为 Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau、Michael Auli。
- MobileBERT(来自 CMU/Google Brain)发布,论文为 MobileBERT:用于资源有限设备的紧凑型任务无关 BERT,作者为 Zhiqing Sun、Hongkun Yu、Xiaodan Song、Renjie Liu、Yiming Yang 和 Denny Zhou。
- MobileCLIP(来自 Apple)发布,论文为 MobileCLIP:通过多模态强化训练快速进行图像文本模型,作者为 Pavan Kumar Anasosalu Vasu、Hadi Pouransari、Fartash Faghri、Raviteja Vemulapalli、Oncel Tuzel。
- MobileNetV1(来自 Google Inc.)发布,论文为 MobileNets:用于移动视觉应用的有效卷积神经网络,作者为 Andrew G. Howard、Menglong Zhu、Bo Chen、Dmitry Kalenichenko、Weijun Wang、Tobias Weyand、Marco Andreetto、Hartwig Adam。
- MobileNetV2(来自 Google Inc.)发布,论文为 MobileNetV2:反向残差和线性瓶颈,作者为 Mark Sandler、Andrew Howard、Menglong Zhu、Andrey Zhmoginov、Liang-Chieh Chen。
- MobileNetV3(来自 Google Inc.)发布,论文为 寻找 MobileNetV3,作者为 Andrew Howard、Mark Sandler、Grace Chu、Liang-Chieh Chen、Bo Chen、Mingxing Tan、Weijun Wang、Yukun Zhu、Ruoming Pang、Vijay Vasudevan、Quoc V. Le、Hartwig Adam。
- MobileNetV4(来自 Google Inc.)发布,论文为 MobileNetV4 - 移动生态系统的通用模型,作者为 Danfeng Qin、Chas Leichner、Manolis Delakis、Marco Fornoni、Shixin Luo、Fan Yang、Weijun Wang、Colby Banbury、Chengxi Ye、Berkin Akin、Vaibhav Aggarwal、Tenghui Zhu、Daniele Moro、Andrew Howard。
- MobileViT(来自 Apple)发布,论文为 MobileViT:轻量级、通用且移动友好的视觉 Transformer,作者为 Sachin Mehta 和 Mohammad Rastegari。
- MobileViTV2(来自 Apple)发布,论文为 用于移动视觉 Transformer 的可分离自注意力,作者为 Sachin Mehta 和 Mohammad Rastegari。
- Moondream1 在仓库 moondream 发布,由 vikhyat 开发。
- MPNet(来自微软研究院)发布,论文为 MPNet:用于语言理解的掩蔽和置换预训练,作者为 Kaitao Song、Xu Tan、Tao Qin、Jianfeng Lu、Tie-Yan Liu。
- MPT(来自 MosaiML)发布,仓库为 llm-foundry,由 MosaicML NLP 团队开发。
- MT5(来自 Google AI)发布,论文为 mT5:一种大规模多语言预训练的文本到文本 Transformer,作者为 Linting Xue、Noah Constant、Adam Roberts、Mihir Kale、Rami Al-Rfou、Aditya Siddhant、Aditya Barua、Colin Raffel。
- NLLB(来自 Meta)发布,论文为 无语言遗漏:扩展以人为本的机器翻译,由 NLLB 团队开发。
- Nougat(来自 Meta AI)发布,论文为 Nougat:用于学术文档的神经光学理解,作者为 Lukas Blecher、Guillem Cucurull、Thomas Scialom、Robert Stojnic。
- OpenELM(来自 Apple)发布,论文为 OpenELM:一个具有开源训练和推理框架的有效语言模型家族,作者为 Sachin Mehta、Mohammad Hossein Sekhavat、Qingqing Cao、Maxwell Horton、Yanzi Jin、Chenfan Sun、Iman Mirzadeh、Mahyar Najibi、Dmitry Belenko、Peter Zatloukal、Mohammad Rastegari。
- OPT(来自 Meta AI)发布,论文为 OPT:开放预训练的 Transformer 语言模型,作者为 Susan Zhang、Stephen Roller、Naman Goyal、Mikel Artetxe、Moya Chen、Shuohui Chen 等人。
- OWL-ViT(来自 Google AI)发布,论文为 使用视觉 Transformer 进行简单的开放词汇目标检测,作者为 Matthias Minderer、Alexey Gritsenko、Austin Stone、Maxim Neumann、Dirk Weissenborn、Alexey Dosovitskiy、Aravindh Mahendran、Anurag Arnab、Mostafa Dehghani、Zhuoran Shen、Xiao Wang、Xiaohua Zhai、Thomas Kipf 和 Neil Houlsby。
- OWLv2(来自 Google AI)发布,论文为 扩展开放词汇目标检测,作者为 Matthias Minderer、Alexey Gritsenko、Neil Houlsby。
- Phi(来自微软)发布,论文为 - 教科书就是你所需要的,作者为 Suriya Gunasekar、Yi Zhang、Jyoti Aneja、Caio César Teodoro Mendes、Allie Del Giorno、Sivakanth Gopi、Mojan Javaheripi、Piero Kauffmann、Gustavo de Rosa、Olli Saarikivi、Adil Salim、Shital Shah、Harkirat Singh Behl、Xin Wang、Sébastien Bubeck、Ronen Eldan、Adam Tauman Kalai、Yin Tat Lee 和 Yuanzhi Li,教科书就是你所需要的 II:phi-1.5 技术报告,作者为 Yuanzhi Li、Sébastien Bubeck、Ronen Eldan、Allie Del Giorno、Suriya Gunasekar 和 Yin Tat Lee。
- Phi3(来自微软)发布,论文为 Phi-3 技术报告:一个在你手机上本地运行的高能力语言模型,作者为 Marah Abdin、Sam Ade Jacobs、Ammar Ahmad Awan、Jyoti Aneja、Ahmed Awadallah、Hany Awadalla、Nguyen Bach、Amit Bahree、Arash Bakhtiari、Harkirat Behl、Alon Benhaim、Misha Bilenko、Johan Bjorck、Sébastien Bubeck、Martin Cai、Caio César Teodoro Mendes、Weizhu Chen、Vishrav Chaudhary、Parul Chopra、Allie Del Giorno、Gustavo de Rosa、Matthew Dixon、Ronen Eldan、Dan Iter、Amit Garg、Abhishek Goswami、Suriya Gunasekar、Emman Haider、Junheng Hao、Russell J. Hewett、Jamie Huynh、Mojan Javaheripi、Xin Jin、Piero Kauffmann、Nikos Karampatziakis、Dongwoo Kim、Mahoud Khademi、Lev Kurilenko、James R. Lee、Yin Tat Lee、Yuanzhi Li、Chen Liang、Weishung Liu、Eric Lin、Zeqi Lin、Piyush Madan、Arindam Mitra、Hardik Modi、Anh Nguyen、Brandon Norick、Barun Patra、Daniel Perez-Becker、Thomas Portet、Reid Pryzant、Heyang Qin、Marko Radmilac、Corby Rosset、Sambudha Roy、Olatunji Ruwase、Olli Saarikivi、Amin Saied、Adil Salim、Michael Santacroce、Shital Shah、Ning Shang、Hiteshi Sharma、Xia Song、Masahiro Tanaka、Xin Wang、Rachel Ward、Guanhua Wang、Philipp Witte、Michael Wyatt、Can Xu、Jiahang Xu、Sonali Yadav、Fan Yang、Ziyi Yang、Donghan Yu、Chengruidong Zhang、Cyril Zhang、Jianwen Zhang、Li Lyna Zhang、Yi Zhang、Yue Zhang、Yunan Zhang、Xiren Zhou。
- PVT(来自南京大学、香港大学等)发布,论文为 金字塔视觉 Transformer:一个无需卷积的密集预测通用主干,作者为 Wenhai Wang、Enze Xie、Xiang Li、Deng-Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao。
- PyAnnote 在仓库 pyannote/pyannote-audio 发布,由 Hervé Bredin 开发。
- Qwen2(来自阿里巴巴集团的 Qwen 团队)发布,论文为 Qwen 技术报告,作者为 Jinze Bai、Shuai Bai、Yunfei Chu、Zeyu Cui、Kai Dang、Xiaodong Deng、Yang Fan、Wenbin Ge、Yu Han、Fei Huang、Binyuan Hui、Luo Ji、Mei Li、Junyang Lin、Runji Lin、Dayiheng Liu、Gao Liu、Chengqiang Lu、Keming Lu、Jianxin Ma、Rui Men、Xingzhang Ren、Xuancheng Ren、Chuanqi Tan、Sinan Tan、Jianhong Tu、Peng Wang、Shijie Wang、Wei Wang、Shengguang Wu、Benfeng Xu、Jin Xu、An Yang、Hao Yang、Jian Yang、Shusheng Yang、Yang Yao、Bowen Yu、Hongyi Yuan、Zheng Yuan、Jianwei Zhang、Xingxuan Zhang、Yichang Zhang、Zhenru Zhang、Chang Zhou、Jingren Zhou、Xiaohuan Zhou 和 Tianhang Zhu。
- ResNet (来自微软研究院),由何恺明、张祥雨、任少卿、孙剑在论文 Deep Residual Learning for Image Recognition 中发布。
- RoBERTa (来自 Facebook),由 Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov 在论文 RoBERTa: A Robustly Optimized BERT Pretraining Approach 中发布。
- RoFormer (来自追一科技),由 Su Jianlin、Lu Yu、Pan Shengfeng、Wen Bo、Liu Yunfeng 在论文 RoFormer: Enhanced Transformer with Rotary Position Embedding 中发布。
- RT-DETR (来自百度),由 Zhao Yian、Lv Wenyu、Xu Shangliang、Wei Jinman、Wang Guanzhong、Dang Qingqing、Liu Yi、Chen Jie 在论文 DETRs Beat YOLOs on Real-time Object Detection 中发布。
- Sapiens (来自 Meta AI),由 Rawal Khirodkar、Timur Bagautdinov、Julieta Martinez、Su Zhaoen、Austin James、Peter Selednik、Stuart Anderson、Shunsuke Saito 在论文 Sapiens: Foundation for Human Vision Models 中发布。
- SegFormer (来自 NVIDIA),由 Xie Enze、Wang Wenhai、Yu Zhiding、Anima Anandkumar、Jose M. Alvarez、Luo Ping 在论文 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers 中发布。
- Segment Anything (来自 Meta AI),由 Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Xiao、Spencer Whitehead、Alex Berg、Wan-Yen Lo、Piotr Dollar、Ross Girshick 在论文 Segment Anything 中发布。
- SigLIP (来自 Google AI),由 Xiaohua Zhai、Basil Mustafa、Alexander Kolesnikov、Lucas Beyer 在论文 Sigmoid Loss for Language Image Pre-Training 中发布。
- SpeechT5 (来自微软研究院),由 Ao Junyi、Wang Rui、Zhou Long、Wang Chengyi、Ren Shuo、Wu Yu、Liu Shujie、Ko Tom、Li Qing、Zhang Yu、Wei Zhihua、Qian Yao、Li Jinyu、Wei Furu 在论文 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing 中发布。
- SqueezeBERT (来自伯克利),由 Forrest N. Iandola、Albert E. Shaw、Ravi Krishna、Kurt W. Keutzer 在论文 SqueezeBERT: What can computer vision teach NLP about efficient neural networks? 中发布。
- StableLm (来自 Stability AI),由 Jonathan Tow、Marco Bellagente、Dakota Mahan、Carlos Riquelme Ruiz、Duy Phung、Maksym Zhuravinskyi、Nathan Cooper、Nikhil Pinnaparaju、Reshinth Adithyan、James Baicoianu 在论文 StableLM 3B 4E1T (Technical Report) 中发布。
- Starcoder2 (来自 BigCode 团队),由 Anton Lozhkov、Raymond Li、Loubna Ben Allal、Federico Cassano、Joel Lamy-Poirier、Nouamane Tazi、Ao Tang、Dmytro Pykhtar、Jiawei Liu、Yuxiang Wei、Tianyang Liu、Max Tian、Denis Kocetkov、Arthur Zucker、Younes Belkada、Zijian Wang、Qian Liu、Dmitry Abulkhanov、Indraneil Paul、Zhuang Li、Wen-Ding Li、Megan Risdal、Jia Li、Jian Zhu、Terry Yue Zhuo、Evgenii Zheltonozhskii、Nii Osae Osae Dade、Wenhao Yu、Lucas Krauß、Naman Jain、Yixuan Su、Xuanli He、Manan Dey、Edoardo Abati、Yekun Chai、Niklas Muennighoff、Xiangru Tang、Muhtasham Oblokulov、Christopher Akiki、Marc Marone、Chenghao Mou、Mayank Mishra、Alex Gu、Binyuan Hui、Tri Dao、Armel Zebaze、Olivier Dehaene、Nicolas Patry、Canwen Xu、Julian McAuley、Han Hu、Torsten Scholak、Sebastien Paquet、Jennifer Robinson、Carolyn Jane Anderson、Nicolas Chapados、Mostofa Patwary、Nima Tajbakhsh、Yacine Jernite、Carlos Muñoz Ferrandis、Lingming Zhang、Sean Hughes、Thomas Wolf、Arjun Guha、Leandro von Werra、Harm de Vries 在论文 StarCoder 2 and The Stack v2: The Next Generation 中发布。
- Swin Transformer (来自微软),由 Liu Ze、Lin Yutong、Cao Yue、Hu Han、Wei Yixuan、Zhang Zheng、Lin Stephen、Guo Baining 在论文 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 中发布。
- Swin2SR (来自维尔茨堡大学),由 Marcos V. Conde、Ui-Jin Choi、Maxime Burchi、Radu Timofte 在论文 Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration 中发布。
- T5 (来自 Google AI),由 Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu 在论文 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 中发布。
- T5v1.1 (来自 Google AI),在 google-research/text-to-text-transfer-transformer 仓库中由 Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu 发布。
- Table Transformer (来自微软研究院),由 Brandon Smock、Rohith Pesala、Robin Abraham 在论文 PubTables-1M: Towards Comprehensive Table Extraction From Unstructured Documents 中发布。
- TrOCR (来自微软),由 Li Minghao、Lv Tengchao、Cui Lei、Lu Yijuan、Florencio Dinei、Zhang Cha、Li Zhoujun、Wei Furu 在论文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 中发布。
- UniSpeech (来自微软研究院),由 Wang Chengyi、Wu Yu、Qian Yao、Kumatani Kenichi、Liu Shujie、Wei Furu、Zeng Michael、Huang Xuedong 在论文 UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data 中发布。
- UniSpeechSat (来自微软研究院),由 Chen Sanyuan、Wu Yu、Wang Chengyi、Chen Zhengyang、Chen Zhuo、Liu Shujie、Wu Jian、Qian Yao、Wei Furu、Li Jinyu、Yu Xiangzhan 在论文 UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING 中发布。
- Vision Transformer (ViT) (来自 Google AI),由 Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly、Jakob Uszkoreit、Neil Houlsby 在论文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 中发布。
- ViTMAE (来自 Meta AI),由 He Kaiming、Chen Xinlei、Xie Saining、Li Yanghao、Dollár Piotr、Girshick Ross 在论文 Masked Autoencoders Are Scalable Vision Learners 中发布。
- ViTMatte (来自华中科技大学-视觉与语言实验室),由 Yao Jingfeng、Wang Xinggang、Yang Shusheng、Wang Baoyuan 在论文 ViTMatte: Boosting Image Matting with Pretrained Plain Vision Transformers 中发布。
- ViTMSN (来自 Meta AI),由 Mahmoud Assran、Mathilde Caron、Ishan Misra、Piotr Bojanowski、Florian Bordes、Pascal Vincent、Armand Joulin、Michael Rabbat、Nicolas Ballas 在论文 Masked Siamese Networks for Label-Efficient Learning 中发布。
- VITS (来自 Kakao 企业),由 Jaehyeon Kim、Jungil Kong、Juhee Son 在论文 Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech 中发布。
- Wav2Vec2 (来自 Facebook AI),由 Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli 在论文 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 中发布。
- Wav2Vec2-BERT (来自 Meta AI),由 Seamless Communication 团队在论文 Seamless: Multilingual Expressive and Streaming Speech Translation 中发布。
- WavLM (来自微软研究院),由 Chen Sanyuan、Wang Chengyi、Chen Zhengyang、Wu Yu、Liu Shujie、Chen Zhuo、Li Jinyu、Kanda Naoyuki、Yoshioka Takuya、Xiao Xiong、Wu Jian、Zhou Long、Ren Shuo、Qian Yanmin、Qian Yao、Wu Jian、Zeng Michael、Wei Furu 在论文 WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing 中发布。
- Whisper (来自 OpenAI),由 Alec Radford、Jong Wook Kim、Tao Xu、Greg Brockman、Christine McLeavey、Ilya Sutskever 在论文 Robust Speech Recognition via Large-Scale Weak Supervision 中发布。
- XLM (来自 Facebook),由 Guillaume Lample、Alexis Conneau 在论文 Cross-lingual Language Model Pretraining 中发布。
- XLM-RoBERTa (来自 Facebook AI),由 Alexis Conneau*、Kartikay Khandelwal*、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer、Veselin Stoyanov 在论文 Unsupervised Cross-lingual Representation Learning at Scale 中发布。
- YOLOS (来自华中科技大学),由 Fang Yuxin、Liao Bencheng、Wang Xinggang、Fang Jiemin、Qi Jiyang、Wu Rui、Niu Jianwei、Liu Wenyu 在论文 You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection 中发布。