Papers: Models - a mdouglas Collection

mdouglas 's Collections

Datasets: NeurIPS LLM Challenge 2023

Papers: GEC/Revision

Papers: Instruct

Papers: MoE/Ensemble

Papers: Evaluation

Papers: Quantization

Papers: Pruning

Papers: LLM as a Judge

Papers: Models

updated Apr 10, 2024

Llemma: An Open Language Model For Mathematics

Paper • 2310.10631 • Published Oct 16, 2023 • 57
Mistral 7B

Paper • 2310.06825 • Published Oct 10, 2023 • 58
Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model

Paper • 2309.11568 • Published Sep 20, 2023 • 11
Textbooks Are All You Need II: phi-1.5 technical report

Paper • 2309.05463 • Published Sep 11, 2023 • 89
XGen-7B Technical Report

Paper • 2309.03450 • Published Sep 7, 2023 • 8
Code Llama: Open Foundation Models for Code

Paper • 2308.12950 • Published Aug 24, 2023 • 29
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 250
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 21
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 37
Scaling Instruction-Finetuned Language Models

Paper • 2210.11416 • Published Oct 20, 2022 • 8
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 22
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 17
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 10
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 26
Skywork: A More Open Bilingual Foundation Model

Paper • 2310.19341 • Published Oct 30, 2023 • 6
SkyMath: Technical Report

Paper • 2310.16713 • Published Oct 25, 2023 • 2
LaMDA: Language Models for Dialog Applications

Paper • 2201.08239 • Published Jan 20, 2022 • 5
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning

Paper • 2310.06694 • Published Oct 10, 2023 • 3
UT5: Pretraining Non autoregressive T5 with unrolled denoising

Paper • 2311.08552 • Published Nov 14, 2023 • 8
TinyLlama: An Open-Source Small Language Model

Paper • 2401.02385 • Published Jan 4, 2024 • 95
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5, 2024 • 53
Mixtral of Experts

Paper • 2401.04088 • Published Jan 8, 2024 • 160
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Paper • 2401.04081 • Published Jan 8, 2024 • 74
Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Paper • 2312.00752 • Published Dec 1, 2023 • 150
H2O-Danube-1.8B Technical Report

Paper • 2401.16818 • Published Jan 30, 2024 • 18
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Paper • 2402.07827 • Published Feb 12, 2024 • 48