Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2410.05258

📑 Trending Papers - October 🔟

Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165
Baichuan-Omni Technical Report

Paper • 2410.08565 • Published 26 days ago • 82
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

Paper • 2410.17243 • Published 15 days ago • 86
FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors

Paper • 2410.16271 • Published 16 days ago • 80

new architecture

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

Paper • 2401.02994 • Published Jan 4 • 47
MambaByte: Token-free Selective State Space Model

Paper • 2401.13660 • Published Jan 24 • 50
Repeat After Me: Transformers are Better than State Space Models at Copying

Paper • 2402.01032 • Published Feb 1 • 22
BlackMamba: Mixture of Experts for State-Space Models

Paper • 2402.01771 • Published Feb 1 • 23

Model Architecture

Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165
Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

Paper • 2410.20672 • Published 9 days ago • 5
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

Paper • 2410.23168 • Published 7 days ago • 17

Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165

Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165

Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165

Transformers LLMs

Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165

Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

Paper • 2410.02707 • Published Oct 3 • 47
Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

Paper • 2410.05193 • Published 30 days ago • 12
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

Paper • 2410.03864 • Published Oct 4 • 10

Differential Transformer

Paper • 2410.05258 • Published 30 days ago • 165
Stable Consistency Tuning: Understanding and Improving Consistency Models

Paper • 2410.18958 • Published 13 days ago • 9
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

Paper • 2410.19313 • Published 12 days ago • 18

Previous
1
2
3
...
5
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs