LLM - a gary109 Collection

Note OmniCorpus是一個包含10億級圖像與文本交錯的大規模多模態數據集，來自多種來源。相比現有數據集，OmniCorpus規模大15倍，且具高靈活性和多樣性，驗證其質量和有效性，促進多模態模型研究。 OmniCorpus為未來的多模態模型研究提供了堅實的數據基礎，並在多模態上下文學習中顯示出顯著的潛力。研究者希望通過此數據集推動多模態大型語言模型的進一步發展。該數據集和代碼已在GitHub上釋出。

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Paper • 2406.10118 • Published Jun 14 • 27

Note SEACrowd通過集中和標準化東南亞語言的多模態數據資源，填補了現有AI資源的空白，並通過基準測試提供了對AI模型在這些語言上性能的洞察。此外，研究揭示了現有LLMs在東南亞語言生成質量上的不足，並提出了未來發展的策略，以促進該地區AI技術的進步和資源公平性。

Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Paper • 2406.10208 • Published Jun 14 • 21

Note Glyph-ByT5-v2 和 Glyph-SDXL-v2 通過創建豐富的多語言資料集和基準測試，並應用先進的偏好學習方法，顯著提升了多語言視覺文字渲染的準確性和美學品質，成為該領域的一大突破。

GEB-1.3B: Open Lightweight Large Language Model

Paper • 2406.09900 • Published Jun 14 • 20

Note GEB-1.3B的推出作為開源模型，標誌著輕量級LLMs發展中的一個重要里程碑，為進一步的研究和創新提供了良好的基礎。該模型在保持高性能的同時，顯著減少了計算資源需求，並提升了在CPU上的推理速度，為LLMs在更多應用場景中的部署提供了可能。

Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Paper • 2406.08845 • Published Jun 13 • 8

Note 本論文提出的T2VHE協議大大提高了T2V模型評估的可靠性、重現性和實用性，並承諾開源所有評估流程和代碼，以促進社群內的模型評估和改進。

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Paper • 2406.10227 • Published Jun 14 • 9

Note VideoGUI提供了一個新的多模態基準，專注於評估視覺為中心的GUI任務。研究表明，即使是最先進的模型也在這些任務上存在挑戰，特別是在高層次規劃方面，突顯了進一步研究和改進的必要性。

Designing a Dashboard for Transparency and Control of Conversational AI

Paper • 2406.07882 • Published Jun 12 • 9

Note 本研究展示了如何通過儀表板界面提升對話式AI系統的透明度和控制力。未來工作將重點放在進一步優化設計，並深入研究用戶對偏見和隱私的反應。參考資料此研究相關的項目頁面和視頻演示可在 TalkTuner Project Page 查看。

MaskLID: Code-Switching Language Identification through Iterative Masking

Paper • 2406.06263 • Published Jun 10 • 5

Note MaskLID方法通過屏蔽主要語言特徵，有效改善了CS場景下的語言識別，特別在多語言混合的句子中表現出色。該方法不僅提高了識別精度，且適用範圍廣泛，能處理大量網絡數據，對未來的自然語言處理應用有重要意義。

Decoding the Diversity: A Review of the Indic AI Research Landscape

Paper • 2406.09559 • Published Jun 13 • 5

Note 這篇論文提供了印度語言AI研究的一個全面概覽，對研究方向進行了系統分類，並強調了現有的挑戰和未來的研究方向。通過詳細的分析和分類，該研究為從事印度語言NLP的研究者和實踐者提供了寶貴的資源，助力於更準確高效的LLM應用於這些語言。

Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Paper • 2406.10209 • Published Jun 14 • 8

Note 本研究成功提出了一種新方法（即金魚損失），有效減少了大型語言模型的記憶行為，同時保持模型的整體性能。這為解決模型記憶帶來的隱私和版權風險提供了一條可行的解決途徑。

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Paper • 2406.07522 • Published Jun 11 • 37

Note Samba 提出了一種結合 SSM 和注意力機制的簡單混合架構，實現了在無限上下文長度序列建模中的高效性和精確性，並在多項基準測試中超越了現有的最先進模型。這篇論文展示了 Samba 在處理長序列上下文方面的潛力，並且提供了實際實施範例，可在 GitHub 上找到。

CRAG -- Comprehensive RAG Benchmark

Paper • 2406.04744 • Published Jun 7 • 41

Note CRAG為檢索增強生成技術和一般問答解決方案的研究提供了一個豐富而多樣的基準，揭示了目前RAG技術在面對現實世界多樣性和動態性問題時的挑戰和未來的研究方向。這一基準已經成為KDD Cup 2024挑戰的一部分，並將持續支持相關研究社群的進步。

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

Paper • 2406.11768 • Published Jun 17 • 20

Note GAMA 模型通過整合多種類型的音頻表示和進行合成指令調教，顯著提升了音頻理解和複雜推理能力，並在各種音頻理解任務中取得了領先的性能表現。這項研究展示了 GAMA 在音頻-語言模型領域的潛力，為未來的研究和應用奠定了基礎。

TroL: Traversal of Layers for Large Language and Vision Models

Paper • 2406.12246 • Published Jun 18 • 34

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

Paper • 2406.11931 • Published Jun 17 • 57

Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

Paper • 2406.12624 • Published Jun 18 • 36

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

Paper • 2406.15319 • Published Jun 21 • 61

Towards Retrieval Augmented Generation over Large Video Libraries

Paper • 2406.14938 • Published Jun 21 • 19

Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models

Paper • 2406.14599 • Published Jun 20 • 16

Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

Paper • 2406.14783 • Published Jun 20 • 16

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

Paper • 2406.15193 • Published Jun 21 • 12

Jailbreaking as a Reward Misspecification Problem

Paper • 2406.14393 • Published Jun 20 • 12

DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation

Paper • 2406.16855 • Published Jun 24 • 54

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Paper • 2406.15877 • Published Jun 22 • 45

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Paper • 2406.16860 • Published Jun 24 • 57

Scaling Laws for Linear Complexity Language Models

Paper • 2406.16690 • Published Jun 24 • 22

Efficient Continual Pre-training by Mitigating the Stability Gap

Paper • 2406.14833 • Published Jun 21 • 19

Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

Paper • 2406.16758 • Published Jun 24 • 19

Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models

Paper • 2406.15718 • Published Jun 22 • 14

Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs

Paper • 2406.15927 • Published Jun 22 • 13

Preference Tuning For Toxicity Mitigation Generalizes Across Languages

Paper • 2406.16235 • Published Jun 23 • 11

Confidence Regulation Neurons in Language Models

Paper • 2406.16254 • Published Jun 24 • 10

How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics

Paper • 2406.14051 • Published Jun 20 • 9

Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations

Paper • 2406.13632 • Published Jun 19 • 5

IRASim: Learning Interactive Real-Robot Action Simulators

Paper • 2406.14540 • Published Jun 20 • 6

Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization

Paper • 2406.16008 • Published Jun 23 • 6

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

Paper • 2407.01284 • Published Jul 1 • 75

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

Paper • 2407.01906 • Published Jul 2 • 34

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

Paper • 2407.02869 • Published Jul 3 • 18

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Paper • 2407.04051 • Published Jul 4 • 35

GRUtopia: Dream General Robots in a City at Scale

Paper • 2407.10943 • Published Jul 15 • 23

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

Paper • 2404.16130 • Published Apr 24 • 4

Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

Paper • 2406.07057 • Published Jun 11 • 15

Internal Consistency and Self-Feedback in Large Language Models: A Survey

Paper • 2407.14507 • Published Jul 19 • 46

Language Models (Mostly) Know What They Know

Paper • 2207.05221 • Published Jul 11, 2022 • 1

VideoGameBunny: Towards vision assistants for video games

Paper • 2407.15295 • Published Jul 21 • 21

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

Paper • 2407.16607 • Published Jul 23 • 21

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Paper • 2407.18121 • Published Jul 25 • 15

Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic

Paper • 2407.18129 • Published Jul 25 • 11

The FIGNEWS Shared Task on News Media Narratives

Paper • 2407.18147 • Published Jul 25 • 7

SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain

Paper • 2407.19584 • Published Jul 28 • 61

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

Paper • 2407.18901 • Published Jul 26 • 31

Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models

Paper • 2407.19914 • Published Jul 29 • 12

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

Paper • 2407.18961 • Published Jul 18 • 38

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification

Paper • 2407.19340 • Published Jul 27 • 56

SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

Paper • 2407.19672 • Published Jul 29 • 54

MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

Paper • 2407.20183 • Published Jul 29 • 37

Meltemi: The first open Large Language Model for Greek

Paper • 2407.20743 • Published Jul 30 • 67

Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework

Paper • 2407.20729 • Published Jul 30 • 25

Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings

Paper • 2407.20581 • Published Jul 30 • 23

A Large Encoder-Decoder Family of Foundation Models For Chemical Language

Paper • 2407.20267 • Published Jul 24 • 31

JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

Paper • 2407.20750 • Published Jul 30 • 21

The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31 • 105

Finch: Prompt-guided Key-Value Cache Compression

Paper • 2408.00167 • Published Jul 31 • 13

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

Paper • 2408.01337 • Published Aug 2 • 10

RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation

Paper • 2408.02545 • Published Aug 5 • 33

Language Model Can Listen While Speaking

Paper • 2408.02622 • Published Aug 5 • 37

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

Paper • 2408.04840 • Published Aug 9 • 31

Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2

Paper • 2408.05147 • Published Aug 9 • 37

Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

Paper • 2408.06195 • Published Aug 12 • 61

Med42-v2: A Suite of Clinical LLMs

Paper • 2408.06142 • Published Aug 12 • 50

Imagen 3

Paper • 2408.07009 • Published Aug 13 • 61

OpenResearcher: Unleashing AI for Accelerated Scientific Research

Paper • 2408.06941 • Published Aug 13 • 30

Falcon2-11B Technical Report

Paper • 2407.14885 • Published Jul 20

Generative Photomontage

Paper • 2408.07116 • Published Aug 13 • 19

Aquila2 Technical Report

Paper • 2408.07410 • Published Aug 14 • 13

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

Paper • 2408.08459 • Published Aug 15 • 44

Can Large Language Models Understand Symbolic Graphics Programs?

Paper • 2408.08313 • Published Aug 15 • 6

T3M: Text Guided 3D Human Motion Synthesis from Speech

Paper • 2408.12885 • Published Aug 23 • 9

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Paper • 2409.17115 • Published Sep 25 • 59