Research papers

Work by Cohere Labs and Technical Staff at Cohere

Learn more about our lab

Search papers

Filter papers

Jun 02, 2025

RewardBench 2: Advancing Reward Model Evaluation

Evaluation

Robustness

Evaluation

Robustness

May 30, 2025

BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization

multilingual

Robustness

Efficiency

multilingual

Robustness

Efficiency

May 30, 2025

One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers

multilingual

Language Models

Pre-Training

Efficiency

multilingual

Language Models

Pre-Training

Efficiency

May 30, 2025

The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It

multilingual

Safety

survey

multilingual

Safety

survey

May 28, 2025

The Multilingual Divide and Its Impact on Global AI Safety

multilingual

Safety

AI Policy

multilingual

Safety

AI Policy

May 26, 2025

How to Improve the Robustness of Closed-Source Models on NLI

Language Models

Robustness

Collaboration

Language Models

Robustness

Collaboration

May 24, 2025

Reality Check: A New Evaluation Ecosystem Is Necessary to Understand AI's Real World Effects

Evaluation

AI Policy

Collaboration

Evaluation

AI Policy

Collaboration

May 21, 2025

Reverse Engineering Human Preferences with Reinforcement Learning

Evaluation

Reinforcement Learning

Evaluation

Reinforcement Learning

May 21, 2025

No Need for Explanations: LLMs can implicitly learn from mistakes in-context

Reasoning

Reasoning

May 14, 2025

Aya Vision: Advancing the Frontier of Multilingual Multimodality

multilingual

Language Models

Multimodal

multilingual

Language Models

Multimodal

May 08, 2025

Crosslingual Reasoning through Test-Time Scaling

Reasoning

multilingual

Language Models

Reasoning

multilingual

Language Models

Apr 30, 2025

The Leaderboard Illusion

Evaluation

Language Models

Evaluation

Language Models

Apr 17, 2025

Déjà Vu: Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation

multilingual

Evaluation

Language Models

multilingual

Evaluation

Language Models

Apr 10, 2025

Kaleidoscope: Exams for Multilingual Vision Evaluation

Evaluation

Open Source

multilingual

Generative Models

Multimodal

Evaluation

Open Source

multilingual

Generative Models

Multimodal

Mar 27, 2025

Command A: An Enterprise-Ready Large Language Model

Language Models

Language Models

Mar 12, 2025

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Language Models

Generative Models

Language Models

Generative Models

Feb 26, 2025

When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning

Feb 19, 2025

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

Code

Collaboration

Evaluation

Reasoning

Tooling

Code

Collaboration

Evaluation

Reasoning

Tooling

Feb 06, 2025

Policy Primer - Efficient AI

AI Policy

Compute

Data Efficiency

Model Compression

AI Policy

Compute

Data Efficiency

Model Compression

Feb 03, 2025

Fairness of Deep Ensembles: On the interplay between per-group task difficulty and under-representation

Computer Vision

Responsible AI

Computer Vision

Responsible AI