AI도 영어만 편애하네
2025년 10월 발표된 사전 출판 논문(프리프린트)에서 연구진은 사용된 모델에 따라 비영어권 언어의 정확도가 영어보다 약 12~29%포인트 낮다는 사실을 발견했다. 최악의 경우 영어 질의의 약 75%에 올바르게 답할 수 있는 모델이 22.6%라는 낮은 점수를 기록하기도 했다.
연구진은 이러한 오류가 중국어, 일본어, 한국어 등의 언어에서 가장 두드러지게 나타난다는 사실을 확인했는데, 이들 모델은 내부 표현internal representations을 통해 올바른 영어 정답을 찾은 것으로 확인되었을 때조차 해당 언어의 사실 관계 질문에 대해서는 4분의 1도 맞히지 못했다. 반면 동일한 모델이 영어로 된 유사한 질문에 대해서는 절반 이상 정답을 맞혔다.
이에 대한 한 가지 명백해 보이는 대응책은 사용자의 프롬프트에 영어를 더 많이 추가하는 것일 수 있다. 하지만 이는 역효과를 낳을 수 있다. 2023년 ‘제37회 전미인공지능학회(AAAI) 학술대회 자료집Proceedings of the 37th AAAI Conference on Artificial Intelligence‘에 발표된 한 연구에 따르면, 단일 질의 내에 여러 언어를 혼용하는 이른바 ‘코드 믹싱code-mixing’ 방식이 오히려 성능을 더 크게 떨어뜨리는 것으로 나타났다. […] 연구진은 이러한 현상이 발생하는 이유에 대해, 언어를 혼합하는 것이 모델이 영어를 기준점으로 삼도록 돕기보다는 오히려 충돌하는 내부 표현을 생성하고 번역 오류를 가중시키기 때문이라고 설명했다.
The Economist (2026, March 18). Top AI models underperform in languages other than English. https://www.economist.com/science-and-technology/2026/03/18/top-ai-models-underperform-in-languages-other-than-english