AI 성능 평가 조작 논란 이어져유리한 기준만 공
페이지 정보

본문
AI 성능 평가 조작 논란 이어져유리한 기준만 공
AI 성능 평가 조작 논란 이어져유리한 기준만 공개…현실성 부족 지적도“통일된 기준은 사실상 어려워”최근 생성형 인공지능(AI) 모델의 성능을 가늠하는 지표인 ‘벤치마크’를 둘러싼 논란이 거세지고 있다. 메타, xAI 주요 AI 기업들이 잇따라 벤치마크 조작 의혹에 휘말리며 평가 기준의 공정성을 둘러싼 논쟁이 업계 전반으로 확산되고 있지만, 다양한 평가 지표가 적용되는 근본적인 특성 상 단기간에 논란이 줄기는 쉽지 않을 전망이다.12일 정보기술(IT) 업계에 따르면 최근 메타는 최신 AI 모델 ‘라마 4’가 ‘맞춤형 벤치마크’ 버전을 따로 내놓고 실사용자에겐 ‘기본’ 버전만 제공했다는 조작 논란에 휩싸였다.메타는 라마 4가 벤치마크 테스트 플랫폼인 LM 아레나에서 2위에 오르며 우수한 성능을 입증했다 주장했지만, 실제로 개발자에게 배포된 버전은 해당 테스트에 사용된 모델과 다르다는 논란이 제기됐다. 일부 개발자들은 “LM 아레나에 게시된 매버릭과 실제 사용 가능한 버전 간에 극명한 차이가 있다”고 주장했다.이에 대해 메타 생성 AI 총괄인 아마드 알 달레는 X(엑스)를 통해 “테스트 셋에서 (LLM을) 훈련시켰다는 주장도 접했는데, 이는 사실이 아니며 메타는 그렇게도 하지 않을 것”이라고 해명했다.벤치마크 조작 논란은 메타뿐만이 아니라 AI 업계 전반에서 반복적으로 제기되고 있다. 경쟁사 견제 차원에서도 지속적으로 제기되는 모양새다.일론 머스크의 AI 스타트업 xAI의 최신 모델 ‘그록 3’에 대한 논란도 대표적인 예다. xAI는 수학 경시대회 문제를 기반으로 한 ‘AIME 2025’ 벤치마크에서 그록3가 최고 성능을 기록했다고 주장했지만, 오픈AI 측은 xAI가 일부 핵심 지표(cons@64)를 누락해 조작됐다고 문제를 제기했다. 이에 대해 xAI는 “오픈AI 역시 과거에 비슷한 방식으로 데이터를 발표한 바 있다”고 강하게 반발했다.이처럼 새로운 AI 모델이 공개될 때마다 벤치마크 결과를 둘러싼 의혹이 반복되는 근본적인 이유는, 평가 방식의 일관성이 부재하기 때문이다. 벤치마크 개수 자체가 매우 많고, 기업들은 자사 모델이 상대적으로 우수한 결과를 낼 수 있는 특정 지표를 선택해 홍보하는 경향이 있다.또한 일부 벤치마크는 현실과 동떨어진 평가 항목으로 구성돼 있다는 지적도 나온다. 수학 문제 풀이, 코딩 등 특수 목적의 테스트가 많은데, 이는 실제 사용자들이 AI를 활용AI 성능 평가 조작 논란 이어져유리한 기준만 공개…현실성 부족 지적도“통일된 기준은 사실상 어려워”최근 생성형 인공지능(AI) 모델의 성능을 가늠하는 지표인 ‘벤치마크’를 둘러싼 논란이 거세지고 있다. 메타, xAI 주요 AI 기업들이 잇따라 벤치마크 조작 의혹에 휘말리며 평가 기준의 공정성을 둘러싼 논쟁이 업계 전반으로 확산되고 있지만, 다양한 평가 지표가 적용되는 근본적인 특성 상 단기간에 논란이 줄기는 쉽지 않을 전망이다.12일 정보기술(IT) 업계에 따르면 최근 메타는 최신 AI 모델 ‘라마 4’가 ‘맞춤형 벤치마크’ 버전을 따로 내놓고 실사용자에겐 ‘기본’ 버전만 제공했다는 조작 논란에 휩싸였다.메타는 라마 4가 벤치마크 테스트 플랫폼인 LM 아레나에서 2위에 오르며 우수한 성능을 입증했다 주장했지만, 실제로 개발자에게 배포된 버전은 해당 테스트에 사용된 모델과 다르다는 논란이 제기됐다. 일부 개발자들은 “LM 아레나에 게시된 매버릭과 실제 사용 가능한 버전 간에 극명한 차이가 있다”고 주장했다.이에 대해 메타 생성 AI 총괄인 아마드 알 달레는 X(엑스)를 통해 “테스트 셋에서 (LLM을) 훈련시켰다는 주장도 접했는데, 이는 사실이 아니며 메타는 그렇게도 하지 않을 것”이라고 해명했다.벤치마크 조작 논란은 메타뿐만이 아니라 AI 업계 전반에서 반복적으로 제기되고 있다. 경쟁사 견제 차원에서도 지속적으로 제기되는 모양새다.일론 머스크의 AI 스타트업 xAI의 최신 모델 ‘그록 3’에 대한 논란도 대표적인 예다. xAI는 수학 경시대회 문제를 기반으로 한 ‘AIME 2025’ 벤치마크에서 그록3가 최고 성능을 기록했다고 주장했지만, 오픈AI 측은 xAI가 일부 핵심 지표(cons@64)를 누락해 조작됐다고 문제를 제기했다. 이에 대해 xAI는 “오픈AI 역시 과거에 비슷한 방식으로 데이터를 발표한 바 있다”고 강하게 반발했다.이처럼 새로운 AI 모델이 공개될 때마다 벤치마크 결과를 둘러싼 의혹이 반복되는 근본적인 이유는, 평가 방식의 일관성이 부재하기 때문이다. 벤치마크 개수 자체가 매우 많고, 기업들은 자사 모델이 상대적으로 우수한 결과를 낼 수 있는 특정 지표를 선택해 홍보하는 경향이 있다.또한 일부 벤치마크는 현실과 동떨어진 평가 항목으로 구성돼 있다는 지적도 나온다. 수
AI 성능 평가 조작 논란 이어져유리한 기준만 공
- 이전글15주년 맞은 인피니트 “‘내꺼하자’ 트로트 되는 날까지 함께하자” 25.04.14
- 다음글�������Ͽ����ϴ�. 25.04.14
댓글목록
등록된 댓글이 없습니다.