AI 에이전트 추론 토큰 예산의 함정
에이전트가 실패하는 순간은 모델이 답을 틀릴 때만이 아니다. 코딩 하네스와 관측성 시스템이 그 실패를 정상 실행처럼 기록할 때 문제가 커진다. Codex 이슈 #30364에서 볼 대목은 516이라는 숫자 자체가 아니다. reasoning token, 모델 품질, 비용 제어, 하네스 실행 환경이 한 지점에서 부딪혔다는 점이다. 에이전트가 긴 작업을 맡으면 모델 선택은 API 호출 옵션을 넘어 운영 정책이 된다. Codex reasoning token 516 이슈가 말하는 문제 해당 이슈의 주장은 조심스럽다. 작성자는 비공개 Chain-of-Thought가 잘렸다고 단정하지 않는다. 대신 Codex의 token_count 메타데이터에서 GPT-5.5 응답이 reasoning_output_tokens 516에 비정상적으로 몰린다고 말한다. ...