logo
기술 블로그
logo
주니어 클라이언트의 오답 노트
안녕하세요. 스튜디오 킹덤 클라이언트 개발자 이한나입니다. 이 글은 제가 신입으로 입사하여 3년 차인 지금까지 일하며 실수한 것들을 돌아보고 되새겨 보는 글입니다. 이 글이 저처럼 신입 또는 주니어 클라이언트 개발자분들께 작게나마 도움이 되기를 바라며 저의 경험을 나누고자 합니다.일하다 보면 종종 내가 이해한 것과 기획자가 의도하는 방향이 다른 경우가 생깁니다. 확신이 가지 않는 부분은 당연히 물어봐야 합니다. 설계를 하고 있을 때, 작업을 진행하고 있을 때, 작업을 완료 했을 때까지, 늦었다고 생각할 때가 가장 빠른 질문 타이밍입니다."10번 뽑기 기능"을 만드는 상황을 예시로 들어보겠습니다.여기서 질문을 하지 않는 개발자가 1번 뽑기를 10번 반복하는 것으로 이해하고 (음! 전부 이해했어!) 작업을 진행합니다.그리고 마감날이 되어 테스트를 돌려본 기획자가 물어봅니다.기획자 : 이거 뽑기 10번을 전부 보여주고 있네요? 뽑기는 1번만 보여주고 보상을 10개를 줘야 하는데 다르게 나오는 것 같아요. 확인 부탁드립니다.그동안의 시간과 노력을 지우고 다시 작업을 하는 상황이 되어버렸습니다. 눈물을 머금고 다시 작업을 하고 싶지 않다면 자신이 이해한 것 그리고 작업 방향이 기획자가 의도하는 방향과 맞는지 물어보고, 기록하고, 작업을 진행하도록 합시다.추가로 작업하면서 중간중간 결과물을 영상으로 찍거나 스크린샷으로 캡쳐해 공유합시다. 구현 방향을 공유하는 의미도 있고, 나중에 리팩터링하거나 기능이 추가될 때 원본 기능이 어땠는지 참고하기 좋아서 기록 차원에서라도 남겨두는 게 좋습니다. 그리고 귀여운 작업물을 만들었다면 자랑할 수 있다는 장점도 있습니다.다른 프로그래머의 코드를 수정할 때도 비슷합니다. 코드에는 의도와 맥락이 있습니다. 왜 이런 코드가 있는지 물어보고 의도에 맞는 방향으로 작업해 야 합니다. 그리고 수정 방향에 대해 얘기하다 보면 생각지 못한 더 좋은 코드가 떠오르거나 어딘가에 있는 동일한 코드를 가져다 쓸 수 있음을 알게 될 수 있어서, 어떤 코드에 대해 수정이 고민이 된다면 담당 프로그래머와 얘기해 보는 것이 좋습니다.데이터 수정은 기획자에게 요청하자"쿠키런: 킹덤"에서는 기획자가 퀘스트 내용이나 쿠키의 능력치 같은 게임 데이터를 작업합니다. 적은 양의 데이터 수정일지라도 어떤 데이터는 서로 연결되어 있어 규칙에 맞게 입력해야 하고, 또 그 데이터를 수정하고 번역 요청을 하는 등 관리가 필요합니다. 따라서 데이터 수정은 담당 기획자에게 요청하는 것이 가장 안전합니다. (담당자한테 물어보자는 위 문단의 내용과도 유사합니다.)네트워크 환경이 항상 최선의 상태가 아닐 수 있음을 고려하자예를 들어서, 클라이언트는 서버와 통신을 할 때, 클라이언트가 서버에 보내는 모든 요청이 실패할 수 있음을 고려해야 합니다. 유저의 네트워크 환경이 다양하기 때문입니다. 요청이 실패하면 경우에 따라 유저가 말을 걸어도 NPC 가 반응을 하지 않는 등 의도하지 않게 게임에 갇힐 수 있습니다. 그래서, 요청이 실패했을 때 화면이 어떻게 나와야 하는지, 다
데브시스터즈
·
2일 후
logo
시각 정보를 소리로 번역하는 법 - 시각장애인을 위한 얼굴 인증 개선기 | 접근성 업무일지 #2
시각장애인 전용 얼굴 인증 화면을 만든 이유토스에서는 송금이나 결제를 할 때 이상 거래가 감지되면, 보안을 위해 기능이 일시적으로 차단돼요. 이때 얼굴 인증으로 본인 확인을 해야 차단이 해제되죠. 대부분 사용자에게 얼굴 인증은 몇 초 만에 자연스럽게 지나가는 과정일 수 있지만, 시각장애인 사용자에게는 전혀 다른 경험일 수 있어요.정확한 지시 없이 카메라를 바라보며 시선을 고정하는 건 쉬운 일이 아니거든요. 다른 사람이 옆에서 “왼쪽으로 조금 더 고개 돌려보세요” 등의 도움을 줘야만 인증을 마칠 수 있는 경우가 대부분이었죠. 인증 없이는 송금 등 주요 기능을 사용할 수 없기 때문에, 시각장애인이 도움 없이 혼자서 인증 할 수 있는 환경을 만드는 건 꼭 필요한 일이었어요.그래서 인증팀과 논의 끝에 스크린리더 사용자 전용 얼굴 인증 과정을 따로 만들기로 했어요. 시각장애인 사용자를 직접 초대해 UT를 진행했고, 계속 이터레이션하며 새로운 흐름을 설계했죠.이 글에서는 UT에서 발견한 점을 시안에 어떻게 적용해갔는지 하나씩 소개해볼게요.얼굴 인증은 안내에 따라 여러 방향으로 고개를 돌리고, 몇 초간 가만히 있어야 해요. 처음에는 고개 돌리는 동작이 어렵지 않을까 싶어, 자세한 텍스트 안내를 준비했는데요. 막상 테스트해보니 대부분의 사용자가 무리 없이 잘 따라 하셨어요.문제는 그다음이었어요. 지금 얼굴이 제대로 인식되고 있는지, 내가 잘 하고 있는지 알 수 없다는 점이었죠. 기존 화면에서는 프로그레스 바로 진행 상태를 시각적으로만 안내하고 있었기 때문에, 스크린리더 사용자 입장에선 현재 상태를 파악하기 어려웠어요.단순히 숫자를 읽어주는 방식보다는, 프로그레스 바처럼 시각적인 요소를 청각적으로 더 직관적으로 전달하는 게 중요하다고 생각했어요. 그래서 ‘진행 중’ 사운드와 ‘완료’ 사운드를 인증 흐름의 각 단계에 삽입했어요.사용자들은 진행 과정에서 큰 불안 없이 훨씬 더 수월하게 따라올 수 있었어요. 청각 UX란 단순히 텍스트를 소리로 읽어주는 것을 넘어, 시각적으로 의미 있는 모든 피드백을 ‘소리’로 전환하는 일이라는 점을 다시금 실감할 수 있었죠. 이번 얼굴 인증 접근성 개선의 핵심도 바로 여기에 있었어요. 처음엔 텍스트만 읽히면 충분하다고 생각했지만, 실제로는 프로그레스 바와 같은 그래픽 요소에도 중요한 정보가 담겨 있었죠. 이 시각적 정보를 사운드로 ‘번역’하면서 비로소 사용자에게 직관적으로 느껴지는 UX를 구현할 수 있었어요.기존 얼굴 인증 플로우는 30초 동안 얼굴 인식에 실패했을 때, ‘다시찍기’ 버튼을 눌러야 해요. 그런데 UT 중 시각장애인 사용자가 이 버튼을 찾기 위해 화면을 더듬다가 자세가 흐트러지고, 다시 얼굴을 맞추기 어려워져 인증을 실패하는 경우가 있었어요.그래서 이 흐름을 바꿔보기로 했어요. 오류 피드백은 “얼굴이 원을 벗어났어요”처럼 간단한 토스트 메시지로 전달하고, 곧바로 다시 안내가 이어지도록 구성했어요. 버튼을 누르지 않아도 흐름이 자연스럽게 이어지도록 한 거죠. 사실 오류 메시지만 정확히 전달된다면, 굳이 버튼을 누
비바리퍼블리카
·
오늘
logo
Apache Airflow에 한국어로 기여해보자!
Apache Airflow가 3.0 버전으로 올라가면서, 기존의 FAB(Flask App Builder) 기반 UI에서 React 기반 UI로 전면 개편되었습니다.이 과정에서 여러 흥미로운 기능들이 추가되었는데요,이번 글에서는 그 중 하나인 i18n 기능과, 한국어 번역 기여 가이드에 대해 소개해드리겠습니다.Airflow의 i18n(Internationalization) 프로젝트는 Airflow의 웹 UI를 다양한 언어로 번역할 수 있도록 국제화를 지원하는 작업입니다.이 프로젝트는 문자열을 모국어로 변경하는 것 이상으로, 다음과 같은 목표를 가지고 있습니다:• None 글로벌 커뮤니티 활성화: 다양한 언어권 기여자들의 참여 유도• None 번역 품질 유지: 일관된 용어와 구조를 유지해 지속 가능성 확보현재 Airflow는 영어를 기본 언어(default locale)로 사용하며, 각 언어별 JSON 파일을 통해 다양한 locale을 지원하고 있습니다.한국어도 공식적으로 지원되는 locale 중 하나이며, 지속적인 기여가 필요한 상황입니다.Airflow의 UI 번역에 기여하려면 로컬 환경에서 번역 파일을 수정하고, 실제 UI에서 어떻게 보이는지 테스트해볼 수 있어야 합니다.이를 위해 Airflow에서는 공식 개발 툴인 Breeze를 사용합니다.Breeze는 Docker Compose 기반으로 작동하므로, 사용 전에 Docker 환경이 실행 중이어야 합니다.• None 옵션을 통해 코드 수정을 핫 로드 가능하도록 합니다.※ 위 옵션들은 필요에 따라 수정 가능합니다.명령어를 실행하면 아래와 같이 나올 것입니다.그럼 으로 Airflow UI에 들어가서 , 으로 로그인 해줍니다.좌측 하단의 User > Select Language 를 통해 UI를 한국어로 변경할 수 있습니다.그럼 이제 번역 기여 방법에 대해서 알아봅시다.Airflow의 번역은 단순히 "PR을 열고 번역을 올린다"는 것만으로 끝나지 않습니다.공식 정책에 따라 책임자, 승인자, 검수 절차 등이 세분화되어 있어, 기여 전에 몇 가지 구조를 이해해두면 좋습니다.Airflow UI 한국어 번역 파일은 다음 경로에 위치합니다:여기에 각 UI 텍스트에 해당하는 key-value 형태의 JSON이 있으며, "value" 부분을 번역하는 것이 저희의 역할입니다.만약 새로운 UI 문자열이 추가되면, 한국어 번역 파일에도 해당 키가 추가 되며, 로 표시되어, 번역이 필요한 항목을 쉽게 찾을 수 있습니다:이러한 항목들을 찾아 번역하고 PR을 보내는 것이 가장 기본적인 기여 방법입니다.Airflow에 누락된 번역을 자동으로 검사하고, TODO 항목을 추가해주는 도구가 있습니다.이 명령어를 실행하면 아래와 같은 결과가 출력됩니다:각 파일별로 어떤 항목이 누락되었는지, 파일별 번역 진행률이 얼마인지도 확인할 수 있습니다.이 명령어를 통해 를 생성할 수 있으니, 새로운 UI 문자열이 추가되면 해당 명령어를 실행해주어야합니다.그리고 번역을 하면서 몇 가지 팁이 있자면:• None Breeze 환경에서 직접 UI를 띄워 번역이 어떻게 반영되는지 테스트해보세요.• None 영어를 직역하기보다는 자연스럽고 사용자 친화적인 표현이 중요합니다.• None 이나 등 형식 요소는 반드시 그대로 유지해주세요.• None 한 PR에서 너무 많은 항목을 다루기보다는, 관련한 항목끼리 묶어서 올리는 것이 좋습니다.• None 가능하면 기존에 번역보다 TODO: 로 표시된 항목을 번역하는 것이 우선입니다.• None PR 설명에는 어떤 항목들을 번역했는지 간략하게 명시하면 좋습니다.• None 번역시 일관된 용어 사용을 위해 기존 번역 예시를 참고해주세요.Airflow의 i18n 정책에 따르면, 모든 번역 PR은 다음 조건을 충족해야합니다.• None 해당 언어의 Translation Owner가 언어적 측면을 승인해야 합니다.• None Code Owner 또는 커미터가 기술적 측면(포맷, 린트 등)을 확인하고 병합합니다.따라서 PR을 하실 때, 아래와 같이 저희를 태그해서 진행해주시면 더욱 빠른 리뷰에 도움이 됩니다!번역은 기여를 시작하는 데 가장 부담이 적은 방법 중 하나입니다.하지만 단순한 작업 그 이상으로, Airflow의 기여 방식과 문화를 체험하는 가장 좋은 기회이기도 합니다.처음엔 작은 오타 하나, 하나의 문장을 자연스럽게 고치는 것부터 시작해보세요.혹시 기여를 하고 싶은데 어려움이 있다면,이 게시글 댓글을 통해 언제든지 편하게 질문해주세요!
SK텔레콤
·
오늘
logo
레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드
네이버 사내 기술 교류 행사인 NAVER ENGINEERING DAY 2025(5월)에서 발표되었던 세션을 공개합니다.이 세션에서는 BERT기반 모델인 SPLADE모델의 대규모 실시간 서비스를 위한 최적화 방법에 대해서 이야기 합니다. 세상에서 가장 빠른 BertTokenizer 구현체인 FlashTokenizer 의 개발 배경과 성능에 대해 소개합니다.실시간 서빙을 위한 모델 추론 최적화가 필요하신 분들NAVER에서는 사내 개발 경험과 기술 트렌드를 교류를 할 수 있는 프로그램이 많이 있습니다. 그중 매회 평균 70개 이상의 발표가 이루어지는 NAVER ENGINEERING DAY를 빼놓을 수 없는데요. 2016년부터 시작된 ENGINEERING DAY는 실무에서의 기술 개발 경험과 새로운 기술과 플랫폼 도입 시 유용하게 활용될 수 있는 팁 등을 공유하며 서로 배우고 성장하는 네이버의 대표적인 사내 개발자 행사입니다. 올해 진행된 NAVER ENGINEERING DAY의 일부 세션을 공개합니다.
네이버
·
하루 전
logo
AI 검색 엔진 PAAS, 그리고 AI Agent 로서의 성장 잠재력
AI 검색 엔진의 부상 (검색의 진화)다음은 "AI 검색이 기존의 검색과 어떻게 다른지 설명해줘"라는 질문를 구글과 Chat GPT에 각각 던졌을 때의 답변입니다.기존의 검색 (구글)과 AI 검색 (Chat GPT)이 어떻게 다른지를 보여주는 대표적인 예입니다."AI 검색이 기존 검색과 어떻게 달라" 라고 묻는다면, 아마 대부분의 사람들은 "정답을 바로 말해주는 것"을 꼽을 것입니다.원하는 정보를 찾기 위해, 링크를 하나하나 찾아 들어가 문서를 직접 읽고 정리해야 했던 기존의 검색과 달리,AI 검색은 관련 문서를 "AI 가" 모두 읽고, 사용자가 원하는 답을 "AI 가" 정리해 줍니다.답을 하기 까지 시간이 다소 소요되기도 하고,때로는 거짓 정보를 제공하거나 있지도 않은 정보를 만들어내기도 하지만,바로 답을 내어주는 AI 검색의 편의성은 이 모든 단점을 모두 감내하고도 남을만한 신기한 경험을 사용자에게 제공해 줍니다.문서를 대신 읽고 사용자 질문에 맞는 답을 해주는 AI 검색은 어쩌면 검색의 가장 본질적이면서도 동시에 (현재로서는) 가장 진화된 형태라 할 수 있을 것입니다.AI 검색 엔진의 내재화 필요성LLM 이 개발되면서 AI 검색 엔진 개발의 난이도가 다소 낮아진 것은 사실입니다.검색 엔진 개발에 있어서 가장 어려운 부분인 질의 분석과 문서 색인 그리고 답변 요약 기능이 모두 LLM과 RAG 등의 LLM 연관 기술로 어느 정도 해결이 가능해 졌기 때문입니다.Perplexity 가 AI 검색 엔진을 처음 선보이고 나서 유사한 기능의 AI 검색 엔진이 여럿 나올 수 있었던 배경에는 이러한 LLM 의 등장이 가장 컸습니다.고성능의 AI 검색 엔진이 존재함에도 불구하고 SKT 내부에서 AI 검색 엔진을 자체적으로 개발하게 된 배경은 다음과 같습니다.첫째로는 한국의 지역적 특성 때문입니다.성능이 좋다고 알려진 Perplexity 도 한국에서 일어난 이슈에 대해 실시간으로 대응을 제 때 해주지 못할 때가 있습니다.아래는 그 대표적인 예입니다.두 번째로는 AI 검색 엔진의 기술과 그들이 제공해주는 API 간의 성능 차이 입니다.AI 검색 엔진들은 사용자의 복잡하고 다양한 질문에 대응하기 위해 보다 많은 비용을 들여 높은 수준의 검색 기술을 개발하게 됩니다.그러나 그들이 제공하는 API 는 그들이 가진 고수준의 검색 결과 보다는 가성비가 가장 좋은 (다소 낮은) 수준의 검색 결과를 제공합니다.API를 제공받는 곳에서 높은 수준의 검색 결과를 기대하기 어려운 이유입니다.마지막으로 커스터마이징 이슈입니다.서비스에 필요한 특정 질의 군의 검색 결과가 맘에 들지 않아 개선하고 싶거나,서비스 개발을 위해 입력이나 출력의 포맷 변경이 필요한 경우 모두,전적으로 검색 엔진 개발 업체에 기대할 수 밖에 없습니다.이러한 이유로 AI 검색 엔진의 내재화가 필요하다 판단되었고,2024년 7월부터 AI 검색 엔진 개발 프로젝트가 시작되었습니다.AI 검색엔진 PAAS는 2024년 7월에 개발을 시작하여 2024년 9월 그 첫 번째 버전을 내부에 공개하였습니다.2024년 12월에는 시스템 안정성과 검색 성능 향상 그리고 검색 서비스 제공을 위한 API 를 구축하였습니다.그리고 2025년 1월, 외부 AI 검색 엔진과 비교하여 적은 비용으로 수준 높은 검색 품질을 제공한다는 성능 실험 결과를 인정받아 에이닷에 적용되었습니다.에이닷에서 최신 정보를 요구하는 질문을 하신다면 PAAS가 답할 확률이 높습니다.아래는 PAAS 답변의 예입니다.출처가 노출되었다면 PAAS 답변일 가능성이 높습니다.PAAS 는 Personal AI Assistant Search 의 약자입니다.개인 AI 비서 검색이라는 단순한 이름을 가지고 있지만, 사용자의 질문에 보다 정확하고 풍부한 답을 제 시간에 제공하기 위해 노력하고 있습니다.다음은 PAAS 의 내부 구조입니다.각 모듈이 담당하는 역할을 간단히 소개하면 다음과 같습니다.• None 사용자 대화 이력과 사용자 질의를 입력 받아 검색 필요 여부, 검색 유형, 검색 플랜, 유효 수집 기간 등을 분석하여 Query Processor 에 전달합니다.• None• None• None 원본 질의 만으로 문제 해결 가능• None• None 원본 질의와 확장 질의로 문제 해결 가능• None 예) "아이유 연기활동과 최근 출연작 알려줘"• None• None 질의를 분해하고 분해한 질의들을 모두 검색하고 종합해야 문제 해결 가능• None 예) "포토프린터 대표적인 거 몇 개 찾아서 이들의 장단점과 평가 그리고 가격을 정리해줘"• None• None PAAS는 문제를 풀기 위한 검색 플랜을 생성합니다. 다음은 그 예입니다.• None 아래 검색 플랜 예제에서는 모두 9개의 확장 질의가 만들어졌음을 확인할 수 있습니다.• None (확장) 질의를 입력받아 관련있는 문서들을 모두 찾아 Search Processor 에 전달합니다.• None 관련 문서의 수가 부족할 경우에는 크롤러에게 수집 요청을 하게 되고, 크롤러는 다방면으로 시드를 수소문하여 관련 문서를 수집합니다.• None 빠른 시간 내에 AI 검색 엔진을 만들 수 있었던 배경에는 저희 본부가 다음의 시스템/모듈들을 미리 구축 및 개발해 두었기 때문입니다.• None Index 로부터 얻어진 후보 문서들을 최신으로 업데이트 합니다.• None 후보 문서의 수집 시간이 Search Planner 에서 제공해 준 유효 수집 기간 내에 있다면 업데이트 하지 않습니다.• None 방문하는 사이트의 트래픽을 최소화하기 위해 (Crawler와 Scraper의 각 사이트) 방문 주기와 횟수는 Global TPS Controller 에 의해 엄격히 통제 및 관리됩니다.• None 웹 컬렉션 (컬렉션은 문서의 묶음입니다.) 외에 뉴스, 증권과 같은 다른 컬렉션이 존재한다면 컬렉션 랭킹을 먼저 수행합니다. (컬렉션 랭킹 또한 Search Planner 에서 제공해 준 정보를 이용합니다.)• None 다음으로 컬렉션 내 후보 문서들의 랭킹을 매깁니다. 만약 문서와 질의간의 유사도가 많이 낮다면 문서를 후보 셋에서 제거합니다.• None 사용자의 대화 이력과
SK텔레콤
·
하루 전
logo
최신 논문 분석을 통한 LLM의 환각 현상 완화 전략 탐구
대형 언어 모델(LLM)은 방대한 데이터를 학습하여 인간과 유사한 문장을 생성할 수 있는 능력을 갖추었지만, 종종 실제 사실과 일치하지 않는 그럴듯한 출력을 만들어내기도 합니다. 이를 환각(hallucination)이라 하며, 사용자에게는 설득력 있어 보이지만 사실에 근거하지 않은 정보를 생성하는 현상입니다. 예를 들어, 약물의 부작용에 대해 잘못된 내용을 자신 있게 제시하거나, 존재하지 않는 법적 판례를 만들어내는 경우입니다. LLM은 확률적 예측 기반으로 작동하기 때문에, 생성된 내용의 진위를 스스로 판단하거나 검증하지 못합니다. 이러한 환각 현상은 LLM의 신뢰성(reliability)을 심각하게 저해하는 문제로, 임상·법률·금융 등 정밀한 정보가 요구되는 분야에서 특히 위험할 수 있습니다.LLM 환각의 원인은 다양하지만, 크게 다음의 세 가지로 요약할 수 있습니다.• 모델이 학습한 데이터에 부정확하거나 편향된 정보가 포함된 경우, 그 오류가 그대로 재생산될 수 있습니다. 부정확한 인터넷 자료나 오래된 정보가 데이터에 섞여 있다면, 모델은 이를 사실로 학습하여 잘못된 정보를 생성하게 됩니다.• LLM은 자신이 알고 있는 것과 모르는 것을 구분하지 못하고 무조건 답변을 제공하려는 경향이 있습니다. 모델의 출력은 ‘가장 그럴듯한 다음 단어’를 예측하는 방식이기 때문에, 자신의 지식 한계나 불확실성을 고려하지 않고 높은 확률의 결과를 제시합니다. 이로 인해 틀린 정보도 매우 확신에 찬 어조로 전달되어 마치 사실처럼 보이게 됩니다.• LLM은 학습한 데이터 외에는 외부 정보 확인 능력이 없습니다. 생성된 내용이 사실인지 확인하는 내부 시스템이나 외부 데이터 연동 기능이 없기 때문에, 오류를 걸러낼 수 없습니다. 즉, 모델 스스로 사실 여부를 확인하거나 수정할 수 없기 때문에, 잘못된 정보를 ‘검증 없이’ 그대로 출력하게 됩니다.이 외에도 모델 크기 증가로 인해 기억 능력은 향상되었지만, 미지의 지식(knowledge boundary)에 대한 인식은 오히려 부족해지는 현상도 나타납니다. 모델이 자신이 알지 못하는 질문에 대해서도 무작정 답변을 시도하기 때문에, 정답이 존재하지 않는 질문에 대해서도 그럴듯한 답변을 만들어내는 것입니다.환각 문제를 완전히 제거하기는 어렵지만, 다양한 기법을 통해 발생 빈도를 줄일 수 있습니다. 주요 접근 방식은 다음과 같습니다.• 고품질 데이터로 미세조정(Fine-Tuning)• 학습 데이터의 품질을 높이면 모델의 출력을 더 정확하게 만들 수 있습니다. 검증된 신뢰할 만한 자료를 선별하여 모델을 미세조정하면, 잘못된 정보를 학습할 가능성이 줄어들어 환각 현상을 감소시킬 수 있습니다. 예를 들어, 의료 문헌이나 공식 기록 등 정확한 데이터를 사용해 추가 학습을 진행하면, 모델이 오류 있는 정보에 노출될 확률을 줄일 수 있습니다.• 인간 평가자가 모델의 출력을 평가하고 피드백을 제공하여, 이를 강화 학습 과정에 반영하는 방법입니다. RLHF에서는 평가자가 모델의 응답을 점수화하여 부정확한 답변에는 페널티를 부여하고, 올바른 답변에는 보상을 제공합니다. 이를 통해 모델이 점차 유용한 답변을 학습하게 되며, 부정확한 출력을 줄일 수 있습니다. GPT-4도 RLHF를 통해 반복 학습을 거치며 출력 품질을 향상시킨 것으로 알려져 있습니다.• 모델이 자신의 기억에만 의존하지 않고 외부 데이터베이스나 문서를 참조하도록 하는 기법입니다. RAG를 적용하면, 모델이 사용자 질문에 답할 때 신뢰할 수 있는 외부 소스(예: 위키피디아, 논문 등)에서 관련 정보를 검색하여 활용하게 됩니다. 이를 통해 모델의 지식 한계를 보완하고, 생성된 문장을 사실 기반으로 교정할 수 있습니다. 단점으로는 대규모 검색 처리가 필요해 계산 비용이 많이 든다는 점이 있습니다.• 모델 출력을 직접 검증하는 단계로, 규칙 기반 필터나 추가적인 점수화 과정을 활용합니다. 예를 들어, 생성된 여러 후보 답변을 문장 유사도나 사실 검증 알고리즘으로 재평가하여 가장 신뢰할 수 있는 답변을 선택하거나, 비현실적이거나 근거 없는 답변을 제거합니다. 또한, 모델의 신뢰도 보정(calibration) 기법도 적용됩니다. 모델이 각 답변에 자신감 점수를 부여하도록 학습시키거나, 온도 파라미터(Temperature Parameter)를 조정하여 출력을 덜 무작위적으로 만들면, 낮은 확률의 답변이 줄어들어 허위 응답 가능성이 감소합니다.이처럼 고품질 데이터 미세조정, RLHF, RAG, 검증 시스템 등의 다양한 방법이 환각을 줄이는 데 활용되고 있습니다. 다만, 이들 방식은 계산 비용 증가, 모델 유연성 저하 등의 한계도 존재합니다. 예를 들어 RAG는 외부 지식 조회에 많은 연산이 필요하고, RLHF는 다수의 인간 평가 작업이 필요하여 비용이 많이 듭니다. 그럼에도 의료, 금융, 법률처럼 높은 정밀도가 요구되는 분야에서는 이러한 기법들이 필수적으로 사용되고 있습니다.강화 학습 파인튜닝(Reinforcement Finetuning, RFT)이 모델의 추론 능력을 높이는 대신, 의도치 않은 부작용을 유발할 수 있다는 연구 결과가 발표되었습니다. 연구진은 표준 RFT를 적용한 모델들이 답이 불분명하거나 정보가 부족한 질문에 대해 “모르겠다”라고 답하는 대신, 허구의 답변을 자신 있게 제공하는 “환각 세금(hallucination tax)” 현상을 발견하였습니다. 구체적으로, RFT 학습을 거친 모델은 답이 없는 문항에 대해 거절률(refusal rate)이 80% 이상 감소하였으며, 환각성 답변율은 오히려 증가하였습니다.이 문제를 해결하기 위해 연구진은 Synthetic Unanswerable Math (SUM)라는 합성 수학 문제 데이터를 사용하였습니다. SUM은 일부 정보가 의도적으로 누락되어 풀 수 없는 수학 문제들로 구성되어 있으며, 모델이 “답할 수 없다”라고 판단하고 거부 응답을 할 수 있도록 훈련됩니다. 훈련 데이터에 SUM 문제를 10% 포함해 학습한 모델은 답이 없는 문항에서 적절히 “모르겠다”라고 응답하는 비율이 높아졌고, 환각성 답변은 줄어들었습니다. 이와 같은 학습 방식은 모델의 성능 저하
한글과컴퓨터
·
하루 전
기술 블로그 더 보기
Copyright © 2025. Codenary All Rights Reserved.