1 life 2 live

SLM as Guardian Pioneering AI Safety with Small Language Models [2024.7.4] 본문

스마트팩토리(스마트 제조)

SLM as Guardian Pioneering AI Safety with Small Language Models [2024.7.4]

대희투 2024. 7. 4. 23:42

SLM as Guardian Pioneering AI Safety with Small Language Models.docx
0.37MB
SLM as Guardian Pioneering AI Safety with Small Language Models.pdf
2.73MB
SLM as Guardian Pioneering AI Safety with Small Language Models.pptx
0.59MB

간단하게 논문 리뷰했다.

Target Paper 논문제목: SLM as Guardian Pioneering AI Safety with Small Language Models
게재 저널명, //페이지 정보: https://arxiv.org/abs/2405.19795
게재년월일: May 2024
저자(): Naver (Ohjoon Kwon, Donghyeon Jeon, Nayoung Choi, Gyu-Hwung Cho, Changbong Kim, Hyunwoo Lee, Inho Kang, Sun Kim, Taiwoo Park)
DOI: https://arxiv.org/abs/2405.19795
St 1. What: 무엇이 주된 이슈인가?
1)     최근 생성형 대형 언어 모델(LLMs)은 크게 확장되어 보편적으로 사용 가능해졌다.
2)     자연어 명령을 이해하고 응답하는 능력이 향상되었지만, 악의적인 목적으로 악용될 가능성이 있다.
3)     LLM의 안전성을 강화하는 연구가 진행되고 있지만, 매번 업데이트하는 것은 비용이 많이 든다.
4)     저비용으로 안전 정렬을 업데이트하고, 추가 파라미터 업데이트 없이 모델의 응답을 제어할 수 있는 능력이 필요하다.
5)     sLLM을 사용하여 낮은 계산 비용으로 안전성 문제를 해결하는 별도의 모델을 구축하는 것이 합리적이다.
6)     sLLM을 활용하여 유해한 사용자 쿼리를 정확하게 감지하고 안전한 응답을 생성하는 방법을 제안한다.
2. How: 어떻게 문제에 접근했나?
1)     다중 작업 학습(Multi-Task Learning) 적용: 유해 쿼리 감지와 안전 대응 생성 작업을 동시에 학습하는 다중 작업 학습 접근 방식을 사용함. 이 접근 방식은 두 작업이 서로 관련이 있기 때문에, 하나의 작업이 다른 작업의 성능을 향상시키는 시너지 효과를 나타냄. 한국어로 진행한 실험을 진행하여, 다른 언어에 대한 안전성 연구의 기초를 확립
2)     특수 토큰 사용: 유해 쿼리 감지와 안전 응답 생성을 위한 특수 토큰을 도입하여 모델이 각 작업을 명확하게 구분하고 수행함. 특수 토큰을 활용하여 작은 모델에서도 높은 성능을 발휘할 수 있도록 최적화함

<특수 토큰 사용 예시>
3)     일반 명령 튜닝(Instruction Tuning): 안전 관련 작업을 시작하기 전에 일반 명령을 따르는 능력을 모델에 내재화함. 이를 통해 모델이 자연어 명령을 더 잘 이해하고, 이후의 특정 작업에서 더 높은 성능을 발휘할 수 있음.
4)     효율적인 구현: 메모리 사용량과 실행 시간을 줄이기 위해 효율적인 구현 방식을 채택함. 인과적 다중 헤드 어텐션(causal multi-head attention)을 효율적으로 구현하여 훈련 과정에서 자원 소모를 줄였음.


<LLM을 활용하여 안전하지않은 쿼리에 대한 답변 수집 후 Q, A, L에 대한 작은 모델을 훈련함>
 
5)     데이터셋 구축: 다양한 공개 소스 데이터셋(BEEP, APEACH, KOSBI, SQUARE)을 사용하여 유해 및 안전 쿼리를 수집함. 기존 유해 쿼리를 기반으로 합성 데이터를 생성하여 훈련 데이터셋을 보충함. 여러 한국어학자가 손으로 큐레이션한 사내 데이터셋을 포함하여 데이터셋의 품질을 높임.
6)     점진적 학습(Incremental Learning): 일반 도메인 명령 튜닝을 먼저 수행한 후, 안전 모델링을 위한 특정 작업에 대해 점진적으로 학습을 진행함. 이를 통해 모델의 기본적인 이해 능력을 높이고, 목표 특정 미세 조정에서 더 높은 성능을 달성함.
7)     실험 및 검증: 다양한 공개 데이터셋(HarmfulQ, MultiJail, XSTEST)과 사내 데이터셋을 사용하여 제안된 접근 방식의 성능을 검증함. 다른 대형 언어 모델 및 API와 비교하여 제안된 sLLM의 성능을 평가함.


<In-house dataset>


<XSTEST dataset>


<HarmfulQ dataset>
 
8)     제안된 방법론은 sLLM을 사용하여 유해 쿼리를 감지하고 안전한 응답을 생성하는 데 효과적임을 입증함. 다중 작업 학습, 특수 토큰 사용, 점진적 학습 등을 통해 sLLM의 성능을 최적화함.
 


<SHAP value를 통한 XAI>>
 
3. Cons & Pros?
Pros:
-       sLLM을 사용하여 기존 대형 언어 모델보다 적은 자원으로도 높은 성능을 발휘함.
-       특수 토큰과 다중 작업 학습 등을 통해 모델의 효율성을 극대화함
-      한국어 기반의 연구를 진행함
 
Cons:
-       다른 언어로의 확장성 부족 / 일반화의 어려움

 

728x90
반응형
Comments