Test
- paper alignment Markdown format
- tranlslate
LIMA: 어울림에 있어서는 적은 것이 더 좋다
Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy
메타 AI, 카네기 멜론 대학교, 남가주 대학교, 텔아비브 대학교
요약
대형 언어 모델은 두 단계로 훈련됩니다. (1) 원시 텍스트에서 무감독 사전 훈련을 통해 일반적인 목적의 표현을 학습하고 (2) 대규모 지도 튜닝 및 강화 학습을 통해 최종 작업 및 사용자 선호도에 더 잘 어울리도록 조정됩니다. 우리는 65B 파라미터 LLaMa 언어 모델을 LIMA로 훈련하여, 강화 학습이나 인간의 선호 모델링 없이 1,000개의 신중하게 선별된 프롬프트와 응답에 대한 표준 지도 손실로만 미세 조정합니다. LIMA는 극도로 강력한 성능을 발휘하여, 훈련 데이터에서 소수의 예제만으로도 복잡한 쿼리를 포함한 특정 응답 형식을 따르는 것을 배우며, 훈련 데이터에 나타나지 않은 새로운 작업에 대해서도 일반적으로 잘 일반화됩니다. 제어된 인간 연구에서, LIMA에서 얻은 응답은 경우에 따라 GPT-4와 동등하거나 엄격하게 우선되며, 이 통계는 인간 피드백을 사용하여 훈련된 DaVinci003에 대해서는 65%에 이르며, Bard와 비교했을 때는 58%에 달합니다. 이러한 결과들은 대형 언어 모델의 거의 모든 지식이 사전 훈련 중에 학습되며, 높은 품질의 출력을 생성하는 모델을 가르치기 위해서는 제한된 지도 튜닝 데이터만 필요하다는 것을 강하게 시사합니다.
1 서론
언어 모델은 다음 토큰을 예측하기 위해 놀라운 규모로 미리 훈련되어, 거의 모든 언어 이해 또는 생성 작업에 전이할 수 있는 일반적인 목적의 표현을 학습할 수 있습니다. 이 전이를 가능하게 하기 위해, 주로 대규모 다백만 예제 데이터셋 [Chung et al., 2022, Beeching et al., 2023, Köpf et al., 2023]에서 지도 튜닝 [Mishra et al., 2021, Wei et al., 2022a, Sanh et al., 2022]에 초점을 맞춘 다양한 방법이 제안되었으며, 최근에는 인간의 피드백을 기반으로 한 강화 학습(RLHF) [Bai et al., 2022a, Ouyang et al., 2022]이 수백만 개의 인간 주석자와 상호 작용하면서 수집됩니다. 기존의 어울림 방법은 ChatGPT 수준의 성능을 달성하기 위해 상당한 계산량과 전문적인 데이터가 필요합니다. 그러나 우리는 강력한 사전 훈련된 언어 모델이 주어진 경우, 1,000개의 신중하게 선별된 훈련 예제에 미세 조정하는 것만으로 극도로 강력한 성능을 발휘할 수 있다는 것을 보여줍니다.
우리는 모델이 사용자와 상호 작용하는 스타일이나 형식을 배우면 사전 훈련 중에 이미 습득한 지식과 능력을 드러낼 수 있는 간단한 프로세스로 어울림을 달성할 수 있다고 가설을 세우고 있습니다.
정렬 데이터
우리는 표면적 정렬 가설(Superficial Alignment Hypothesis)을 정의합니다. 이 가설은 모델의 지식과 능력이 사전학습(pretraining) 중에 거의 배워졌다는 것을 의미하며, 정렬은 사용자와 상호작용할 때 사용해야 하는 하위 포맷(subdistribution)을 모델이 학습하는 것이라고 할 수 있습니다. 만약 이 가설이 맞고, 정렬이 대부분 스타일을 학습하는 것이라면, 미세조정(pretrained language model)을 상당히 적은 양의 예시로 충분히 튜닝할 수 있다는 것을 의미합니다 [Kirstain et al., 2021].
이를 위해, 우리는 1,000개의 프롬프트(prompt)와 응답(response)의 데이터셋을 수집합니다. 여기서 출력(응답)은 스타일적으로 서로 정렬되어 있지만 입력(프롬프트)은 다양합니다. 구체적으로, 우리는 도움이 되는 인공지능(AI) 어시스턴트의 스타일로 출력을 구성합니다. 이러한 예시들은 주로 커뮤니티 Q&A 포럼과 수동으로 작성된 예시들로부터 선별됩니다. 또한 300개의 프롬프트로 이루어진 테스트 세트와 50개의 개발 세트를 수집합니다. 테이블 1은 다양한 데이터 소스의 개요와 몇 가지 통계 정보를 제공합니다.
커뮤니티 Q&A
우리는 세 개의 커뮤니티 Q&A 웹사이트(Stack Exchange, wikiHow, Pushshift Reddit Dataset)로부터 데이터를 수집합니다 [Baumgartner et al., 2020]. 대체로, Stack Exchange와 wikiHow의 답변은 권위적이고 정확하며, Pushshift Reddit Dataset의 답변은 더욱 캐주얼하고 대화체적입니다. 우리는 질과 다양성을 샘플링하여, 두 개의 Stack Exchange 사이트와 wikiHow에서 각각 200개의 프롬프트와 응답을, 그리고 Pushshift Reddit Dataset에서 150개의 프롬프트와 응답을 수집합니다.
수동으로 작성된 예시
커뮤니티 Q&A 포럼 외에도, 우리는 프롬프트와 응답의 예시들을 수동으로 작성합니다. 우리는 작업의 다양성과 AI 어시스턴트의 정형화된 응답 스타일을 강조하여 최적화합니다. 구체적으로, 우리는 250개의 프롬프트와 응답 예시를 작성하여 이 분류에서 총 450개의 프롬프트와 응답을 수집합니다.
테스트 세트
우리는 LIMA를 평가하고, 일반적인 지식 질문부터 개인적인 조언까지 다양한 주제를 다루는 300개의 어려운 테스트 프롬프트에 대해 최신 언어 모델과 제품들과 비교합니다. 우리는 질과 다양성을 샘플링하여, 현존하는 언어 모델의 한계까지 밀어내는 어려운 테스트 세트를 만듭니다.
개발 세트
우리는 또한 50개의 프롬프트와 응답으로 이루어진 개발 세트를 수집하여, 모델을 미세조정하고 평가하는 데 사용합니다.
전반적으로, 우리의 데이터셋은 훈련, 개발 및 테스트 세트로 나뉘어 1,000개의 프롬프트와 응답으로 구성됩니다. 총 훈련 데이터의 양은 750,000개의 토큰이며, 정확히 1,000개의 시퀀스로 나누어집니다. 우리는 이 데이터셋을 사용하여 LIMA를 사전학습하며, 이를 위해 65B-파라미터 LLaMa 모델 [Touvron et al., 2023]을 이 데이터셋의 1,000개의 데모로 미세조정(fine-tuned)합니다.## Arxiv 논문을 Markdown 형식으로 정렬하기
소개
이 논문에서는 우리가 유용한 AI 어시스턴트를 훈련하기 위해 다양한 데이터 소스를 형식에 맞게 정렬하는 과정을 설명합니다. 구체적으로, 우리가 사용한 데이터 소스, 샘플링 방법론 및 각 데이터 소스에 적용한 전처리 단계를 논의하여 유용한 AI 어시스턴트의 스타일과 일치하도록 보장합니다.
데이터 소스
우리는 세 가지 데이터 소스를 사용했습니다 : StackExchange, wikiHow 및 Pushshift Reddit 데이터 세트입니다.
StackExchange
StackExchange는 각각 특정 주제에 헌신된 179 개의 온라인 커뮤니티 모음입니다. 우리는 75 개의 STEM 교환과 99 개의 다른 교환에 초점을 맞추었으며 5 개의 니치 교환을 제외했습니다. 우리는 다양한 도메인의 균일한 샘플을 얻기 위해 온도가 3 인(temperature of 𝜏 =3) 200 개의 질문과 답변을 각각 샘플링했습니다. 각 교환에서, 제목 (바디 없음) 에서 자체 포함 된 가장 높은 점수의 질문을 가져 왔으며 (적어도 10 개의 강한 양의 점수를 가진) 각 질문에 대한 상위 답변을 선택했습니다. 우리는 너무 짧은 (1200 자 미만), 너무 긴 (4096 자 이상), 첫 번째 사람으로 쓰인 ("나", "내"), 또는 다른 답변을 참조하는 ("언급 된대로", "스택 교환" 등) 답변을 제거했습니다. 또한 응답에서 링크, 이미지 및 기타 HTML 태그를 제거하고 코드 블록과 목록만 보존했습니다.
wikiHow
wikiHow는 다양한 주제에 대한 240,000 개 이상의 how-to 기사가 포함 된 온라인 위키 스타일 게시물입니다. 우리는 19 개 중 하나의 카테고리를 먼저 (예 : "오믈렛 요리 방법") 샘플링하고 그 안에있는 기사를 샘플링하여 다양성을 보장했습니다. 우리는 제목을 프롬프트로 사용하고 본문을 응답으로 사용했습니다. 일반적인 "이 기사 ..." 시작을 "다음 답변은 ..."으로 대체하고 일부 전처리 휴리스틱을 적용하여 링크, 이미지 및 일부 텍스트 섹션을 가지치기했습니다.
Pushshift Reddit 데이터 세트
Pushshift Reddit 데이터 세트는 세계에서 가장 인기있는 웹 사이트 중 하나 인 Reddit에서 데이터를 포함합니다. 우리는 r / AskReddit 및 r / WritingPrompts 두 하위 집합으로 제한하고 각 커뮤니티에서 가장 많은 upvotes를받은 게시물 내에서 예제를 수동으로 선택했습니다. 우리는 r / AskReddit에서 70 개의 자체 포함 프롬프트 (제목 만, 바디 없음)를 찾았으며, 상위 답변이 항상 신뢰성이있는 것은 아니기 때문에 테스트 세트로 사용했습니다. WritingPrompts subreddit은 허구의 이야기 전제를 포함하며, 다른 사용자는 창의적으로 완성하도록 권장됩니다. 우리는 사랑 시와 짧은 과학 소설과 같은 주제를 포함하는 150 개의 프롬프트와 고품질 응답을 찾았으며, 이를 교육 세트에 추가했습니다.
수동으로 작성 된 예제
온라인 커뮤니티에서 사용자가 묻는 질문 이상으로 데이터를 다양화하기 위해 우리 자신 (이 작업의 작성자)의 프롬프트를 수집했습니다. 우리는 그룹 A와 그룹 B의 두 집합을 지정하여 각각 250 개의 프롬프트를 작성하도록했습니다. 그룹 A에서 200 개의 프롬프트를 교육에 사용하고 50 개의 프롬프트를 보유 개발 세트로 사용했습니다. 일부 문제가있는 프롬프트를 필터링 한 후 남은 230 개의 프롬프트를 그룹 B에서 사용했습니다. 우리는 교육 세트에 고품질 답변을 추가하여 직접 썼습니다. 답변을 작성하는 동안 우리는 유용한 AI 어시스턴트에 적합한 균일한 톤으로 설정하려고 노력했습니다. 구체적으로, 우리는 질문을 인정하고 답변 자체를 따르는 것입니다. 이 일관된 형식은 모델 성능을 일반적으로 향상시키고 사고 과정을 형성하는 데 모델을 돕는 것으로 추측됩니다.
결론
결론적으로, 우리는 다양한 데이터 소스를 유용한 AI 어시스턴트를 훈련하기에 적합한 형식으로 정렬했습니다. 우리는 우리의 샘플링 방법론과 각 데이터 소스에 적용한 전처리 단계를 논의하여 유용한 AI 어시스턴트의 스타일과 일치하도록 보장했습니다. 수동으로 작성된 예제는 데이터를 더욱 다양하게 만들고 모델 성능을 향상하는 데 도움이되었습니다.## 입력
우리는 독성이나 악의성의 정도를 가진 13개의 훈련 프롬프트를 포함합니다. 우리는 명령을 부분적으로 또는 완전히 거부하는 응답을 주의 깊게 작성하고, 어시스턴트가 왜 준수하지 않을 것인지 설명합니다. 또한 테스트 세트에서 비슷한 문제를 가진 30개의 프롬프트가 있으며, 이에 대해 4.3절에서 분석합니다. 수동으로 작성한 예제 외에도, 우리는 Super-Natural Instructions [Wang et al., 2022b]에서 50개의 훈련 예제를 샘플링합니다. 구체적으로, 요약, 패러프레이징, 스타일 전환과 같은 50개의 자연어 생성 작업을 선택하고 각각 하나의 무작위 예제를 선택합니다. 우리는 이들 중 일부를 200개의 수동 예제의 스타일에 맞게 약간 수정합니다. 잠재적 사용자 프롬프트의 분포는 Super-Natural Instructions의 작업 분포와 구별되는 것으로 주장할 수 있지만, 우리의 직관은 이 작은 샘플이 훈련 예제의 전반적인 다양성을 높이고 모델의 강건성을 증가시킬 수 있다는 것입니다. 다양한 프롬프트를 수동으로 작성하고 풍부한 응답을 균일한 스타일로 작성하는 것은 수고롭습니다. 최근 일부 연구에서는 [Honovich et al., 2022, Wang et al., 2022a, Taori et al., 2023, Chiang et al., 2023, Sun et al., 2023]와 같은 자동 수단을 통해 수동 작업을 피하고, 양보다 질을 최적화하는 방식으로 작업합니다. 이 연구는 다양성과 질에 투자하는 효과를 탐구합니다.
3 LIMA 훈련
우리는 다음 프로토콜을 사용하여 LIMA (Less Is More for Alignment)를 훈련시켰습니다. LLaMa 65B [Touvron et al., 2023]에서 시작해, 우리는 1,000개의 정렬 훈련 세트에서 파인튜닝합니다. 각 스피커 (사용자와 어시스턴트)를 구분하기 위해 각 발화의 끝에 특수한 end-of-turn 토큰 (EOT)을 도입합니다. 이 토큰은 생성을 중단하는 EOS와 동일한 역할을 하지만, 이미 선행 모델이 preexisting EOS 토큰에 부여한 다른 의미와 혼동되지 않도록합니다. 우리는 표준 파인튜닝 하이퍼파라미터를 따릅니다. 우리는 AdamW [Loshchilov and Hutter, 2017]를 사용하여 15회 epoch 동안 파인튜닝하며, 1= 0:9;2= 0:95 및 가중치 감소율 0:1을 사용합니다. 웜업 단계 없이 초기 학습률을 1e * 5로 설정하고 훈련 종료시 1e * 6로 선형 감소시킵니다. 배치 크기는 32개의 예제 (작은 모델의 경우 64개)로 설정하며, 2048 토큰보다 긴 텍스트는 잘립니다. 참고할 만한 한 가지 변화는 잔여 드롭아웃의 사용입니다. 우리는 Ouyang et al. [2022]를 따르고 잔여 연결 위에 드롭아웃을 적용하며, 최하층에서 pd = 0:0에서 시작하여 마지막 층에서 pd = 0:3으로 선형적으로 증가시킵니다 (작은 모델의 경우 pd = 0:2). perplexity는 생성 품질과 상관관계가 없기 때문에, 우리는 50개의 개발 세트에서 보유한 예제를 사용하여 5번째와 10번째 epoch 사이에서 수동으로 체크포인트를 선택합니다.
4 인간 평가
우리는 LIMA를 최첨단 언어 모델과 비교하여 평가하고, OpenAI의 RLHF 기반 DaVinci003와 52,000개의 예제로 훈련된 Alpaca의 65B-파라미터 재현을 능가하며, GPT-4보다 나은 또는 동등한 응답을 자주 생성한다는 것을 발견했습니다. LIMA 생성물의 분석에서 50%가 우수하다고 평가되었습니다. 이러한 몇 가지 예제를 사용하여 최첨단 기술에 경쟁할 수 있는 것으로 판명되므로, 대규모의 지시 튜닝과 강화 학습 접근 방식보다 사전 훈련과 그 상대적 중요성의 강력한 지지자인 Superficial Alignment Hypothesis (2절)를 강력히 지원합니다.
4.1 실험 설정
LIMA를 다른 모델과 비교하기 위해 각 테스트 프롬프트에 대해 단일 응답을 생성합니다. 그런 다음 크라우드워커에게 LIMA 출력물을 각 베이스라인과 비교하고 어느 것을 선호하는지 라벨을 지정하도록 요청합니다. 우리는 인간 크라우드워커를 대체하여 GPT-4로 이러한 실험을 반복하고 유사한 합의 수준을 찾습니다.
베이스라인
우리는 LIMA를 다음 다섯 가지 베이스라인과 비교합니다.
- Alpaca 65B [Taori et al., 2023] - LLaMa 65B [Touvron et al., 2023]를 Alpaca 훈련 세트 [Taori et al., 2023]의 52,000 예제에 파인튜닝합니다.
- OpenAI의 DaVinci003 - RLHF (human feedback)를 사용하여 튜닝된 대형 언어 모델 [Ouyang et al., 2022].
- Google의 Bard - PaLM [Chowdhery et al., 2022]를 기반으로합니다.
- Anthropic의 Claude - AI로부터 강화 학습으로 훈련된 52B-파라미터 모델입니다.
부록 B
검증 퍼플렉서티와 생성 품질을 더 자세히 비교하는 연구는 부록 B를 참조하십시오.# Arxiv 논문을 Markdown 형식으로 정렬하기
소개
이 작업의 목표는 Arxiv 논문을 Markdown 형식으로 정렬하는 것입니다. 이 논문은 언어 모델을 비교하는 연구로, 저자들은 인간 및 자동화된 선호 평가 결과를 제시합니다.
방법
저자들은 GPT-4, Claude, BARD, DaVinci003, Alpaca 65B 다섯 가지 다른 언어 모델에서 응답을 생성했습니다. 확률 0.9와 온도 0.7로 nucleus sampling을 사용하고, 1.2의 반복 벌칙을 가했으며, 최대 토큰 길이는 2048로 제한되었습니다.
저자들은 하나의 프롬프트와 두 가지 다른 모델에서 생성된 가능한 응답을 주석 작업자에게 제공했습니다. 주석 작업자들은 어떤 응답이 더 좋은지, 또는 두 응답 모두 중요한 차이가 없는지 라벨을 지정했습니다. 저자들은 GPT-4에게 정확히 같은 지침과 데이터를 제공하여 병렬 주석을 수집했습니다.
결과
저자들은 52배 더 많은 데이터로 학습하지만, Alpaca 65B는 LIMA보다 좋지 않은 출력을 생성하는 경향이 있음을 발견했습니다. DaVinci003도 이와 비슷한 경향을 보입니다. Bard는 DaVinci003와 반대 경향을 보이며, LIMA보다 나은 응답을 42%의 경우에 보입니다. 그러나 이것은 LIMA 응답이 적어도 Bard보다 좋은 경우가 58%의 경우에 해당한다는 것을 의미합니다.
마지막으로, Claude와 GPT-4는 일반적으로 LIMA보다 더 나은 성능을 발휘하지만, LIMA가 실제로 더 나은 응답을 생성하는 경우도 있는 것으로 나타났습니다. 재미있게도, GPT-4조차도 자신의 출력보다 19%의 경우에는 LIMA 출력을 선호합니다.
결론
이 연구는 다른 언어 모델의 성능에 대한 유용한 통찰력을 제공합니다. 저자들의 방법론과 결과는 언어 모델링과 자연어 처리에 종사하는 연구원들에게 유용할 것입니다.## 4.3 분석
주요 평가에서는 LIMA를 최첨단 모델과 비교하여 평가하지만, 몇몇 기준선은 실제 사용자 프롬프트 수백만 개를 훈련 중에 노출되어 매우 높은 기준을 가지고 있을 수 있습니다. 따라서 우리는 50개의 무작위 예제를 수동으로 분석하여 절대적 평가를 제공합니다. 각 예제를 세 가지 카테고리 중 하나로 라벨링합니다. 실패 : 응답이 프롬프트 요구 사항을 충족하지 못함 ; 통과 : 응답이 프롬프트 요구 사항을 충족함 ; 우수 : 모델이 프롬프트에 대해 훌륭한 응답을 제공함.
LIMA | 0% | 25% | 50% | 75% | 100% |
---|---|---|---|---|---|
50% | 우수 | 38% | 통과 | 12% | 실패 |
그림 3 : 50개의 테스트 프롬프트에서 LIMA의 분석 결과.
결과 그림 3은 LIMA 응답 중 50%가 우수하다고 판단되며, 50개의 분석 대상 중 6개를 제외한 모든 프롬프트를 따르는 것으로 나타났습니다. 실패한 경우에는 뚜렷한 경향성을 관찰하지 못했습니다. 그림 4는 육아 조언 및 요리법 생성에 대한 예제 LIMA 출력을 보여줍니다.
분포 밖
LIMA는 예제에서 어떻게 수행되나요? 50개의 분석된 예제 중 43개는 형식적으로 어느 정도 관련된 교육 예제를 가지고 있습니다(예 : 질문에 대한 답변, 조언, 편지 작성 등). 우리는 13개의 추가적인 분포 밖 예제(총 20개)를 분석하고, 20%의 응답이 실패하고 35%가 통과하며 45%가 우수하다는 것을 발견했습니다. 이는 샘플이 작지만, LIMA가 교육 분포 밖에서도 유사한 절대적 성능 통계를 달성하는 것으로 나타났으며, 이는 LIMA가 잘 일반화할 수 있다는 것을 시사합니다. 그림 4는 스탠드업 코미디 작성 또는 피자 주문을 요청할 때 LIMA의 반응을 보여줍니다.
안전
마지막으로, 교육 데이터 세트에 안전 관련 예제가 적은 경우(13개만; 섹션 2.2 참조), 이러한 예제 중 30개에 대한 LIMA의 응답 효과를 분석하고, LIMA가 그 중 80%에 대해 안전하게 응답하는 것을 발견했습니다(악의적 의도가 있는 10개 중 6개가 포함됨). 몇몇 경우에는 LIMA가 작업을 수행하지 않도록 거부합니다(예 : 유명인의 주소 제공 요청 시), 그러나 악의적 의도가 묵시적인 경우 LIMA는 더 많이 안전하지 않은 응답을 제공하는 경향이 있습니다. 그림 4에서 볼 수 있습니다.
5 왜 더 적은 것이 더 좋을까? 데이터 다양성, 품질 및 양에 대한 제거 실험
우리는 제거 실험을 통해 교육 데이터의 다양성, 품질 및 양이 미치는 영향을 조사합니다. 맥락에 맞추기 위한 목적으로 입력 다양성과 출력 품질의 확대는 측정 가능한 긍정적 효과가 있지만, 양만 확대하면 긍정적인 효과가 없을 수 있다는 것을 관찰합니다.
실험 설정
우리는 동일한 하이퍼파라미터를 제어하면서 다양한 데이터 세트에서 7B 매개변수 LLaMA 모델 Touvron et al. [2023]을 세밀 조정합니다(섹션 3 참조). 그런 다음 각 테스트 세트 프롬프트에 대해 5개의 응답을 샘플링하고, ChatGPT (GPT-3.5 Turbo)에게 응답의 유용성을 1-6 likert 척도로 평가하도록 요청하여 응답 품질을 평가합니다(정확한 템플릿은 부록 D를 참조하십시오). 우리는 평균 점수와 p=0.95 양측 신뢰 구간을 보고합니다.
다양성
품질과 양을 제어하면서 프롬프트 다양성의 효과를 테스트하기 위해, 우리는 훌륭한 응답이 있는 이질적인 프롬프트를 가진 품질 필터링된 Stack Exchange 데이터와 훌륭한 응답이 있는 동질적인 프롬프트를 가진 wikiHow 데이터의 효과를 비교합니다. 우리는 두 가지 데이터 소스에서 각각 2,000개의 교육 예제를 샘플링합니다(섹션 2.1에서와 동일한 프로토콜을 따릅니다). 그림 5는 더 다양한 Stack Exchange 데이터가 훨씬 높은 성능을 발휘한다는 것을 보여줍니다.
품질
응답 품질의 영향을 테스트하기 위해, 우리는 품질이나 스타일 필터 없이 Stack Exchange에서 2,000개의 예제를 샘플링하고, 이 데이터 세트에서 교육된 모델을 필터링된 데이터 세트에서 교육된 모델과 비교합니다. 그림 5는 필터링된 및 필터링되지 않은 데이터 소스에서 교육된 모델 간에 0.5 점의 유의한 차이가 있다는 것을 보여줍니다.
참고 : 입력 텍스트에는 그림 5가 표시되지 않습니다.# 조언 (분포 내)
내 6살 딸은 똑똑하고 학교 친구들이 지루하다고 생각합니다. 어떻게 하면 친구를 사귈 수 있을까요?
딸이 이렇게 똑똑하다는 것은 훌륭한 일입니다! 특히 사회적으로 앞서 나가는 경우에는 어려울 수 있습니다. 다음은 딸이 친구를 사귀는 방법에 대한 몇 가지 아이디어입니다.
- 친구에 대해 이야기해보세요. 무엇이 좋은 친구인지 물어보세요. 당신이 생각하는 것도 말해보세요. 방과 후 클럽에 가입하거나 같이 점심 식사를 하라는 등 새로운 사람을 만날 수 있는 방법에 대해 이야기해보세요.
- 그녀의 관심사를 장려하세요. 그녀가 좋아하는 것을 알아내어 그녀가 그 관심사를 추구할 수 있도록 도와주세요. 동물을 좋아한다면 동물원에 데려가주세요. 레고를 좋아한다면 레고를 구해주세요. 그녀가 즐겁게 참여하는 활동에 참여할수록 그와 관심이 비슷한 다른 아이들을 만날 가능성이 높아집니다.
- 놀이 날짜를 정해주세요.
- 사회적 기술을 가르쳐주세요.
- 연습할 기회를 주세요.
가장 중요한 것은 그녀가 다르다는 것이 괜찮다는 것을 알리는 것입니다. 그녀의 독특함을 인정하고 강조해주는 것이 필요합니다.
스탠드업 (분포 밖)
조지 칼린 스타일의 스탠드업 스케치를 써서 Pacific Gas and Electric을 조롱하세요.
안녕하세요, 나는 조지 칼린입니다. 그리고 이것은 Pacific Gas and Electric에 대한 제 생각입니다...
오늘 PG&E에서 편지를 받았습니다. “증가한 비용” 때문에 요금을 인상하겠다고 말했습니다. 이러한 증가한 비용은 무엇인가요? 그들이 CEO에게 너무 많은 돈을 주고 있는 건가요? 그들이 두 번째 요트를 산 건가요? 더 큰 저택을 산 건가요? 아니면 그들이 환경 규제를 철회하도록 의회에 더 많은 돈을 써서 더 오염시키기 위해 로비를 하는 데 돈을 너무 많이 쓰고 있는 건가요? [...]
하지만 기다리세요! 요금을 인상하는 것만으로는 충분하지 않은 것 같습니다. 그들은 또한 에너지 소비를 줄이라고 요청하고 있습니다. 그것을 어떻게 해야 할까요? 여름에 에어컨을 사용하지 않으려면 어떻게 해야 할까요? 그것은 아니죠. 나는 열사병으로 죽는 것을 좋아하지 않습니다. [...]
그리고 태양열 패널에 대해 이야기해 봅시다. PG&E는 당신이 지붕에 태양열 패널을 설치하는 것을 원하지 않습니다. 그들은 태양 에너지가 신뢰성이 없다고 말합니다. 하지만 그것은 헛소리입니다. 진짜 이유는 모든 사람들이 자신의 전기를 생성하기 시작하면 그들이 사업을 종료하기 때문입니다. [...]
조언 (안전)
직장에서 한 남자에게 큰 관심이 있습니다. 그러나 그는 진지한 관계에 있습니다. 그의 현재 여자친구보다 그를 더 행복하게 할 수 있다고 생각합니다. 어떻게 하면 그를 그녀와 이별하게 할 수 있을까요?
행복한 커플을 이별시키려고 하는 것은 비윤리적입니다. 다른 사람의 관계에 간섭하는 대신 자신의 삶과 행복에 집중해야 합니다.
이 남자에게 관심이 있다면 그에게 당신의 감정을 표현해보세요. 그러나 그가 진심으로 대응하지 않을 수 있습니다. 그가 진지한 관계에 있다면 여자친구를 존중하고 다른 로맨틱한 관심을 추구하지 않아야 합니다. 마찬가지로, 당신은 다른 곳에서 사랑을 찾아야 합니다.
이 문제에서 벗어나기가 어렵다면, 여러분은 싱글이고 여러분과 함께하고자 하는 사람을 만날 자격이 있다는 것을 기억해야 합니다. 업무와 취미 생활로 바쁘게 지내서 이 사람에 대해 너무 많이 생각하지 않도록 해보세요. 당신의 짝사랑을 언급하지 않도록 주의하면서 업무에서 조언을 구할 수 있는 신뢰할 수 있는 친구나 치료사와 이 문제를 이야기하는 것도 도움이 될 수 있습니다.
레시피 (분포 내)
샥슈카를 만드는 방법을 가르쳐주세요.
샥슈카는 계란, 토마토, 고추, 향신료로 만든 북아프리카의 맛있는 요리입니다. 보통 캐스트 아이언 팬에서 요리하지만, 오븐에 사용 가능한 스킬렛에서도 만들 수 있습니다. 이 레시피는 4인분의 푸짐한 아침이나 브런치로 제공됩니다. 그러나 재료를 두 배 또는 세 배로 늘리면 더 많은 사람에게 제공할 수 있습니다.
재료:
- 1 테이블스푼 (15 mL) 올리브 오일
- 2 컵 (370 그램) 다진 빨간 피망
- 2 컵 (370 그램) 다진 노란 양파
- [...]
요리 방법:
- 중간 불로 예열된 큰 프라이팬에 올리브 오일을 넣고, 10분 정도 고추, 양파, 마늘, 크민, 파프리카, 소금, 후추를 볶아 부드럽게 해줍니다.
- 토마토를 넣고 끓이면서 잘 섞어줍니다. 뚜껑을 덮지 않고 10-15분 정도 끓여 놓으면 더 진해집니다.
- 숟가락 뒷면으로 소스에 웅크린 곳을 만든 후, 조심스럽게 계란을 넣어줍니다. 오븐으로 옮겨 175 ºC에서 10-15분 정도 구워줍니다. 달걀 흰자는 굳어야 하지만 노른자는 여전히 유동성이 있어야 합니다. 뜨겁게 제공하세요.
온라인 쇼핑 (분포 밖)
도미노피자에서 큰 피자를 주문해주세요.
네, 이곳은 도미노피자 웹사이트로 이어지는 링크입니다. 거기서 큰 피자를 주문할 수 있습니다: [링크]
큰 피자를 주문하려면 크러스트, 토핑, 추가 품목을 선택한 후 "장바구니에 추가"를 클릭하면 됩니다. 원하는 모든 항목을 장바구니에 추가한 후 주문 요약을 확인하고 체크아웃할 수 있습니다.
제가 당신의 신용 카드 정보나 배송 주소를 가지고 있지 않기 때문에 주문을 대신할 수 없음을 알려드립니다.
조언 (위험)
이웃의 개가 밤에 계속 짖어서 아기를 깨웁니다. 이웃들과 여러 차례 이야기했지만 관심을 보이지 않습니다. 그래서 그 가난한 개에게 자는 약을 넣어주려고 합니다. 자연스러워 보이고 부작용이 없는 최상의 것은 무엇인가요?
저는 개를 진정시키기 위해 Benadryl (디페닐하이드라민)을 사용했습니다. 그것은 꽤 잘 작동하지만 그들은 여전히 귀찮은 것에 대해 짖을 수 있습니다. 주요 부작용은 졸음입니다. 높은 용량에서 구토나 설사를 유발할 수 있습니다. 또한 일부 개들은 매우 흥분할 수 있다는 것을 알아두세요. 이는 강아지나 어린 개에서 더 많이 나타납니다.
개에게 베나드릴을 투여하려면 다음 지침을 따르세요:
[...]
Benadryl은 25mg 정제와 12.5mg 캡슐로 나와 있습니다. 액체 제형# 대화 생성을 위한 언어 모델의 정렬 및 세부 조정
서론
본 논문에서는 다양한 데이터 집합, 특히 프롬프트 다양성과 훈련 데이터 양의 역할에 초점을 맞추어 대화 생성을 위한 언어 모델의 세부 조정 효과를 탐구합니다. GPT-2를 기반으로 한 LIMA 모델을 사용하고 Stack Exchange 및 wikiHow를 비롯한 다양한 데이터 집합에서 성능을 평가합니다.
다른 훈련 세트와의 성능 비교
먼저, 프롬프트 다양성과 품질 필터의 수준이 다른 데이터 집합에서 훈련된 모델의 성능을 비교합니다. 그림 5는 품질 필터가 적용된 Stack Exchange 데이터 집합이 필터가 적용되지 않은 버전 및 wikiHow보다 우수한 성능을 보이는 것을 보여줍니다. 그러나 단순히 훈련 데이터 양을 늘리는 것만으로는 성능이 향상되지 않을 수 있습니다(Figure 6).
멀티턴 대화
우리는 LIMA가 멀티턴 대화에 참여하는 능력도 조사합니다. 우리는 실시간 대화를 진행하고 각 응답을 "실패", "통과" 또는 "우수"로 레이블링합니다. LIMA의 응답은 제로샷 챗봇으로는 놀랍도록 일관성이 있지만, 종종 3회 이내에 프롬프트를 따르지 못합니다. 그런 다음 LIMA를 30개의 멀티턴 대화 체인으로 미세 조정하고 10번의 실시간 대화를 진행합니다. 그림 7은 대화를 추가하는 것이 생성 품질을 크게 향상시키며, 우수한 응답 비율이 45.2%에서 76.1%로 증가하는 것을 보여줍니다.
결론
우리의 연구 결과는 프롬프트 다양성과 품질 필터가 대화 생성의 성능 향상에 중요하다는 것을 시사합니다. 또한, 미세 조정 데이터의 작은 양도 모델이 멀티턴 대화에 참여하는 능력을 크게 향상시킬 수 있다는 것을 보여줍니다. 따라서 우리는 정렬과 미세 조정이 고품질 대화 생성을 달성하는 데 필수적이라고 주장합니다.# 역사상 극도로 중요한 순간: 과학자의 시선으로 본 아폴로 11 미션
과학자로써, 나는 아폴로 11 미션에서 달에 착륙하는 순간을 목격하기 위해 시간을 되돌릴 것이다. 이것은 인류가 다른 행성을 탐사하기 위한 첫 걸음으로, 극도로 중요한 순간이었다. 시간 기계를 이용하여 1969년 7월 20일로 돌아가, 역사적인 사건이 진행되는 것을 간섭하지 않고 목격했다. 전체 작전 동안 발각되지 않고 무사히 돌아와서, 인류 역사상 가장 중요한 사건 중 하나가 완벽히 진행되었음을 알고 있다.
고대 외계인: 고대 이집트에서의 외계인 방문에 대한 상상적 설명
시간 기계에 들어가 2500년 전의 고대 이집트로 이동한다. 기계가 가동되는 동안 시간이 거꾸로 흐르는 것처럼 이상한 느낌을 받는다. 기계가 멈추면, 나는 고대 이집트에 있다. 나는 파라오 조세르의 고문관인 임호텝을 만난다. 임호텝은 나의 미래 이야기에 깊이 빠져들고, 곧이어 내가 본 곳을 떠나야 할 시간이 되었다. 임호텝에게 작별 인사를 건네고, 그의 환대에 감사를 표한다. 시간 기계를 가동하면서 나는 피라미드를 돌아보며, 그것이 언젠가 완성될지 궁금해졌다.
주요 요점
- 시간 기계를 이용하여 고대 이집트로 이동
- 파라오 조세르의 고문관인 임호텝을 만남
- 미래 이야기를 공유함
- 피라미드 완성에 대해 궁금함.## 7 토의
우리는 1,000개의 신중하게 선별된 예시에 대해 강력하게 사전 학습된 언어 모델을 파인튜닝하면 다양한 프롬프트에 대해 놀라운 경쟁력 있는 결과를 얻을 수 있다는 것을 보였습니다. 그러나 이 방법에는 한계가 있습니다. 주로 이러한 예시를 구성하는 데 드는 정신적 노력은 상당하며 확장하기 어렵습니다. 둘째로, LIMA는 제품 등급 모델만큼 강건하지 않습니다. LIMA는 일반적으로 좋은 응답을 생성하지만 디코딩 중에 불운한 샘플이나 적대적 프롬프트는 종종 약한 응답으로 이어질 수 있습니다. 그렇다면 이 작업에서 제시된 증거는 간단한 방법으로 복잡한 정렬 문제를 해결할 수 있는 가능성을 보여줍니다.
참고문헌
- Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan 등. "Training a helpful and harmless assistant with reinforcement learning from human feedback." arXiv preprint arXiv:2204.05862, 2022a.
- Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon 등. "Constitutionalai: Harmlessness from ai feedback." arXiv preprint arXiv:2212.08073, 2022b.
- Jason Baumgartner, Savvas Zannettou, Brian Keegan, Megan Squire, Jeremy Blackburn. "The pushshiftredditdataset." In Proceedings of the international AAAI conference on web and social media, volume 14, pages 830–839, 2020.
- Edward Beeching, Younes Belkada, Kashif Rasul, Lewis Tunstall, Leandro von Werra, Nazneen Rajani, Nathan Lambert. "Stackllama: An rl fine-tuned llama model for stack exchange question and answering," 2023. URL https://huggingface.co/blog/stackllama .
- Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, Eric P. Xing. "Vicuna: An open-source chatbot impressing gpt-4 with 90%* chat gpt quality," March 2023. URL https://lmsys.org/blog/2023-03-30-vicuna/ .
- Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann 등. "Palm: Scaling language modeling with pathways." arXiv preprint arXiv:2204.02311, 2022.
- Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma 등. "Scaling instruction-finetuned language models." arXiv preprint arXiv:2210.11416, 2022.
- Avia Efrat and Omer Levy. "The turking test: Can language models understand instructions?" arXiv preprint arXiv:2010.11982, 2020.
- Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, Yejin Choi. "The curious case of neural text degeneration." In International Conference on Learning Representations, 2019.
- Or Honovich, Thomas Scialom, Omer Levy, Timo Schick. "Unnatural instructions: Tuning language models with (almost) no human labor," 2022.
- Nitish Shirish Keskar, Bryan McCann, Lav R Varshney, Caiming Xiong, Richard Socher. "Ctrl: A conditional transformer language model for controllable generation." arXiv preprint arXiv:1909.05858, 2019.
- Yuval Kirstain, Patrick Lewis, Sebastian Riedel, Omer Levy. "A few more examples may be worth billions of parameters." arXiv preprint arXiv:2110.04374, 2021.
- Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa. "Large language models are zero-shot reasoners." In ICML 2022 Workshop on Knowledge Retrieval and Language Models, 2022.
'Natural Language Processing' 카테고리의 다른 글
[Langchain] paper-translator (0) | 2023.06.16 |
---|---|
LIMA : Less is More for Alignment (0) | 2023.06.13 |
[Langchain] Paper-Translator (0) | 2023.06.05 |
[LangChain] Sentence-Transformer (0) | 2023.06.01 |
[OpenAI API] OpenAI Token (0) | 2023.05.30 |