분류 전체보기

BACKGROUND & STATE OF THE ART 자연어 처리(NLP) 영역에서 언어 모델은 과거 입력 토큰의 시퀀스를 사용하여 토큰(예: 단어)을 생성하는 데 사용됩니다. 대용량 언어 모델(Large Language Models, LLMs)은 이 공간에서의 최신 딥러닝 혁신으로, 인간과 유사한 방식으로 텍스트를 생성하기 위해 설계되었습니다. 이러한 모델은 일반적으로 입력 토큰의 큰 시퀀스에 대한 주의를 개선하기 위해 transformer를 사용합니다. LLaMA는 1조 개 이상의 토큰으로 훈련된 강력한 기반 LLM으로, Meta AI에서 오픈 소스로 제공됩니다. LLaMA는 GPT-3, Chinchilla, PaLM과 같은 많은 최고의 모델과 경쟁력을 가지고 있습니다. LLaMA (13B)는 GPT..
· Book
제목: "미루기의 기술" 저자: 존 페리 keyword To-do list 작성, 미루었을 때 이루어지는 결과를 상상하기, 미루고 있는 자신을 인지하고 해결 방법 떠올리기, 체계적인 미루기, 아침 음악 관련 자료 http://philosophytalk.org/ Philosophy Talk The program that questions everything...except your intelligence. www.philosophytalk.org https://www.youtube.com/watch?v=iZGdEafl4sg
· Book
제목: 당신의 인생 이야기 저자: 테드창 keyword 바빌로의 탑, 이름=영혼, division by zero, 감정, 경험, 발전의 끝, 현상 이해, 칼리아그노시아(칼리)
· Routine
LLM10:2023 Training Data Poisoning 설명: 훈련 데이터 독점은 공격자가 LLM의 training이나 fine-tunning을 조작해 모델의 보안, 효과성 또는 윤리적 행동을 저해할 수 있는 취약점, 후문, 편향을 도입하는 것입니다. 일반적인 훈련 데이터 독점 문제: LLM에 악의적으로 조작된 훈련 데이터를 통해 후문이나 취약점 도입 LLM에 편향을 주입하여 편향적이거나 부적절한 응답을 생성 세세한 조정 과정을 이용하여 LLM의 보안이나 효과성을 침해 예방 방법: 신뢰할 수 있는 출처에서 훈련 데이터를 얻고 품질을 검증하여 훈련 데이터의 무결성을 보장 잠재적인 취약점이나 편향을 훈련 데이터에서 제거하기 위해 견고한 데이터 정제 및 전처리 기법 구현 LLM의 훈련 데이터와 세세한 ..
https://stanford-cs324.github.io/winter2022/lectures/introduction/ Introduction Understanding and developing large language models. stanford-cs324.github.io CS324에 오신 것을 환영합니다! 이 과정은 대규모 언어 모델의 이해와 개발에 대한 새로운 강좌입니다. 1. 언어 모델이란 무엇인가요? 2. 간단한 역사 3. 이 강좌가 왜 필요한가요? 4. 이 강좌의 구조 5. 언어 모델이란 무엇인가요? 1. 언어 모델이란 무엇인가요? 언어 모델 (LM)의 클래식한 정의는 토큰 시퀀스에 대한 확률 분포입니다. 토큰 집합 (\sV)가 있다고 가정해 봅시다. 언어 모델 (p)은 각각의 토큰 시퀀..
· Routine
LLM09:2023 Improper Error Handling 설명: 잘못된 오류 처리는 오류 메시지나 디버깅 정보가 공격자에게 민감한 정보, 시스템 세부 정보 또는 잠재적인 공격 경로를 노출시킬 수 있는 경우 발생합니다. 일반적인 잘못된 오류 처리 문제: 오류 메시지를 통해 민감한 정보나 시스템 세부 정보를 노출시키는 경우 공격자가 잠재적인 취약점이나 공격 경로를 식별하는 데 도움이 되는 디버깅 정보를 누출시키는 경우 오류를 우아하게 처리하지 못하여 예기치 않은 동작이나 시스템 충돌을 유발하는 경우 예방 방법: 오류를 잡아내고 로그로 기록하며 우아하게 처리하기 위해 적절한 오류 처리 메커니즘을 구현합니다. 오류 메시지와 디버깅 정보가 민감한 정보나 시스템 세부 정보를 노출시키지 않도록 합니다. 사용자에..
Textbooks Are All You Need Abstract 우리는 phi-1이라는 새로운 대규모 언어 모델을 소개합니다. 이 모델은 경쟁 모델보다 훨씬 작은 크기를 가지고 있습니다. phi-1은 1.3B 개의 파라미터를 가진 Transformer 기반 모델로, 웹에서 "교과서 수준"의 데이터 (6B 토큰)와 GPT-3.5 (1B 토큰)를 사용하여 8 A100에서 4일 동안 훈련되었습니다. 이 작은 규모에도 불구하고 phi-1은 HumanEval에서 50.6%의 pass@1 정확도와 MBPP에서 55.5%의 정확도를 달성합니다. 또한, 코딩 연습 데이터셋에서 finetuning 단계 이전인 phi-1-base 모델과 같은 파이프라인으로 훈련된 350M 개의 파라미터를 가진 더 작은 모델인 phi-1-..
https://vcai.mpi-inf.mpg.de/projects/DragGAN/ Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold --> Abstract Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial net vcai.mpi-i..
다했다
'분류 전체보기' 카테고리의 글 목록 (13 Page)