| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- Link Prediction
- Consistent Video Depth Estimation
- CityJSON
- Road network
- Stable Diffusion #Image generation #Diffusion #AI #Generative model
- CNN
- Today
- Total
목록Image Generation/Code (2)
빙글빙글 돌아가는 바람개비
CFG++ — CFG 코드에서 바뀌는 부분CFG++는 CFG 공식을 새로 만드는 방식이 아니다.기존 CFG 코드에서 guided 값을 어디까지 쓰는지 바꾸는 쪽에 가깝다.guided noise를 만드는 부분은 그대로 둔다. 대신 다음 latent으로 넘어가는 업데이트에서 unconditional 값을 다시 사용한다.그래서 코드를 보면 차이는 꽤 작다. DDIM에서는 마지막 업데이트 줄이 바뀌고, Euler 계열에서는 이동 방향을 계산하는 기준이 바뀐다.기준이 되는 CFG 코드일반 CFG에서는 conditional 예측과 unconditional 예측을 섞어서 guided noise를 만든다.noise_uc, noise_c = self.predict_noise(zt, t, ...)noise_pred = n..
SDXL 77 token 이상 생성하기SDXL로 이미지를 만들다 보면 프롬프트를 꽤 길게 썼는데도, 뒤에 적은 키워드가 결과에 거의 반영되지 않는 경우가 있다.처음에는 모델이 프롬프트를 제대로 이해하지 못하는 것처럼 보이지만, 실제 원인은 조금 다르다.핵심은 CLIP 텍스트 인코더가 한 번에 처리할 수 있는 토큰 수가 77개로 제한되어 있다는 점이다.프롬프트가 이 길이를 넘으면 뒤쪽 내용이 잘리거나 약하게 반영될 수 있다.이때 Compel 라이브러리를 사용하면 긴 프롬프트를 여러 조각으로 나눠 처리하는 방식으로 이 제한을 우회할 수 있다.77 토큰 제한은 어디서 나오는가positional embedding이 필요한 이유Transformer 구조는 기본적으로 단어의 순서를 스스로 알지 못한다.attenti..