자연의 섭리는 참 신기합니다
근친교배를 왜 유전학적으로 위험하게 만들었을까요?
이게 악마적 행위로 이어질 수 있다고 생각했던건가?
지금보면 아주 잘한 행동같음
자연도 참 이성적인데 인간만 이상할때가...
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
자연의 섭리는 묘하게도 비슷하네요. 근친교배가 유전학적으로 열성발현 등이 나타나 위험한 것처럼, 합성 데이터만으로 자체 순환 학습하는 것은 자기 포식 장애(Model Autophagy Disorder)에 빠질 수 있다고 하네요. 합성데이터 활용시에 고려해야 할 중요한 점이 또하나 등장한 것 같습니다.
특히 조만간 합성 데이터가 인터넷을 뒤덮으며, 그것을 다시 학습데이터 사용하고 거기서 다시 데이터를 생산해서 사용하는 루프가 생길 경우에도 이런 자기 포식 장애가 발생할 위험이 생길 수 있다는게 우려스럽네요.
제목: Self-Consuming Generative Models Go MAD
이 논문은 제너레이티브 AI 알고리즘에서 자가포식(자체 소비) 루프 현상을 탐구하고 합성 데이터를 사용하여 차세대 모델을 훈련시키는 영향을 분석합니다. 저자는 각 세대에 충분한 양의 새로운 실제 데이터가 없으면 미래 생성 모델의 품질 또는 다양성이 점진적으로 악화되는 모델 자가포식 장애(MAD)라는 조건을 발견했습니다.
주요 통찰 및 교훈:
- 제너레이티브 AI 알고리즘은 훈련 모델을 위한 데이터 합성에서 상당한 발전을 이루었습니다.
- 반복되는 훈련 과정에서 합성 데이터를 사용하면 특성을 제대로 이해하지 못하는 자가 포식 루프가 생성됩니다.
- 이 연구는 고정 또는 새로운 실제 교육 데이터의 가용성과 이전 세대 모델의 편향이 다른 세 가지 유형의 autophagous 루프에 중점을 둡니다.
- 각 세대의 불충분한 신선한 실제 데이터는 미래 생성 모델의 정밀도 또는 리콜의 감소로 이어집니다.
- 모델 자가포식 장애(MAD)는 부적절한 실제 데이터로 인해 생성 모델의 품질 또는 다양성이 점진적으로 감소하는 상태를 설명합니다.
요약:
이미지, 텍스트 및 기타 데이터 유형에 대한 생성 AI 알고리즘이 비약적으로 발전함에 따라 합성 데이터를 사용하여 차세대 모델을 훈련하려는 유혹이 커지고 있습니다. 이 과정을 반복하면 속성을 제대로 이해하지 못하는 자가포식(자가 소비) 루프가 생성됩니다. 유니티는 여러 세대의 학습을 통해 사용할 수 있는 고정된 실제 학습 데이터의 양이나 새로운 실제 학습 데이터의 양, 이전 세대 모델의 샘플이 데이터 품질과 다양성의 균형을 맞추기 위해 편향되었는지 여부가 다른 세 가지 오토파지 루프의 최첨단 생성 이미지 모델을 사용하여 철저한 분석 및 경험적 분석을 수행했습니다. 모든 시나리오에서 얻은 주요 결론은 오토파지 루프의 각 세대에 새로운 실제 데이터가 충분하지 않으면 향후 생성되는 모델의 품질(정확도)이나 다양성(리콜)이 점진적으로 감소할 수밖에 없다는 것입니다. 이러한 상태를 광우병에 비유하여 모델 자기포식 장애(MAD)라고 부릅니다.
arXiv: https://arxiv.org/abs/2307.01850
PDF: https://arxiv.org/pdf/2307.01850.pdf
arXiv-vanity: https://www.arxiv-vanity.com/papers/2307.01850
Paper page: https://huggingface.co/papers/2307.01850
Papers with code: https://paperswithcode.com/paper/self-consuming-generative-models-go-mad
'경제적 이슈모음' 카테고리의 다른 글
이전에 이런 핵무기 고민했던 적이 있는데... 지금은 친일매국 일본 검사 정권 (0) | 2023.09.06 |
---|---|
# 주요종목 신고가 신저가 (1) | 2023.08.09 |
폐암이 의심되거나 폐암과 관련이 없는 이유로 (2) | 2023.07.17 |
International Institutions for Advanced AI (0) | 2023.07.17 |
x.ai에 대한정보 일론머스크 공개 (7) | 2023.07.17 |