개요 - Weights & Biases Documentation

run 은 W&B에서 기록되는 계산의 단일 단위입니다. W&B Run 을 전체 프로젝트의 원자적 요소로 생각할 수 있습니다. 즉, 각 run 은 모델 트레이닝 및 결과 기록, 하이퍼파라미터 스윕(sweeps) 등과 같은 특정 계산의 기록입니다. run 을 초기화하고 로그를 기록하는 일반적인 유스 케이스는 다음과 같습니다:

모델 트레이닝 및 정확도(accuracy), 손실(loss)과 같은 메트릭 기록
하이퍼파라미터 튜닝 수행 및 새로운 실험 실행
다른 모델로 새로운 기계학습 실험 수행
데이터셋과 모델을 W&B Artifacts 로 트래킹 및 저장
팀의 다른 멤버가 사용한 데이터셋이나 모델을 W&B Artifacts 로 다운로드 및 사용

W&B run 을 초기화하려면 W&B Python SDK의 wandb.init() 메소드를 호출합니다. 이 메소드는 새로운 run 을 시작하고, 해당 run 에 메트릭, 아티팩트 및 기타 정보를 로그로 기록하는 데 사용할 수 있는 wandb.Run 오브젝트를 반환합니다. run 초기화에 대한 자세한 내용은 Initialize runs 를 참조하세요. 각 run 오브젝트는 run ID 로 알려진 고유 식별자를 가집니다. 사용자가 고유 ID를 지정하거나 W&B가 무작위로 생성하도록 할 수 있습니다. 또한 각 run 오브젝트는 사람이 읽을 수 있는 비고유한 run name 을 가집니다. run 의 이름을 직접 지정하거나 W&B가 무작위로 생성하도록 할 수 있습니다. 초기화 후에도 run 의 이름을 변경할 수 있습니다. W&B는 run 을 project 에 기록합니다. wandb.init(project="") 로 run 을 초기화할 때 프로젝트를 지정합니다. 프로젝트가 존재하지 않으면 W&B가 새 프로젝트를 생성합니다. 프로젝트가 이미 존재하는 경우, W&B는 지정된 프로젝트에 run 을 기록합니다.

프로젝트 이름을 지정하지 않으면 W&B는 해당 run 을 Uncategorized 라는 이름의 프로젝트에 저장합니다.

wandb.init() 은 ID, 이름, 설정(configuration), 상태와 같은 run 의 속성을 포함하는 wandb.Run 오브젝트를 반환합니다. 이 run 오브젝트와 wandb.Run.log(), wandb.Run.log_code(), wandb.Run.use_artifact() 와 같은 메소드를 사용하여 메트릭, 아티팩트 및 기타 정보를 run 에 로그로 기록하세요. 각 run 은 현재 상태를 설명하는 state 를 가집니다. 가능한 모든 run 상태 목록은 Run states 를 참조하세요. W&B 앱의 프로젝트 워크스페이스 내에서 run 과 그 속성을 확인할 수 있습니다. 또한 wandb.Api.Run 오브젝트를 사용하여 프로그래밍 방식으로 run 속성에 엑세스할 수도 있습니다. 예를 들어, W&B run 을 초기화하고 일부 메트릭을 기록하는 다음 코드조각을 살펴보세요:

내용을 직접 따라 해보려면 아래 코드조각의 entity 변수에 본인의 W&B entity 를 전달하세요. entity 는 사용자의 W&B 사용자 이름 또는 팀 이름입니다. W&B 앱 워크스페이스의 URL에서 이를 확인할 수 있습니다. 예를 들어, 워크스페이스 URL이 https://wandb.ai/nico/awesome-project 라면 entity 는 nico 입니다.

import wandb

entity = "nico"  # 본인의 W&B entity로 교체하세요
project = "awesome-project"

with wandb.init(entity=entity, project=project) as run:
    run.log({"accuracy": 0.9, "loss": 0.1})

첫 번째 줄은 W&B Python SDK를 임포트합니다. 두 번째 줄은 nico 라는 entity 아래의 awesome-project 프로젝트에서 run 을 초기화합니다. 세 번째 줄은 해당 run 에 모델의 정확도와 손실을 기록합니다. 터미널 내에서 W&B는 다음을 반환합니다:

wandb: Syncing run earnest-sunset-1
wandb: ⭐️ View project at https://wandb.ai/nico/awesome-project
wandb: 🚀 View run at https://wandb.ai/nico/awesome-project/runs/1jx1ud12
wandb:                                                                                
wandb: 
wandb: Run history:
wandb: accuracy ▁
wandb:     loss ▁
wandb: 
wandb: Run summary:
wandb: accuracy 0.9
wandb:     loss 0.5
wandb: 
wandb: 🚀 View run earnest-sunset-1 at: https://wandb.ai/nico/awesome-project/runs/1jx1ud12
wandb: ⭐️ View project at: https://wandb.ai/nico/awesome-project
wandb: Synced 6 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)
wandb: Find logs at: ./wandb/run-20241105_111006-1jx1ud12/logs

W&B는 터미널 출력에 두 개의 URL을 반환합니다. 첫 번째 URL은 특정 run 의 워크스페이스로 연결되고, 두 번째 URL은 프로젝트 페이지로 연결됩니다.

단일 시점에 메트릭을 기록하는 것은 그리 유용하지 않을 수 있습니다. 판별 모델(discriminative models) 트레이닝의 보다 현실적인 예시는 정기적인 간격으로 메트릭을 기록하는 것입니다. 예를 들어, 다음 코드조각을 보세요:

import wandb
import random

config = {
    "epochs": 10,
    "learning_rate": 0.01,
}

with wandb.init(project="awesome-project", config=config) as run:
    print(f"lr: {config['learning_rate']}")
      
    # 트레이닝 run 시뮬레이션
    for epoch in range(config['epochs']):
      offset = random.random() / 5
      acc = 1 - 2**-epoch - random.random() / (epoch + 1) - offset
      loss = 2**-epoch + random.random() / (epoch + 1) + offset
      print(f"epoch={epoch}, accuracy={acc}, loss={loss}")
      run.log({"accuracy": acc, "loss": loss})

트레이닝 스크립트는 wandb.Run.log() 를 10번 호출합니다. 스크립트가 wandb.Run.log() 를 호출할 때마다 W&B는 해당 에포크의 정확도와 손실을 기록합니다. 터미널에서 다음과 유사한 출력을 볼 수 있습니다:

wandb: Syncing run jolly-haze-4
wandb: ⭐️ View project at https://wandb.ai/nico/awesome-project
wandb: 🚀 View run at https://wandb.ai/nico/awesome-project/runs/pdo5110r
lr: 0.01
epoch=0, accuracy=-0.10070974957523078, loss=1.985328507123956
epoch=1, accuracy=0.2884687745057535, loss=0.7374362314407752
epoch=2, accuracy=0.7347387967382066, loss=0.4402409835486663
epoch=3, accuracy=0.7667969248039795, loss=0.26176963846423457
epoch=4, accuracy=0.7446848791003173, loss=0.24808611724405083
epoch=5, accuracy=0.8035095836268268, loss=0.16169791827329466
epoch=6, accuracy=0.861349032371624, loss=0.03432578493587426
epoch=7, accuracy=0.8794926436276016, loss=0.10331872172219471
epoch=8, accuracy=0.9424839917077272, loss=0.07767793473500445
epoch=9, accuracy=0.9584880427028566, loss=0.10531971149250456
wandb: 🚀 View run jolly-haze-4 at: https://wandb.ai/nico/awesome-project/runs/pdo5110r
wandb: Find logs at: wandb/run-20241105_111816-pdo5110r/logs

W&B는 시뮬레이션된 트레이닝 루프를 jolly-haze-4 라는 단일 run 내에 캡처합니다. 이는 스크립트가 wandb.init() 메소드를 한 번만 호출하기 때문입니다. 이전 출력에서 W&B가 출력한 URL을 복사하여 브라우저에 붙여넣으세요. 이 URL은 W&B 앱 UI의 run 워크스페이스로 연결됩니다. 예를 들어, 다음 이미지는 jolly-haze-4 run 의 워크스페이스를 보여줍니다:

W&B Models

Reference

개요