[GN⁺] 10줄 미만의 코드로 GZIP을 사용하여 78%의 MNIST 정확도 달성

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

image

  • GZIP을 사용하여 MNIST 데이터셋에서 10줄 미만의 코드로 78%의 정확도 달성에 대한 기사
c = lambda z: len(gzip.compress(z.tobytes()))

def ncd(x, y):
    return (c(x + y) - min(c(x), c(y))) / max(c(x), c(y))

cls = [(x, c(x), l) for x, l in training_set]

correct_predictions = sum([np.array_equal(Counter(
    [l for _, _, l in sorted([(ncd(x1, x), x, l) for x, _, l in cls],
     key=lambda t: t[0])[:5]]).most_common(1)[0][0], label)
     for x1, label in test_set])
  • 저자는 최첨단 결과를 달성하는 것이 아니라 압축을 독특하고 모델이 없는 분류 도구로 사용하는 잠재력을 보여주는 것이 이 게시물의 새로움이라고 강조
  • 제공된 코드는 GZIP과 NCD (Normalized Compression Distance)를 유사성 지표로 사용하고, k-NN (k-Nearest Neighbors)을 분류에 사용
  • GZIP은 개별 데이터 포인트의 복잡성 또는 정보 내용을 측정하는 도구로 사용되며, NCD는 두 데이터 포인트가 얼마나 유사한지의 정규화된 측정치를 제공
  • 알고리즘은 모든 훈련 샘플과 NCD를 계산하고, 이를 정렬하며, k개의 가장 작은 거리를 선택. 이 k=5 가장 가까운 이웃 중 다수 클래스가 테스트 샘플의 레이블로 예측됨
  • 저자는 이 접근 방식이 계산적으로 비싸며, 정확도 측정을 위해 테스트 이미지의 일부만 사용되었다는 것을 인정
  • 저자는 더 나은 이해를 위해 알고리즘의 덜 숨겨진 버전도 제공
  • 저자는 2019년 Andreas Kirsch가 취한 유사한 접근 방식을 언급, 이는 약 35%의 정확도를 달성
  • 저자는 데이터 압축에서 텍스트 생성에 대한 게시물을 읽고, 매개 변수가 없는 텍스트 분류에 대한 논문을 읽은 후 이미지 분류 메커니즘으로 압축을 사용하게 됨
  • 저자는 이전에 에지 컴퓨터 비전을 위한 이미지 압축에 작업하였고, 이 기술을 MNIST 데이터셋에 적용하는 데 관심이 있었음

Hacker News 의견

  • GZIP을 사용하여 MNIST 데이터셋에서 10줄 미만의 코드로 78%의 정확도 달성에 대한 기사
  • 댓글 작성자들이 코드에서 거리 함수를 더 간단한 측정법으로 대체해 봤으며, 이로 인해 정확도가 향상되고 계산 요구량이 줄어듬
    • 유클리드 거리는 이미지를 이진화한 후 약 0.5초 만에 93%의 정확도를 달성
    • 자카드 거리는 이미지를 이진화한 후 약 0.7초 만에 94%의 정확도를 달성
    • 다이스 불일치는 이미지를 이진화한 후 약 0.8초 만에 94%의 정확도를 달성
  • 비교를 위한 다른 기술에는 Linear SVC가 92%의 정확도, SVC rbf가 96.4%의 정확도, SVC poly가 94.5%의 정확도, 로지스틱 회귀가 89%의 정확도, 그리고 나이브 베이즈가 81%의 정확도를 보임
  • 댓글 작성자들은 코드가 우아하고 간결할지라도, MNIST에 대해 78%의 정확도는 낮게 여겨지며, Tensorflow로 작성된 더미 모델이 쉽게 90%의 정확도를 달성한다고 제안
  • MNIST에 대한 최고의 모델은 99.87%의 정확도로 순위가 매겨짐
  • 일부 댓글 작성자들은 정규화된 압축 거리(NCD)를 유클리드 거리로 대체하면 테스트 정확도가 15% 증가하고 많은 계산을 절약할 수 있다고 제안
  • 일부 댓글 작성자들은 MNIST 데이터셋이 은퇴해야 한다고 제안하며, 이는 그 위에서 높은 정확도를 달성하는 것이 상대적으로 쉬워졌기 때문
  • 고도로 압축된 데이터에서 패턴을 찾아 더 나은 압축을 위한 잠재력에 대한 논의가 있음
  • 일부 댓글 작성자들은 일반 목적의 압축기와 대체 언어 모델에 대한 정보 거리 측정에 관심이 있음
  • 한 댓글 작성자는 후보 시퀀스 간의 이산 합성곱과 함께 정규화된 압축 거리(gzip)를 결합하는 주의 메커니즘을 사용하는 것에 대해 언급

원문

원 저자의 블로그 글

원 저자의 샘플 코드 (노트북)

유사한 접근 방식: MNIST by ZIP

참고 논문

“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors

출처 / GeekNews