BERT는 19~20년도에 있어서 NLP 연구의 가장 중심이 된 모델이다. 복잡하지 않은 구조에 간단한 튜닝을 통해 여러 테스크에서 좋은 성능을 낼 수 있다는 것은 다양한 NLP 연구에서 BERT를 사용하도록 만들었다. 본 논문은 이렇게 많이 사용되는 BERT에 대한 연구가 어떻게 진행되었고 진행되고 있는지에 대해 정리해놓은 세미나 형식을 띄고 있다. 새로운 아이디어는 마지막에 어떤 방향으로 연구가 진행될 지에 대한 정리를 통해 제안하였지만 BERT에 대한 다양한 연구들을 한 논문에서 파악하고 비교할 수 있다는 것에 그 의의를 둘 수 있겠다. 아래에서는 BERT 연구의 각 주제를 간략하게 정리한 내용을 다루어보겠다.
BERT Representation은 Linear보다는 Hierarchical Structure를 띈다
Syntactic Tree를 생각하면 좋다.
BERT Embedding에는 Part Of Speech (POS), Syntactic Chunk 등에 대한 정보가 담겨 있다.
보통 Attention을 통해 Syntactic Structure를 분석하려 했지만 사실 정보는 바로 Encode되는 것이 아니라 Input이 Transformation되는 것을 통해 나타난다.
BERT는 "Ever"과 같이 Negative Polarity Item (NPI)을 잘 학습하지만 순서에 대한 정보는 잘 담지 못했다.