인공지능과 언어과학적 상상력
- 언어 연구의 새로운 패러다임
ARTIFICIAL INTELLIGENCE and LINGUISTIC IMAGINATION
- New Paradigm in Linguistic Research
언어 연구 방법론의 주류를 이루고 있는
코퍼스 언어학적 접근과 LLM 기반 인공지능을 활용한 접근을 접목한
새로운 언어 연구 방법론을 제시한다.
이 책의 목적 이 책의 목적은 언어 연구 방법론의 주류를 이루고 있는 코퍼스 언어학적 접근과 인공지능(AI)을 활용한 접근을 접목한 새로운 언어 연구 방법론을 제시하는 것이다. 이 책에서는 언어 의미와 구조가 관련되는 양상에 대한 탐구에서 핵심적인 역할을 해 온 영어의 사역교체(causative alternation) 현상을 사례 연구 대상으로 삼아 대형 언어 모델(LLM)과 LLM 기반 생성형 AI를 인과적 사건의 구조적 실현의 영역에서 지금까지 해결되지 않은 문제들을 탐색하고 설명하는 데 활용하는 방안을 상세히 다룰 것이다.
인공지능 챗봇의 등장과 발전 인간의 언어를 학습하여 능숙하게 구사하는 인공지능 챗봇의 등장과 발전으로 언어 생성의 주체가 인간에서 인공지능으로 확대되었다. 인간이 기계의 언어를 통하지 않고 인간의 언어로 인공지능과 대화하는 것이 일상화되면서, 인공지능은 인간의 언어 사용과 사고 과정에 깊이 개입하며 우리의 일상생활은 물론 사회 전반을 급격하게 변화시키고 있다.
LLM 기반 인공지능 ChatGPT로 대표되는 생성형 인공지능 챗봇의 기반이 되는 대형 언어 모델(large language model: LLM)은 방대한 양의 텍스트 데이터 학습을 통해 언어 구조와 패턴을 내재화하여 사용자와의 대화에서 자연스럽고 일관된 텍스트를 생성한다. 또한 여러 언어를 이해하고 번역하는 능력을 갖추고 있으며, 최근에는 감성적인 답변을 생성하는 능력과 사용자 맞춤형 데이터 분석 능력도 향상되어 언어를 포함한 다양한 영역에서 실질적인 문제 해결에 기여하고 있다. 이처럼 인간과 소통하며 인간의 언어 사용과 처리 과정을 모사(simulate)하고 재현(replicate)하는 LLM 기반 인공지능은 언어 연구에 새로운 가능성 및 방향과 함께 새로운 도전 과제를 제시한다.
새로운 언어 연구 방법론 기술의 발전이 제공하는 인공지능의 잠재력을 언어 연구에 활용하기 위해서 언어 연구를 위한 맞춤형 인공지능 활용법에 대한 필요성이 제기된다. 이 책의 목적은 언어 연구 방법론의 주류를 이루고 있는 코퍼스 언어학적 접근과 LLM 기반 인공지능을 활용한 접근을 접목한 새로운 언어 연구 방법론을 제시하는 것이다. 책의 제목을 “인공지능과 언어과학적 상상력 : 언어 연구의 새로운 패러다임”으로 설정한 것은 인공지능을 단순히 작업을 자동화하는 도구를 넘어 연구자의 통찰과 상상력을 구현하고 확장하는 코파일럿(copilot)으로 길들여서 활용하는 방안을 제시하려는 의도를 담고 있다.
인공지능을 특정 언어 현상 분석이나 언어 연구 과정의 일부분에 적용한 사례를 다룬 연구들은 꾸준히 발표되고 있다. 하지만 연구에 필요한 데이터를 코퍼스에서 추출하여 효과적으로 시각화하고 다양한 질적·양적 분석을 수행하는 전체 연구 과정에 인공지능을 어떻게 기존의 도구들과 조화롭게 사용할 수 있는지를 안내하는 시도는 아직 발견하기 어렵다. 이 책은 이런 간극을 메우기 위한 시도의 일환으로, 코퍼스 언어학적 연구의 각 단계에서 인공지능과 효과적으로 소통하는 프롬프팅 기법과 더불어 인공지능 및 기존의 도구들을 사용하여 연구 데이터를 처리하고 분석하는 방법을 영어의 대표적인 논항교체(argument alternation) 데이터 분석 사례를 중심으로 세밀하게 보여준다.
언어 연구와 인공지능의 관계 이 책의 집필은 인공지능이 연구와 교육 현장에 점차 깊이 침투하고 있는 상황에서 언어 연구가 인공지능과 어떤 관계를 맺어야 하는지 그리고 어떤 식으로 상호보완적으로 발전할 수 있는지를 고민하는 데에서 시작되었다. 이 같은 문제의식과 고민은 ChatGPT, Gemini와 같은 LLM 기반 생성형 인공지능 챗봇을 활용하여 복잡한 코딩 없이 자동구문분석이 된 대용량 코퍼스로부터 논항교체 데이터를 추출하는 방안에 관한 연구 수행으로 이어졌다. 이 연구를 수행하면서 인공지능을 잘 활용하면 높은 수준의 프로그래밍 언어 지식과 코딩 능력을 갖추지 않고도 언어 연구자들이 연구에 필요한 데이터를 얻을 수 있음을 확인할 수 있었다.
이 책을 집필한 직접적인 동기는 코딩 없이 연구에 필요한 데이터를 얻는 것에서 더 나아가, ChatGPT의 언어 능력, 분석 능력과 코딩 능력을 활용하면 Word2Vec, BERT 등과 같은 언어 모델을 적용한 깊이 있는 데이터 분석과 통계 분석을 수월하게 할 수 있다는 사실과 인공지능의 한계와 위험성을 동시에 발견하게 된 것이다.
인공지능과 동행하는 언어 연구의 가능성 이 책은 세계적으로 언어 연구에서 가장 널리 쓰이는 두 균형 코퍼스(balanced corpora)인 영국 국가 코퍼스(British National Corpus: BNC)와 미국 현대 영어 코퍼스(Corpus of Contemporary American English: COCA)에서 추출한 데이터를 대상으로 인공 신경망 언어 모델 기반의 다양한 분석을 수행하여 의미의 구조적 실현 양상에 관한 새로운 발견에 이르는 과정을 상세히 기술하고 있다. 이 책에서 다룬 내용이 언어 연구자들에게 언어 의미의 구조적 실현에 대한 새로운 통찰을 제공하고, 인공지능을 활용하는 언어 연구 방법론의 유용한 가능성과 한계를 가늠하는 데에 도움이 되길 바란다. 그리하여 18세기 데카르트의 상상력에서 출발한 좌표 공간(coordinate space) 개념이 벡터 공간 모델(vector space model)을 거쳐 현재 우리가 접하는 인공 신경망 언어 모델들로 발전해 온 것처럼, 인공지능과 동행하는 언어 연구가 새로운 차원의 탐구로 이어지길 기대한다.
이 책의 구성과 내용 1장에서는 본 저술의 사례 연구 대상인 영어의 사역교체(causative alter\-nation)에 관한 이론적·계량적 접근을 대표하는 선행연구들을 소개하고, 인공지능을 활용한 연구의 필요성, 본 저술의 연구 내용과 학문적 기여에 대해 논의한다. 2장에서는 ChatGPT와 Gemini를 활용하여 자연어 텍스트 프롬프트만으로 자동구문분석이 된 BNC로부터 손쉽게 연구에 필요한 데이터를 추출하는 방안을 제안한다.
3장과 4장에서는 추출한 데이터를 대상으로 LLM 기반 생성형 AI와 신경망 기반 언어 모델을 활용하여 기존에 시도되지 않은 다양한 심층 분석을 수행한다. 3장에서는 ChatGPT를 활용하여 파이썬 기반 공연구조적 분석(collo\-structural analysis)을 수행하여 사역교체 강도가 높은 137개의 상태변화 동사를 선별한 후, 이 동사들에 대한 벡터 공간 모델 및 Word2Vec 기반 의미 분석을 수행한다. 이를 통해 다양한 의미 부류의 사역교체 동사들의 의미적 복잡성과 가장 핵심적인 의미 차원을 어떻게 연속적인 의미 공간에서 파악하고 효과적으로 표상할 수 있는지를 검토하고, 이 같은 분석의 한계는 무엇인지 논의한다. 4장에서는 ChatGPT를 활용한 벡터 공간 모델 기반 분석을 대상(theme) 논항의 특성 분석으로 확대한다. 먼저 대표적인 다의어 사역교체 동사인 break와 freeze의 대상 논항의 의미 군집을 특징짓는 핵심적인 의미 차원을 도출하고, 이를 토대로 두 동사의 주요 의미 범주를 설정한다. 이어서 ChatGPT를 활용한 BERT 기반 다의적 의의(sense) 분포 분석을 통해 동사의 다의성 구조로부터 동사가 특정 구문에서 선호되는 근본적인 이유를 밝혀낸다. 마지막으로 대상 논항과 사동주(causer) 논항의 의미적·문맥적 특성이 동사의 구문 실현을 어떻게 제약하는지를 나무구조 회귀 모형과 혼합효과 로지스틱 회귀 모형을 적용한 다중요인 분석을 통해 규명함으로써 동사와 논항이 사역교체에 대해 가하는 제약에 관한 전체적인 그림을 제시한다.
5장에서는 이 책의 논의를 종합하고, 인공지능 활용 방법론의 한계와 잠재적 위험성, 윤리적인 고려 사항 및 인공지능을 품은 의미 연구의 전망에 대해 논의한다.
*〈성균인문학술총서〉는 성균관대학교 문과대학 교수들이 진행해 온 연구의 결정체를 세상에 선보이기 위해 기획되었다. 동시에 급변하는 세상에서 터져 나오는 다양한 삶의 물음에 대해 성균관대학교 문과대학 교수들이 자기 삶과 연구를 통해 얻은 지혜를 세상에 제시하고자 하는 노력의 일환이다. 성균인문학술총서는 계속 발간될 예정이다.
* 표지 그림 설명 : 빠르게 발전하는 인공지능과 동행하는 미래는 인류 역사의 새로운 여정이 될 것이다. 표지 이미지는 이를 미국 시인 로버트 프로스트(Robert Frost, 1874~1963)의 시 〈가지 않은 길(The Road Not Taken)〉의 내용을 표현한 이미지를 배경으로 하여 시각적으로 나타낸 것이다. 이 이미지는 2025년 7월 저자가 ChatGPT를 사용하여 생성하였다.
이한정 (Hanjung Lee)
미국 스탠퍼드 대학교(Stanford University)에서 언어학 박사 학위를 받았다. 미국 노스캐롤라이나 대학교(University of North Carolina-Chapel Hill) 심리학과 박사 후 연구원과 미네소타 대학교(University of Minnesota- Twin Cities) 언어학과 조교수를 거쳐 성균관대학교 영어영문학과 교수로 재직 중이다. 스탠퍼드 언어정보연구센터 자문위원과 네덜란드 과학재단 해외 전문위원 등을 역임하였으며, 현재 한국생성문법학회 부회장과 한국언 어학회 수석부회장을 맡고 있다.
풀브라이트 연구 장학 프로그램의 지원을 받아 스탠퍼드 언어정보연구센터(Center for the Study of Language and Information)에서 방문 연구를 수행했으며, 주요 연구 분야는 의미화용론, 통사론, 실험 언어학 및 통계 언어학이다. 이 분야에서 다양한 방법론을 적용한 연구 성과를 《Natural Language and Linguistic Theory》(2003), 《Cognition》(2007), 《Journal of Linguistics》(2016, 2022), 《Language》(2024) 등 많은 국제 저명 학술지에 발표해 왔다.
이메일: hanjung@skku.edu
서문
{제1장} 인공지능과 인과적 사건의 구조적 실현 연구
1. 영어의 사역교체에 관한 선행 연구
2. 인공지능을 활용한 연구 방법론의 필요성 및 연구 내용
{제2장} ChatGPT와 Gemini를 활용한 코퍼스 구축과 데이터 추출
1. 코퍼스 태깅과 파싱
2. 에이전트 기반 작업 흐름을 적용한 코퍼스 데이터 추출
1) 추출 대상 동사와 구문 유형
2) 단계적 프롬프팅과 함수 생성
3) 다중 에이전트 협업을 통한 코드 개선
3. 탐색적 데이터 분석
{제3장} ChatGPT를 활용한 BNC 데이터 분석
1. 동사 의미의 구성 요소와 의미 부류의 기원
2. 사역교체 동사의 공연구조적 분석
1) 공연어휘소 분석
2) 변별적 공연어휘소 분석
3. 벡터 공간 모델 기반 사역교체 동사 분석
1) 분포 의미론의 발전
2) 통계 기반 분포 의미론 분석
3) 공연구조적 분석을 확장한 분포 의미론 분석
4. Word2Vec 활용 신경망 예측 기반 사역교체 동사 분석
{제4장} ChatGPT를 활용한 COCA 데이터 분석
1. 대상 논항 특성의 분포 의미론 분석
1) 데이터 준비
2) freeze의 대상 논항 분석
3) break의 대상 논항 분석
2. 다의어 freeze와 break 의의의 사역교체 구문 분포 분석
1) freeze 의의 범주의 구문 분포
2) break 의의 범주의 구문 분포
3. BERT를 활용한 freeze와 break의 다의성 분석
1) 분포 의미론의 신경-기호학적 확장
2) BERT 기반 다의성 분석 파이프라인
3) BERT 기반 다의성 분석 결과와 시사점
4. 사동주 유형의 사역교체 구문 분포 분석
1) break 동사 용례의 웹 검색과 분석
2) 자동과 타동 구문에서의 사동주 특성
3) 사동주 유형의 구문 분포 데이터 분석
5. 사역교체의 다중요인 분석
1) 변수의 조작화와 애노테이션 자동화
2) 나무구조 회귀 모형
3) 혼합효과 로지스틱 회귀 모형
{제5장} 종합 및 결론
{부록 1장} 연구 맞춤형 GPT 제작
{부록 2장} T-SNE가 적용된 의미 지도 생성
{부록 3장} COCA에서 동사 용례 추출하기
참고문헌