4장 데이터 검색

이 장에서는 ‘색인된 문서 검색 방법과 이를 위해 제공되는 여러 검색 관련 API 사용 방법’ **에 대해 다룰 예정입니다.

4.1 검색 API
4.2 Query DSL 이해하기
4.3 Query DSL 주요 쿼리
4.4 부가적인 검색 API

4.1 검색 API

Untitled

엘라스틱서치는 색인 시점에 Analyzer를 통해 분석된 텀을 Term, 출현빈도, 문서번호 등 역색인 구조로 만들어 내부적으로 저장하고 있습니다.

검색 시점에는 Keyword 타입과 같이 분석이 불가능한 데이터와 분석이 가능한 데이터를 구분하고, 분석이 가능한 경우 Analyzer를 이용해 분석을 수행합니다.

4.1.1 검색 질의 표현 방식

$$ URI\ 검색\ \ vs\ \ Request\ Body\ 검색 $$

Request Body 방식의 검색을 사용해야 합니다.

URI 검색을 이용할 경우 복잡한 질의문을 작성하기 힘들며, 복잡한 질의문을 작성하더라도 가독성이 좋지 않은 단점이 존재하기 때문입니다.

4.2 QueryDSL 이해하기

QueryDSL Request Body

{
	"size":
  "from":
	"timeout":     // 설정한 소요 시간 내 검색된 데이터만 조회
	"_source": {}  // 검색 시 필요한 필드만 출력하도록 정의
	"query": {}
	"aggs": {}
	"sort": {}
}

QueryDSL Response Body

{
	"took":
	"timed_out":
	"_shards": {
		"total":
		"successful":
		"failed":
	},
	
	"hits": {
		"total":
		"max_score":  // 일치하는 문서의 가장 높은 스코어 값
		"hits": []    // 각 문서 정보와 스코어 값
	}
}

QueryDSL 쿼리와 필터

Query 컨텍스트
- 전문 검색
- 분석기를 이용하여 분석 수행
  - 요청 마다 루씬을 이용한 계산 수행 (캐싱 X)
    - 디스크 연산을 수행하므로 상대적으로 느림
- 연관성 관련 Score 계산
Filter 컨텍스트
- 조건 검색(ex. yes/no)
- 자주 사용되는 필터의 결과는 엘라스틱서치가 내부적으로 캐싱
- 메모리 연산을 수행하기에 상대적으로 빠름

어떤 방식을 택하느냐에 따라 검색 과정이나 성능이 크게 다를 수 있기에 용도에 맞게 사용해야 합니다.