default_batch_fetch_size 관련질문

Question

안녕하세요 선생님 최근 default_batch_fetch_size 관련 질문과 비슷한 상황이지만 조금 다릅니다. 현재 A 테이블과 B테이블이 one to many 로 연관관계가 있고 현재 A 테이블 기준으로 쿼리를 날린다음(테이블 B는 페치조인하지 않음) 서비스 단에서 (테이블 B)부분 lazy를 강제 초기화 해주고 있습니다. 제가 batchsize를 다르게 주면서 테스트를 해보았습니다. 1. 쿼리 결과물 : 180개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 1073개 default_batch_fetch_size=100 in 절에 나가는 batch size= 100, 50, 25, 5 총 4번 비정상 fetch size되로면 2번에 나가야함 2.쿼리 결과물 : 180개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 1073개 default_batch_fetch_size=80 in 절에 나가는 batch size= 80,80,20 총 3번 정상 3.쿼리 결과물 : 180개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 1073개 default_batch_fetch_size=500 in 절에 나가는 batch size= 125, 31, 15 ,9 총 4번 비정상 fetch size되로면 1번에 나가야함 4.쿼리 결과물 : 180개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 1073개 default_batch_fetch_size=180 in 절에 나가는 batch size= 180 총 1번 정상 5.쿼리 결과물 : 30개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 23개 default_batch_fetch_size=100 in 절에 나가는 batch size= 25, 5 총 2번 비정상 fetch size되로면 1번에 나가야함 6.쿼리 결과물 : 30개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 23개 default_batch_fetch_size=30 in 절에 나가는 batch size= 30 총 1번 정상 7.쿼리 결과물 : 30개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 23개 default_batch_fetch_size=20 in 절에 나가는 batch size= 20, 10 총 2번 정상 8.쿼리 결과물 : 30개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 23개 default_batch_fetch_size=500 in 절에 나가는 batch size= 15, 15 총 2번 비정상 fetch size되로면 1번에 나가야함 혹시 자체적으로 최적화 알고리즘이 적용되면서 이렇게 제각각 나가는건가요? 아니라면 혹시 저 in 절을 만드는 부분을 디버깅을 해볼려면 어떤 클래스를 찾아보면 될까요?

김영한 · Answer

안녕하세요. asdkfur님 좋은 질문입니다. 좀 깊은 내용이기는 하지만, 먼저 이렇게 동작하는 배경을 설명드릴께요. 보통 RDB들은 select * from x where in (?) 와 같은 preparedstatement는 미리 문법을 파싱해서 최대한 캐싱을 해둡니다. 그런데 데이터가 1개, 2개, 3개, 100개가 있으면 모두 각각 다음 처럼 최대 100개의 preparedstatement 쿼리를 만들어야 합니다. select * from x where in (?) select * from x where in (?, ?) select * from x where in (?, ?, ?) select * from x where in (?, ?, ? ...) 이렇게 되면 DB 입장에서 너무 많은 preparedstatement 쿼리를 캐싱해야 하고, 성능도 떨어지게 됩니다. 그래서 하이버네이트는 이 문제를 해결하기 위해 내부에서 나름 최적화를 합니다. 100 = 설정값 50 = 100/2 25 = 50/2 12 = 25/2 그리고 1~10까지는 자주 사용하니 모두 설정 이런식으로 잡아둡니다. 그러면 기존에 100개의 preparedstatement 모양을, 1~10, 12, 25, 50 ,100 해서 총 14개의 모양으로 최적화 할 수 있습니다. 이렇게 해서 100으로 최대값을 설정하고, 18을 설정하면 12, 6 이렇게 다음과 같이 나누어서 실행됩니다. select * from x where in (?*12) select * from x where in (?*6) 추가로 다음과 같은 속성으로 최적화 전략을 제어할 수 있습니다. spring.jpa.properties.hibernate.batch_fetch_style: legacy //기본 spring.jpa.properties.hibernate.batch_fetch_style: padded spring.jpa.properties.hibernate.batch_fetch_style: dynamic //최적화X 위에 말씀드린 전략이 기본 전략입니다. 최적화 대신에 설정한 값을 기준으로 사용하려면 dynamic를 선택하면 됩니다.(설명드린 내용 때문에 권장하지 않습니다.) padded 전략은 다음을 참고해주세요: https://docs.jboss.org/hibernate/orm/4.2/manual/en-US/html/ch20.html#performance-fetching-batch 감사합니다^^

asdkfur · Answer

왜그런지 혼자 찾아보았지만 잘 나오지 않아 헤맸는데역시나 감사합니다. ㅎㅎ