spark 류의 고등 데이터 프레임웤은 lazy evaluation 기능 때문에 혼란이 오는 경우가 있다.
절차적인 코딩 사고와 실제 흐름이 일치하지 않기 때문이다. 시스템 프로그래밍 할 때 non-volatile 과 컴파일러 최적화로 인해 헛갈릴 때랑 조금은 비슷하다.
아무튼 그리하여 cache(=persist) 역시 나의 사고 흐름과 vs. spark 의 알아서 최적화가 일치하지 않는 경우가 많다.
일단 빼고 측정, 넣고 측정 해보고 결정할 필요가 있다.
그러나 귀찮다고 안된다고 프로파일링 하지 않는 것은 우리의 유구한 관습이다. 그런다고 월급을 더 주지는 않으니까.
그래도 깔짝깔짝 해 보는게 또 패시브다. 귀찮다고 징징. 그래도 깔짝깔짝.
...
로직어날라이저 붙이면 되는데 그거 셋팅하기가 얼마나 귀찮나. T32 붙이면 되는데 printf 로 해결 보고 싶다. 그리하여 최후의 최후에 TP 여기다 붙이면 되나요 물어보고 다니고 그 육중한 로직어날라이저 가져다가 어... 이거였네... 진작 붙일 껄.. 하던 시절이 어언 10년이 넘었다.
귀찮은게 왜이리 많은가.