파이브 나인이라는 용어가 있다. 99.999%를 뜻하는 말이다. 서비스에서는 1년에 다운타임이 5분 정도인 고가용성, 고신뢰성 서비스를 말한다. 반도체 산업이라면 사용하는 케미컬의 순도를 뜻한다. 이러저러 9가 몇개냐는 공학에서 중요한 숙제다.
RF-ID 관련 일을 한창 할 때였다. 오래전이지만 그 때 무렵 인식률은 98.x% 가 스펙이었다. 도메인에 따라, 스코프에 따라 편차는 있다. 하이패스가 들어서고 하이패스는 여전히 사람이 체감할 만한 오인식이 가끔 있다. 하이패스라면 괜찮다. 오인식에 대응할 장치들이 있고, 이를 사람이나 기계가 사후 대사를 맞추는데 큰 무리가 없다. 그러나 98.x%를 산업향 물류에서 다룬다면 곤란해진다. 이 정도 신뢰성이 개선되지 않았다면 고속 물류 시스템, 전수 검사 시스템등에서는 RF-ID가 바코드를 대체할 수 없을 것이다.
음성인식 관련 업무를 할 때였다. 이제 99%는 매우 중요한 수치가 되었다. 나역시 UX 전문가가 아니였고 같이 일하는 분들도 목표가 99.999%인지 95%인지 명확함이 없었다. 얼마 이상이면 사람들이 이 장치를 "쓸 만하다"고 여기는지 레퍼런스가 없었다. 그래서 목표치는 항상 인식 정확도의 "개선율"이 중요했다. 물론 여기에도 훼이크-엄밀히는 트레이드 오프-는 있어서 인식률을 올리면 오인식률이 올라간다. 오인식을 차단할 수록 인식률이 떨어진다. 더욱 정확하게 발음해야 인식한다.
이렇게 품질 목표치에 대한 공학적으로 의미있는 수치 제시 없이 제품이 나간다는 것은 참으로 어설픈 일이 아닐 수 없었다. 그러나 어설픈 한 편, 이런저런 제품화 시도가 없었다면 지금의 산업적 성과는 없었을 것이다. 품질이 시장의 기대에 못 미치더라도 제품화 노력을 계속해야 한다는 점은 나도 동의한다.
시대가 흘러 음성인식 기능이 TMS320의 영역에서 클라우드나 S/W의 영역으로 올라왔고 서비스는 더욱 훌륭해졌지만 나는 여전히 의문이다. 이 서비스에 대해 신뢰성의 9가 몇 개인지 목표치와 경험적 레퍼런스가 제대로 구축되어 있지 않은 것 같다.
95% 수준에서는 사람들이 그저 장난감으로 여깁니다. 98%가 넘어서면 이 기계를 음성으로 지배할 수 있다고 여깁니다. 99.999%가 넘어서면 사람들이 이 기계가 인공지능적으로 판단할 수 있다고 여깁니다. 이런 것들이다.
그런데, 실제로는 음성인식, 그러니까 인공지능을 제외하고 그냥 순수한 음성인식과, 컨텍스트 어웨어 검색 영역까지만 제한한다고 해도 현재 수준은 소숫점 단위의 9를 논하기엔 거리가 있는 것 같다. 그래서 내가 가장 훌륭하다고 평가하는 음성인식 제품은 노키아 5800, 흘러간 심비안 스마트폰이었다. 노키아 5800의 목표는 명확해서, 휴대폰의 몇 가지 기능과 전화 걸기, 연락처 찾기에 대해 정확한 인식률을 갖는 것이었다. 나의 경우 200명 이하의 연락처를 갖고 있었으므로 오인식, 인식 실패가 거의 없었다. "거의" 라는 것은 역시 감성적인 측면이라 공학적인 수치는 아니지만, 나같은 일반 사용자들이 사용하는데 이것은 그저 장난감이 아니라 음성인식을 정착된 서비스로 사용할 수 있는 수준의 제품이라는 뜻이다. 아마도 HCI 연구자들이라면 이것을 통계적으로 증명해야 할 것이다. (200명이상의 연락처를 보유한 사용자들은 오인식에 불만이 있었다고 들었다.)
그리고 시리가 나왔고, 이런저런 음성인식 서비스들이 나왔다. 훌륭한 부분이 많이 있다. 그러나 이것이 몇 번 체험해보는 서비스 이상, 지속적인 서비스 사용 체류시간과 리텐션을 갖는 제품들인가에는 여전히 의문이 든다. 아직 9의 갈 길이 멀다. 인식률 자체를 올리는 것 이외에 서비스들이 이미 컨텍스트 어웨어를 넘어서서 인공지능과 융합하고 있다. 이제는 인식률이 문제인지 컨텍스트 어웨어가 문제인지 인공지능이 문제인지 사용자가 알기 어렵다. 시리나 구글 보이스처럼 발음 피드백이 문자로 나온다면 그나마 알 수 있지만 그냥 음성인식 후 대응하는 서비스라면 더욱 그렇다. 9의 영역이 갈라지기 시작한 것이다. 0.98을 계속 곱하면 1에서 멀어질 뿐이다.
쓰다가 MR이 끝나기에 오늘은 결말 없이 끗.