3개 AI모델을 사용한 이유
3개 AI 모델 사용 이유
음성대화 기능을 추가하는 과정에서 약간의 비용이 발생하기 때문에 어떤 모델을 선택해야 비용을 절감을 하면서도 음성대화가 원활하게 이루어지는지 테스트가 필요했습니다.
지금 선택한 모델도 비용을 최소화한 것이기 때문에 더 정교한 음성대화를 원하면 추후에 의학 지식 관련 스크립트를 더 추가하고 더 성능이 좋은 AI모델로 교체를 하면 되고,
일단 가격과 성능을 고려하여 ‘딥시크, 제미나이, 챗지피티’를 혼합해서 사용했습니다.
3개 AI 모델 장점 반영
각 모델마다 장점을 고려하여 각 기능마다 사용할 AI모델을 정했습니다.
특정 형식 데이터 생성에 강점이 있는 DeepSeek
딥시크가 수학, 코딩, 그리고 JSON과 같은 특정 형식 데이터 생성에 강점이 있고, 이와 관련하여 특정 작업들에서는 딥시크가 일부 GPT-4 버전보다 우수한 결과를 보여주기도 한다고 합니다.
저는 DeepSeek V3 무료 버전을 사용했습니다.
사용자가 말한 증상을 바탕으로 알맞은 분야의 AI의사를 선택하는 과정에서 사용자의 증상에 따라 의사 목록을 제안하고, 결과는 JSON 객체로만 주라고 지시를 했습니다.
AI의사와 음성대화를 하는데 이 대화 내용을 바탕으로 정형화된 보고서를 만들고, 데이터베이스에 저장하는 처리 과정을 딥시크 모델이 담당합니다.
2가지 기능 모두 사용자의 증상을 바탕으로 기록하는 것이라 유료 버전을 쓸 필요가 없다고 생각해서 딥시크의 장점을 고려해서 딥시크 무료 버전을 사용했습니다.
번역기 역할 Gemini
사용자가 말하면 음성을 텍스트로 바꿔서 이 텍스트가 ChatGpt에 전달됩니다. ‘Gemini 2.0 Flash’ 한국어 버전으로 선택했습니다.
뇌 역할은 ChatGpt
변환된 사용자의 텍스트를 보고 답변을 해줍니다. 따라서 사용자의 질문에 직접적인 답변을 해주는 AI의사의 역할은 GPT-4.1이 담당합니다.
다른 버전을 사용해봤는데 느리거나 대답을 안 하는 경우가 있어서 GPT-4.1 유료 버전을 선택했는데 이것도 테스트 과정에서 아주 가끔 원하는 결과과 안 나올 때가 있었는데 만약 실제로 사용된다면 자세한 스크립트 추가 등으로 해결할 수 있다고 생각합니다.
AI의사의 음성 역할은 Vapi
GPT-4.1에서생성한 텍스트 답변을 음성으로 변환해서 사용자에게 들려주는 Voice Provider 역할을 합니다.
3개 AI 모델 사용 결과와 비용절감
그 결과로 사용자와 AI의사가 음성대화를 할 수 있고, 사용자는 화면에서 음성을 텍스트로도 확인할 수 있습니다.
음성대화를 더 원활하게 하고 싶으면 더 자세한 의학 지식을 담은 스크립트를 AI의사 분야별로 추가를 시키는 방법이 있고, 텍스트 변환기 속도를 높히기 위해 더 비싼 AI모델을 사용하는 방법이 있을 것입니다.
제미나이도 무료이지만 Vapi 사이트에서 사용하는 과정에서 아주 약간의 비용이 발생하며 총 비용은 1분에 100원 정도라서 AI구독료를 내지 않고 잠깐 이용하기에는 효율적이라고 생각합니다.