. 2025; 53(1): 35-43 | DOI: 10.5543/tkda.2024.78131  

Comparative Evaluation of Chatbot Responses on Coronary Artery Disease

Levent Pay1, Ahmet Çağdaş Yumurtaş2, Tuğba Çetin3, Tufan Çınar4, Mert İlker Hayıroğlu3
1Department of Cardiology, Istanbul Haseki Training and Research Hospital, Istanbul, Türkiye
2Department of Cardiology, Kars Harakani State Hospital, Kars, Türkiye
3Department of Cardiology, Dr Siyami Ersek Thoracic and Cardiovascular Surgery Training Hospital, İstanbul, Türkiye
4Department of Medicine, University of Maryland Medical Center Midtown Campus, Maryland, USA

Objective: Coronary artery disease (CAD) is the leading cause of morbidity and mortality globally. The growing interest in natural language processing chatbots (NLPCs) has driven their inevitable widespread adoption in healthcare. The purpose of this study was to evaluate the accuracy and reproducibility of responses provided by NLPCs, such as ChatGPT, Gemini, and Bing, to frequently asked questions about CAD.

Methods: Fifty frequently asked questions about CAD were asked twice, with a one-week interval, on ChatGPT, Gemini, and Bing. Two cardiologists independently scored the answers into four categories: comprehensive/correct (1), incomplete/partially correct (2), a mix of accurate and inaccurate/misleading (3), and completely inaccurate/irrelevant (4). The accuracy and reproducibility of each NLPC’s responses were assessed.

Results: ChatGPT’s responses were scored as 14% incomplete/partially correct and 86% comprehensive/correct. In contrast, Gemini provided 68% comprehensive/correct responses, 30% incomplete/partially correct responses, and 2% a mix of accurate and inaccurate/misleading information. Bing delivered 60% comprehensive/correct responses, 26% incomplete/partially correct responses, and 8% a mix of accurate and inaccurate/misleading information. Reproducibility scores were 88% for ChatGPT, 84% for Gemini, and 70% for Bing.

Conclusion: ChatGPT demonstrates significant potential to improve patient education about coronary artery disease by providing more sensitive and accurate answers compared to Bing and Gemini.

Keywords: Artificial intelligence, Bing Chat, ChatGPT, coronary artery disease, digital health, Gemini, natural language processing chatbots


Koroner Arter Hastalığına İlişkin Chatbot Yanıtlarının Karşılaştırmalı Değerlendirilmesi

Levent Pay1, Ahmet Çağdaş Yumurtaş2, Tuğba Çetin3, Tufan Çınar4, Mert İlker Hayıroğlu3
1İstanbul Haseki Eğitim ve Araştırma Hastanesi, İstanbul, Türkiye
2Kardiyoloji Kliniği, Kars Harakani Devlet Hastanesi, Kars, Türkiye
3Kardiyoloji Bölümü, Dr. Siyami Ersek Göğüs Kalp ve Damar Cerrahisi Eğitim Hastanesi, İstanbul, Türkiye
4Tıp Bölümü, Maryland Üniversitesi Tıp Merkezi Midtown Kampüsü, Maryland, ABD

Amaç: Koroner arter hastalığı (KAH), dünya çapında morbidite ve mortalitenin önde gelen nedenidir. Doğal dil işleyen sohbet robotlarına (NLPC) olan ilginin artması, bunların sağlık alanında kaçınılmaz olarak yaygın bir şekilde benimsenmesini sağlamıştır. Bu çalışmanın amacı ChatGPT, Gemini ve Bing gibi NLPC’lerin CAD ile ilgili sık sorulan sorulara verdiği yanıtların doğruluğunu ve tekrarlanabilirliğini kontrol etmektir.

Yöntem: KAH ile ilgili sık sorulan 50 soru ChatGPT, Gemini ve Bing üzerinden 1 hafta arayla 2 kez soruldu. İki kardiyolog bağımsız olarak cevapları 4 gruba ayırdı: kapsamlı/doğru (1), eksik/kısmen doğru (2), doğru ve yanlış/yanıltıcı karışımı (3) ve tamamen yanlış/ilgisiz (4). Her NLPC’nin yanıtlarının doğruluğu ve tekrarlanabilirliği değerlendirildi.

Bulgular: ChatGPT’nin puanlaması %14 eksik/kısmen doğru ve %86 kapsamlı/doğruydu. Öte yandan Gemini %68 kapsamlı/doğru yanıt, %30 eksik/kısmen doğru yanıt ve %2 karma doğru ve yanlış/yanıltıcı yanıt verdi. Son olarak Bing, %60 kapsamlı/doğru yanıtlar, %26 eksik/kısmen doğru yanıtlar ve %8 doğru ve yanlış/yanıltıcı bilgilerin bir karışımı olan yanıtlar verdi. Tekrarlanabilirlik değerleri ChatGPT için %88, Gemini için %84 ve Bing için %70 idi.

Sonuç: ChatGPT, Bing ve Gemini ile karşılaştırıldığında daha hassas ve doğru cevaplar sağlayarak koroner arter hastalığı hakkında hasta eğitimini artırmada önemli bir potansiyele sahiptir.

Anahtar Kelimeler: Yapay zeka, Bing Chat, ChatGPT, koroner arter hastalığı, dijital sağlık, gemini, doğal dil işleme sohbet robotları


Levent Pay, Ahmet Çağdaş Yumurtaş, Tuğba Çetin, Tufan Çınar, Mert İlker Hayıroğlu. Comparative Evaluation of Chatbot Responses on Coronary Artery Disease. . 2025; 53(1): 35-43

Corresponding Author: Levent Pay


TOOLS
Full Text PDF
Print
Download citation
RIS
EndNote
BibTex
Medlars
Procite
Reference Manager
Share with email
Share


Similar articles
Google Scholar