Орални испит из неурохирургије: ЦхатГПТ-4 надмашује ГПТ-3.5 и Гоогле Бард у перформансама
Summary
Студија објављена на медРкив серверу за препринт открила је супериорне перформансе ГПТ-4, најновијег језичког модела из ОпенАИ, у односу на ГПТ-3.5 и Гоогле Бард на испиту за оралну неурохирургију. Студију су спровели истраживачи у Сједињеним Државама који су проценили перформансе […]

Студија објављена на медРкив серверу за препринт открила је супериорне перформансе ГПТ-4, најновијег језичког модела из ОпенАИ, у односу на ГПТ-3.5 и Гоогле Бард на испиту за оралну неурохирургију. Студију су спровели истраживачи у Сједињеним Државама који су проценили перформансе три општа модела великих језика (ЛЛМ) на питањима вишег реда која представљају испитивање оралног одбора Америчког одбора за неуролошке хирургије (АБНС).
Испит оралног одбора за неурохирургију АБНС сматра се ригорознијом проценом од свог писменог пандана и лекари га полажу две до три године након дипломирања на специјализацији. Састоји се од три сесије од по 45 минута, а његова стопа пролазности није премашила 90% од 2018. Студија је процењивала перформансе ГПТ-3.5, ГПТ-4 и Гоогле Бард на модулу од 149 питања имитирајући испит из неурохирургије .
Сва три ЛЛМ-а процењена у овој студији показала су способност да положе испите лекарског одбора са питањима са вишеструким избором. Међутим, ниједна претходна студија није тестирала или упоређивала перформансе вишеструких ЛЛМ-а на претежно питањима вишег реда из домена медицинских субспецијалитета са високим улозима, као што је неурохирургија.
Студија је открила да је ГПТ-4 постигао резултат од 82,6% на модулу од 149 питања, надмашујући резултат ЦхатГПТ-а од 62,4%. Поред тога, ГПТ-4 је показао боље перформансе од ЦхатГПТ-а у подспецијалности кичме, постигавши 90,5% у поређењу са ЦхатГПТ-овим 64,3%. Гоогле Бард је генерисао тачне одговоре за 44,2% питања, док ГПТ-3.5 и ГПТ-4 никада нису одбили да одговоре на питање засновано на тексту.
Налази студије наглашавају хитну потребу да неурохирурзи остану информисани о новим ЛЛМ-овима и њиховим различитим нивоима учинка за потенцијалне клиничке примене. Са напретком у домену вештачке интелигенције, неурохируршки приправници би могли да користе и зависе од ЛЛМ-а за припрему одбора, пружајући нове клиничке увиде и служећи као помоћ у разговору за увежбавање различитих клиничких сценарија о изазовним темама за одборе.
Међутим, постоји хитна потреба да се развије више поверења у ЛЛМ системе, тако да би требало наставити са ригорозном валидацијом њиховог учинка на сценаријима све вишег реда и отвореног типа. То би осигурало безбедну и ефикасну интеграцију ових ЛЛМ-а у клиничке процесе доношења одлука. Студија наглашава важност метода за квантификацију и разумевање халуцинација, и на крају ће само они ЛЛМ који минимизирају и препознају халуцинације бити укључени у клиничку праксу.
Налази студије такође сугеришу да би обрасци испитивања са више избора могли постати застарели у медицинском образовању, док ће вербалне процене добити већи значај. Штавише, студија примећује да је ГПТ-4 показао смањену стопу халуцинација и способност навигације кроз изазовне концепте као што је проглашење медицинске бескорисности. Међутим, било је тешко у другим сценаријима, као што је укључивање карактеристика на нивоу пацијента, на пример, слабост.
У закључку, студија објављена на медРкив серверу за препринт је показала да ГПТ-4 надмашује ГПТ-3.5 и Гоогле Бард на неурохирургијском оралном испиту. Налази студије наглашавају потребу за ригорозном валидацијом перформанси језичких модела на сценаријима све вишег реда и отвореног типа. Поред тога, студија наглашава важност неурохирурга да буду информисани о новим језичким моделима и њиховим различитим нивоима перформанси за потенцијалне клиничке примене.