Satya Nadella vol que AI sigui el vostre proper metge.
El conseller delegat de Microsoft va anunciar dos avenços de la IA sanitària a les xarxes socials aquesta setmana, inclòs Mai-DXO, un sistema que simula diversos metges virtuals que treballen junts per resoldre misteris mèdics.
En la prova contra 304 casos complexos del New England Journal of Medicine, Microsoft va informar que la IA va diagnosticar correctament el 85,5% d’ells. Un grup de 21 metges amb experiència que aborden els mateixos casos? Van tenir un 20% de dret.
“Encantat de compartir dos avenços que ens acosten a l’impacte del món real en la IA sanitària”, va escriure Nadella. “Mai-DXO és un orquestrador agnòstic model que simula un panell de metges virtuals. Assoleix un 85,5% de precisió diagnòstica, de vegades que els metges experimentats, amb la reducció de costos diagnòstics.”
Encantat de compartir dos avenços que ens acosten a l’impacte del món real en la IA sanitària:
SDBench introdueix un nou punt de referència que transforma 304 casos NEJM en simulacions de diagnòstic interactives. L’IA ha de fer preguntes, fer proves i pesar els costos, reflectint la complexitat de … pic.twitter.com/LASC4HK730
– Satya Nadella (@Satyanadella) 30 de juny de 2025
L’anunci es produeix quan Microsoft s’uneix a un camp multitudinari d’empreses tecnològiques que competeixen per aplicar la IA als problemes més espinosos de HealthCare.
Amb els nord -americans gastant prop de 5 bilions de dòlars anuals en assistència sanitària, i errors diagnòstics que afecten 12 milions de persones Cada any, segons la Universitat Johns Hopkins, la idea d’utilitzar IA per abordar Els problemes relacionats amb els humans semblen un no-pensador.
Com funciona el Consell Mèdic de Microsoft
Mai-DXO funciona com un equip de somni mèdic atrapat en un ordinador. El sistema aborda els casos a través del que Microsoft anomena el punt de referència de diagnòstic seqüencial o SDBench.
En lloc de preguntes d’opció múltiple, com les proves tradicionals d’AI medicals, reflecteix el funcionament dels metges: començar amb informació limitada sobre un pacient, fer preguntes de seguiment, ordenar proves i ajustar les teories a mesura que arribin les dades noves.
Cada prova comporta un cost en diners virtuals, obligant la IA a equilibrar la minuciositat contra la despesa sanitària.
Dit d’una altra manera, bàsicament simula un consell mèdic que debatia un cas, amb diferents models que tenen diferents papers. Els models debaten, en desacord i, eventualment, arriben a un consens, de la mateixa manera que els vostres metges farien si fossis un cas difícil d’estudiar.
En una configuració, MAI-DXO va aconseguir un 80% de precisió mentre va gastar 2.397 dòlars per cas, aproximadament un 20% menys que els 2.963 dòlars que els metges gasten normalment.
En el rendiment màxim, va aconseguir una precisió del 85,5% amb un cost de 7.184 dòlars per cas. En comparació, el model autònom O3 de l’Openai va aconseguir una precisió del 78,6%, però va costar 7.850 dòlars.
Imatge: Microsoft
El panell de metges virtuals inclou el doctor Hipòtesi, que manté una llista de funcionament dels tres diagnòstics més probables mitjançant mètodes de probabilitat bayesiana.
El Dr. Test-Chooser selecciona fins a tres proves de diagnòstic per ronda, amb l’objectiu de guanyar el màxim d’informació.
El doctor Challenger actua com a contrari, buscant proves que contradiuen la teoria predominant. El doctor Stewardship vetoes proves costoses amb baix valor diagnòstic.
Mentrestant, el doctor Checklist assegura que tots els noms de proves són vàlids i el raonament de l’equip es manté coherent.
Imatge: Microsoft
Microsoft va provar el sistema en casos publicats a la New England Journal of Medicine entre 2024 i 2025, després de la data de tall de formació de l’AI, eliminant qualsevol possibilitat que el model hagués memoritzat les respostes.
Els estudis van ser casos difícils que van requerir un examen complet per diagnosticar -se adequadament.
Els 21 metges que Microsoft van reclutar per comparació van tenir entre 5 i 20 anys d’experiència, amb una mediana de 12 anys.
Van treballar sense accés a col·legues, llibres de text o assistència per IA per assegurar una comparació justa de la capacitat de diagnòstic brut. Van denunciar una taxa d’èxit del 20% en aquests casos admesos.
El sistema funciona en diversos modes. “Resposta instantània” proporciona un diagnòstic basat exclusivament en informació inicial per 300 dòlars, el cost d’una visita al metge.
“Només la pregunta” permet preguntes de seguiment sense ordenar proves. “Pressupostat” fa un seguiment dels costos amb un límit de despesa màxim. “Sense pressupost” dóna al tauler gratuït, mentre que “conjunt” gestiona diversos panells i agrega les seves conclusions amb la màxima precisió.
El futur de la medicina?
Mai-DXO representa l’empenta més àmplia de Microsoft a la IA de salut dels consumidors.
La companyia informa diàriament més de 50 milions de sessions relacionades amb la salut a través dels seus productes Bing i Copilot. Des de cerques al dolor al genoll fins a cerques d’atenció urgent, Microsoft veu els motors de cerca i els assistents de l’IA convertint -se en la nova porta principal per a l’assistència sanitària.
Per descomptat, aquest és només un pas més en un calendari molt llarg de la tecnologia mèdica.
Per context, el sistema Mycin de Stanford va diagnosticar infeccions bacterianes als anys 70 i les converses de metges simulades per l’AMIE de Google l’any passat.
Microsoft va desenvolupar Mai-DXO com a sistema agnòstic model, cosa que significa que pot funcionar amb models de IA de diferents empreses.
En les proves, va augmentar el rendiment a través dels models d’Openai, Google, Anthropic, Meta i altres per una mitjana de l’11%. La millora va ser estadísticament significativa a tots els models provats.
Dominic King i Harsha Nori, que van dirigir la investigació a Microsoft AI, van destacar en una publicació al bloc que la tecnologia segueix sent una demostració de recerca.
“Resten reptes importants abans que la IA generativa es pugui desplegar de forma segura i responsable a tota la salut”, van escriure. El sistema destaca en reptes de diagnòstic complexos, però necessita fer proves en casos rutinaris.
Microsoft té previst presentar la investigació per a la revisió entre iguals i treballa amb organitzacions sanitàries per validar l’enfocament en entorns clínics.
La companyia ha deixat clar que qualsevol desplegament requeriria “proves de seguretat rigoroses, validació clínica i revisions reguladores”.
Ara per ara, Mai-DXO es manté confinat als laboratoris de recerca. Però, amb els errors de diagnòstic que contribueixen a gairebé el 10% de les morts del pacient i afecten milions anuals, el panell de metges virtuals de Microsoft representa un altre pas cap a la salut assistida per AI.
L’equip d’AI de cinc doctor podria diagnosticar-se millor que 21 metges humans combinats, però encara és massa aviat per veure una implementació principal.
Microsoft diu que AI no substituirà els metges; Els augmentarà. Els 21 metges que van anotar un 20% en aquells casos de Nejm brutals esperen que això sigui cert.
Editat per Sebastian Sinclair i Josh Quittner
