Resposta curta: Per avaluar bé els models d'IA, comenceu definint què significa "bo" per a l'usuari real i la decisió en qüestió. A continuació, creeu avaluacions repetibles amb dades representatives, controls de fuites ajustats i múltiples mètriques. Afegiu comprovacions d'estrès, biaix i seguretat, i sempre que alguna cosa canviï (dades, indicacions, polítiques), torneu a executar el sistema de control i continueu monitoritzant-lo després del llançament.
Conclusions clau:
Criteris d'èxit : Definiu els usuaris, les decisions, les restriccions i els pitjors casos d'error abans de triar les mètriques.
Repetibilitat : Construir un arnès d'avaluació que torni a executar proves comparables amb cada canvi.
Higiene de dades : Mantenir divisions estables, evitar duplicats i bloquejar les fuites de funcions aviat.
Comprovacions de confiança : robustesa de proves d'estrès, segments de fairness i comportaments de seguretat de LLM amb rúbriques clares.
Disciplina del cicle de vida : Implementar per etapes, monitoritzar la deriva i els incidents i documentar les llacunes conegudes.
Articles que potser t'agradaria llegir després d'aquest:
🔗 Què és l'ètica de la IA?
Explora els principis que guien el disseny, l'ús i la governança responsables de la IA.
🔗 Què és el biaix de la IA?
Aprèn com les dades esbiaixades distorsionen les decisions i els resultats de la IA.
🔗 Què és l'escalabilitat de la IA?
Comprendre l'escalat de sistemes d'IA pel que fa al rendiment, el cost i la fiabilitat.
🔗 Què és la IA?
Una visió general clara de la intel·ligència artificial, els seus tipus i els seus usos al món real.
1) Comença amb la definició poc glamurosa de "bo"
Abans de les mètriques, abans dels quadres de comandament, abans de qualsevol flexió de punts de referència, decidiu com serà l'èxit.
Aclarir:
-
L'usuari: analista intern, client, metge, conductor, un agent de suport cansat a les 16:00...
-
La decisió: aprovar el préstec, marcar frau, suggerir contingut, resumir notes
-
Els fracassos que més importen:
-
Falsos positius (molestos) vs. falsos negatius (perillosos)
-
-
Les restriccions: latència, cost per sol·licitud, normes de privadesa, requisits d'explicabilitat, accessibilitat
Aquesta és la part en què els equips deriven cap a l'optimització per a "mètriques boniques" en lloc de "resultats significatius". Passa sovint. Com... moltes vegades.
Una manera sòlida de mantenir això conscient del risc (i no basat en vibracions) és emmarcar les proves al voltant de la fiabilitat i la gestió de riscos del cicle de vida, tal com ho fa el NIST al Marc de Gestió de Riscos d'IA (AI RMF 1.0) [1].

2) Què fa que una bona versió de "com provar models d'IA" ✅
Un enfocament de proves sòlid té alguns elements innegociables:
-
Dades representatives (no només dades de laboratori netes)
-
Divisió clara amb prevenció de fuites (més sobre això en un segon)
-
Línies de referència (models simples que hauries de superar: els estimadors fictius existeixen per una raó [4])
-
Múltiples mètriques (perquè un número et menteix, educadament, a la cara)
-
Proves d'estrès (casos límit, entrades inusuals, escenaris contradictoris)
-
Bucles de revisió humana (especialment per a models generatius)
-
Monitorització després del llançament (perquè el món canvia, les pipelines es trenquen i els usuaris són... creatius [1])
A més: un bon enfocament inclou documentar què has provat, què no has fet i què et preocupa. Aquesta secció de "què em preocupa" resulta incòmoda, i també és on comença a créixer la confiança.
Dos patrons de documentació que ajuden constantment els equips a mantenir-se sincers:
-
Targetes de model (per a què serveix el model, com s'ha avaluat, on falla) [2]
-
Fulls de dades per a conjunts de dades (què són les dades, com es van recollir, per a què s'han d'utilitzar/no) [3]
3) La realitat de l'eina: què fa servir la gent a la pràctica 🧰
Les eines són opcionals. Els bons hàbits d'avaluació no ho són.
Si voleu una configuració pragmàtica, la majoria dels equips acaben amb tres grups:
-
Seguiment d'experiments (execucions, configuracions, artefactes)
-
Arnès d'avaluació (proves repetibles fora de línia + suites de regressió)
-
Monitorització (senyals de deriva, proxies de rendiment, alertes d'incidents)
Exemples que veureu molt en el mercat (no són avals, i sí, les característiques/els preus canvien): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.
Si només tries una idea d'aquesta secció: construeix un arnès d'avaluació repetible . Vols "prémer el botó → obtenir resultats comparables", no "tornar a executar el quadern i resar".
4) Construeix el conjunt de proves correcte (i deixa de filtrar dades) 🚧
Un nombre sorprenent de models "increïbles" fan trampa accidentalment.
Per a l'aprenentatge automàtic estàndard
Unes quantes regles poc atractives que salven carreres:
-
Mantenir d'entrenament/validació/prova (i escriure la lògica de divisió)
-
Evitar duplicats entre divisions (mateix usuari, mateix document, mateix producte, quasi duplicats)
-
Vigileu les fuites de funcions (informació futura que s'infiltra a les funcions "actuals")
-
Feu servir línies de base (estimadors fictius) per no celebrar la derrota... res [4]
Definició de fuita (la versió ràpida): qualsevol cosa en l'entrenament/avaluació que doni al model accés a informació que no tindria en el moment de la decisió. Pot ser òbvia ("etiqueta futura") o subtil ("contenidor de marca de temps posterior a l'esdeveniment").
Per a LLM i models generatius
Esteu construint un sistema de resposta ràpida i política , no només "un model".
-
Crea un conjunt precís de propostes (petites, d'alta qualitat i estables)
-
Afegeix mostres reals recents (anonimitzades + segures per a la privadesa)
-
Mantingueu un paquet de casos límit : errors tipogràfics, argot, formatació no estàndard, entrades buides, sorpreses multilingües 🌍
Una cosa pràctica que he vist passar més d'una vegada: un equip envia amb una puntuació fora de línia "forta", i després l'atenció al client diu: "Genial. Està fallant amb confiança l'única frase que importa". La solució no va ser un "model més gran". Van ser millors indicacions de prova , rúbriques més clares i un conjunt de regressió que castigués exactament aquest mode de fallada. Simple. Efectiu.
5) Avaluació fora de línia: mètriques que signifiquen alguna cosa 📏
Les mètriques estan bé. El monocultiu mètric no.
Classificació (correu brossa, frau, intenció, triatge)
Utilitza més que precisió.
-
Precisió, recuperació, F1
-
Ajust del llindar (el llindar per defecte rarament és "correcte" per als vostres costos) [4]
-
Matrius de confusió per segment (regió, tipus de dispositiu, cohort d'usuaris)
Regressió (previsió, fixació de preus, puntuació)
-
MAE / RMSE (trieu-ho en funció de com voleu castigar els errors)
-
Comprovacions de calibratge quan els resultats s'utilitzen com a "puntuacions" (les puntuacions coincideixen amb la realitat?)
Sistemes de classificació / recomanació
-
NDCG, MAP, MRR
-
Segmentar per tipus de consulta (capçalera vs cua)
Visió per computador
-
mAP, IoU
-
Rendiment per classe (les classes rares són on els models et posen en vergonya)
Models generatius (LLM)
Aquí és on la gent es torna... filosòfica 😵💫
Opcions pràctiques que funcionen en equips reals:
-
Avaluació humana (millor senyal, bucle més lent)
-
Preferència per parelles / taxa de victòria (A vs B és més fàcil que la puntuació absoluta)
-
Mètriques de text automatitzades (útils per a algunes tasques, enganyoses per a altres)
-
Comprovacions basades en tasques: "Ha extret els camps correctes?" "Ha seguit la política?" "Ha citat les fonts quan cal?"
Si voleu un punt de referència estructurat "multimètric i amb molts escenaris", HELM és una bona àncora: impulsa explícitament l'avaluació més enllà de la precisió cap a aspectes com la calibració, la robustesa, el biaix/toxicitat i els compromisos d'eficiència [5].
Petita digressió: les mètriques automatitzades per a la qualitat de l'escriptura de vegades semblen com jutjar un entrepà pesant-lo. No és res, però... vinga, va 🥪
6) Prova de robustesa: fes-ho suar una mica 🥵🧪
Si el vostre model només funciona amb entrades ordenades, bàsicament és un gerro de vidre. Bonic, fràgil, car.
Prova:
-
Soroll: errors tipogràfics, valors que falten, Unicode no estàndard, errors de formatació
-
Canvi de distribució: noves categories de productes, nou argot, nous sensors
-
Valors extrems: nombres fora de rang, càrregues útils gegants, cadenes buides
-
Entrades "d'oposició" que no semblen el vostre conjunt d'entrenament però que sí que semblen usuaris
Per a LLM, incloeu:
-
Intents d'injecció ràpids (instruccions amagades dins del contingut de l'usuari)
-
Patrons de "Ignorar instruccions anteriors"
-
Casos límit d'ús d'eines (URL incorrectes, temps d'espera, sortides parcials)
La robustesa és una d'aquelles propietats de fiabilitat que sona abstracta fins que no hi ha incidents. Aleshores esdevé... molt tangible [1].
7) Biaix, justícia i per a qui funciona ⚖️
Un model pot ser "precís" en general mentre que és constantment pitjor per a grups específics. Això no és un error petit. És un problema de producte i de confiança.
Passos pràctics:
-
Avaluar el rendiment per segments significatius (legalment/èticament apropiats per mesurar)
-
Comparar les taxes d'error i el calibratge entre grups
-
Prova de funcions de proxy (codi postal, tipus de dispositiu, idioma) que puguin codificar trets sensibles
Si no ho documenteu en algun lloc, bàsicament esteu demanant al vostre futur que depureu una crisi de confiança sense un mapa. Les Targetes Model són un bon lloc per posar-ho [2], i el marc de confiança del NIST us proporciona una llista de comprovació sòlida del que hauria d'incloure "bo" [1].
8) Proves de seguretat (especialment per a LLM) 🛡️
Si el vostre model pot generar contingut, esteu provant més que la precisió. Esteu provant el comportament.
Inclou proves per a:
-
Generació de contingut no permesa (infraccions de polítiques)
-
Fuga de privadesa (reflecteix secrets?)
-
Al·lucinacions en dominis d'alt risc
-
Rebuig excessiu (el model rebutja les sol·licituds normals)
-
Resultats de toxicitat i assetjament
-
Intents d'exfiltració de dades mitjançant una injecció ràpida
Un enfocament fonamentat és: definir regles de política → crear indicacions de prova → puntuar els resultats amb comprovacions humanes + automatitzades → executar-ho cada cop que alguna cosa canvia. Aquesta part "sempre" és el lloguer.
Això encaixa perfectament en una mentalitat de risc del cicle de vida: governar, mapejar el context, mesurar, gestionar, repetir [1].
9) Proves en línia: desplegaments per etapes (on viu la veritat) 🚀
Les proves fora de línia són necessàries. L'exposició en línia és on la realitat es manifesta amb sabates plenes de fang.
No cal que siguis sofisticat. Només cal que siguis disciplinat:
-
Executar en mode ombra (el model s'executa, no afecta els usuaris)
-
Desplegament gradual (primer trànsit reduït, expandir si el trànsit és bo)
-
Fer un seguiment dels resultats i les incidències (queixes, escalacions, errors de política)
Fins i tot si no podeu obtenir etiquetes immediates, podeu supervisar els senyals de proxy i l'estat operatiu (latència, taxes d'error, cost). El punt principal: voleu una manera controlada de descobrir errors abans que ho faci tota la vostra base d'usuaris [1].
10) Monitorització després del desplegament: deriva, decaïment i fallada silenciosa 📉👀
El model que has provat no és el model amb què acabes vivint. Les dades canvien. Els usuaris canvien. El món canvia. El pipeline es trenca a les 2 de la matinada. Ja saps com és..
Monitor:
-
Deriva de les dades d'entrada (canvis d'esquema, mancances, canvis de distribució)
-
Deriva de sortida (canvis en l'equilibri de classes, canvis en la puntuació)
-
Els indicadors de rendiment (perquè els retards de les etiquetes són reals)
-
Senyals de retroalimentació (polzes avall, reedicions, escalades)
-
Regressions a nivell de segment (els assassins silenciosos)
I estableix llindars d'alerta que no siguin massa bruscos. Un monitor que crida constantment s'ignora, com una alarma de cotxe a la ciutat.
Aquest bucle de "monitorització + millora amb el temps" no és opcional si us importa la fiabilitat [1].
11) Un flux de treball pràctic que pots copiar 🧩
Aquí teniu un bucle senzill que s'escala:
-
Definir els modes d'èxit + fracàs (incloent-hi cost/latència/seguretat) [1]
-
Crea conjunts de dades:
-
conjunt daurat
-
paquet de caixa perimetral
-
mostres reals recents (segures per a la privadesa)
-
-
Trieu mètriques:
-
mètriques de tasca (F1, MAE, taxa de victòria) [4][5]
-
mètriques de seguretat (taxa d'aprovació de polítiques) [1][5]
-
mètriques operatives (latència, cost)
-
-
Construir un arnès d'avaluació (s'executa en cada canvi de model/indicador) [4][5]
-
Afegir proves d'estrès + proves d'adversari [1][5]
-
Revisió humana d'una mostra (especialment per a resultats de LLM) [5]
-
Enviament via shadow + llançament progressiu [1]
-
Monitoritzar + alertar + reentrenar amb disciplina [1]
-
Els resultats del document són un escrit d'estil de targeta model [2][3]
La formació és glamurosa. Els exàmens són cars.
12) Notes finals + resum ràpid 🧠✨
Si només recordeu algunes coses sobre com provar models d'IA :
-
Utilitzeu dades de prova representatives i eviteu fuites [4]
-
Trieu diverses mètriques vinculades a resultats reals [4][5]
-
Per als LLM, recolzeu-vos en la revisió humana + comparacions d'estil de taxa de victòria [5]
-
Robustesa de la prova: les entrades inusuals són entrades normals disfressades [1]
-
Implementar amb seguretat i supervisar, perquè els models es desvien i les canonades es trenquen [1]
-
Documenta el que vas fer i el que no vas provar (incòmode però potent) [2][3]
Fer proves no és només "demostrar que funciona". És "descobrir com falla abans que ho facin els usuaris". I sí, això és menys atractiu, però és la part que manté el sistema en peu quan les coses es tornen inestables... 🧱🙂
Preguntes freqüents
La millor manera de provar models d'IA perquè s'adaptin a les necessitats reals dels usuaris
Comença per definir "bo" en termes de l'usuari real i la decisió que admet el model, no només una mètrica de classificació. Identifica els modes de fallada de més cost (falsos positius vs. falsos negatius) i especifica restriccions estrictes com la latència, el cost, la privadesa i l'explicabilitat. A continuació, tria mètriques i casos de prova que reflecteixin aquests resultats. Això t'impedeix optimitzar una "mètrica bonica" que mai es tradueix en un producte millor.
Definició dels criteris d'èxit abans de triar les mètriques d'avaluació
Escriu qui és l'usuari, quina decisió ha de donar suport el model i com es veu un "pitjor cas de fallada" en producció. Afegeix restriccions operatives com ara una latència acceptable i un cost per sol·licitud, a més de necessitats de governança com ara normes de privadesa i polítiques de seguretat. Un cop clares aquestes coses, les mètriques es converteixen en una manera de mesurar el que és correcte. Sense aquest marc, els equips tendeixen a desviar-se cap a l'optimització del que és més fàcil de mesurar.
Prevenció de fuites de dades i trampes accidentals en l'avaluació de models
Mantingueu estables les divisions d'entrenament/validació/prova i documenteu la lògica de la divisió perquè els resultats siguin reproduïbles. Bloquegeu activament els duplicats i els quasi duplicats entre divisions (mateix usuari, document, producte o patrons repetits). Vigileu les fuites de funcions on la informació "futura" s'escola a les entrades a través de marques de temps o camps posteriors a l'esdeveniment. Una línia de base sòlida (fins i tot estimadors fictius) us ajuda a adonar-vos de quan esteu celebrant el soroll.
Què hauria d'incloure un sistema d'avaluació perquè les proves siguin repetibles a través dels canvis
Un arnès pràctic torna a executar proves comparables en cada model, indicació o canvi de política utilitzant els mateixos conjunts de dades i regles de puntuació. Normalment inclou un conjunt de regressió, quadres de comandament de mètriques clars i configuracions i artefactes emmagatzemats per a la traçabilitat. Per als sistemes LLM, també necessita un "conjunt daurat" estable d'indicacions més un paquet de casos límit. L'objectiu és "prémer el botó → resultats comparables", no "tornar a executar el quadern i resar"
Mètriques per provar models d'IA més enllà de la precisió
Feu servir diverses mètriques, perquè un sol número pot ocultar compromisos importants. Per a la classificació, combineu precisió/recuperació/F1 amb ajust de llindar i matrius de confusió per segment. Per a la regressió, trieu MAE o RMSE segons com vulgueu penalitzar els errors i afegiu comprovacions d'estil de calibratge quan les sortides funcionin com a puntuacions. Per a la classificació, utilitzeu NDCG/MAP/MRR i consultes de segmentació per capçalera vs. cua per detectar el rendiment desigual.
Avaluació dels resultats de l'LLM quan les mètriques automatitzades són insuficients
Tracteu-ho com un sistema de preguntes i polítiques i puntueu el comportament, no només la similitud del text. Molts equips combinen l'avaluació humana amb la preferència per parells (taxa de victòria A/B), a més de comprovacions basades en tasques com ara "va extreure els camps correctes?" o "va seguir la política". Les mètriques de text automatitzades poden ajudar en casos concrets, però sovint passen per alt allò que importa als usuaris. Les rúbriques clares i un conjunt de regressió solen importar més que una sola puntuació.
Proves de robustesa per executar perquè el model no es trenqui amb entrades sorolloses
Feu proves d'estrès al model amb errors tipogràfics, valors que falten, format estrany i Unicode no estàndard, perquè els usuaris reals poques vegades són ordenats. Afegiu casos de canvi de distribució com ara categories noves, argot, sensors o patrons d'idioma. Incloeu valors extrems (cadenes buides, càrregues útils enormes, nombres fora de rang) per detectar un comportament fràgil. Per a LLM, proveu també patrons d'injecció de prompts i errors d'ús d'eines com ara temps d'espera o sortides parcials.
Comprovació de problemes de biaix i imparcialitat sense perdre's en la teoria
Avalueu el rendiment en segments significatius i compareu les taxes d'error i el calibratge entre grups on sigui legalment i èticament apropiat mesurar-ho. Busqueu característiques indirectes (com ara el codi postal, el tipus de dispositiu o l'idioma) que puguin codificar trets sensibles indirectament. Un model pot semblar "precís en general" mentre falla constantment per a cohorts específiques. Documenteu què heu mesurat i què no, de manera que els canvis futurs no reintrodueixin regressions discretament.
Proves de seguretat per a sistemes d'IA generativa i LLM
Proveu la generació de contingut no permesa, les fuites de privadesa, les al·lucinacions en dominis d'alt risc i el rebuig excessiu on el model bloqueja les sol·licituds normals. Incloeu els intents d'injecció de sol·licituds i d'exfiltració de dades, especialment quan el sistema utilitza eines o recupera contingut. Un flux de treball basat en la terra és: definir les regles de política, crear un conjunt de sol·licituds de prova, puntuar amb comprovacions humanes i automatitzades i tornar-lo a executar sempre que les sol·licituds, les dades o les polítiques canviïn. La coherència és el lloguer que pagueu.
Implementació i monitorització de models d'IA després del llançament per detectar desviacions i incidents
Utilitzeu patrons de desplegament per etapes com el mode ombra i les rampes de trànsit graduals per trobar errors abans que ho faci tota la base d'usuaris. Superviseu la desviació d'entrada (canvis d'esquema, mancances, canvis de distribució) i la desviació de sortida (canvis de puntuació, canvis de balanç de classes), a més de l'estat operatiu com la latència i el cost. Feu un seguiment dels senyals de retroalimentació com ara edicions, escalades i queixes, i observeu les regressions a nivell de segment. Quan alguna cosa canviï, torneu a executar el mateix arnès i continueu monitoritzant contínuament.
Referències
[1] NIST - Marc de gestió de riscos d'intel·ligència artificial (AI RMF 1.0) (PDF)
[2] Mitchell et al. - “Targetes de model per a la generació d'informes de models” (arXiv:1810.03993)
[3] Gebru et al. - “Fitxes tècniques per a conjunts de dades” (arXiv:1803.09010)
[4] scikit-learn - Documentació de “Selecció i avaluació de models”
[5] Liang et al. - “Avaluació holística de models de llenguatge” (arXiv:2211.09110)