Com avaluar models d'IA

Com avaluar models d'IA

Resposta curta: definiu què significa "bo" per al vostre cas d'ús i, a continuació, proveu-ho amb indicacions representatives i versionades i casos límit. Combineu mètriques automatitzades amb puntuació de rúbriques humanes, juntament amb comprovacions de seguretat adversa i injecció d'indicacions. Si les restriccions de cost o latència esdevenen vinculants, compareu els models per èxit de tasca per lliura gastada i temps de resposta p95/p99.

Conclusions clau:

Responsabilitat : Assignar propietaris clars, mantenir registres de versions i tornar a executar avaluacions després de qualsevol canvi de model o indicació.

Transparència : Anoteu els criteris d'èxit, les restriccions i els costos de fracàs abans de començar a recollir puntuacions.

Auditabilitat : Mantenir conjunts de proves repetibles, conjunts de dades etiquetats i mètriques de latència p95/p99 rastrejades.

Contestabilitat : utilitzeu rúbriques de revisió humana i una via d'apel·lació definida per a resultats disputats.

Resistència a l'ús indegut : injecció ràpida de l'equip vermell, temes sensibles i negativa excessiva a protegir els usuaris.

Si esteu triant un model per a un producte, un projecte de recerca o fins i tot una eina interna, no podeu simplement dir que "sona intel·ligent" i enviar-lo (vegeu la guia d'avaluacions d'OpenAI i el NIST AI RMF 1.0 ). Així és com acabeu amb un chatbot que explica amb confiança com escalfar una forquilla al microones. 😬

Infografia sobre com avaluar models d'IA

Articles que potser t'agradaria llegir després d'aquest:

🔗 El futur de la IA: tendències que configuraran la propera dècada.
Innovacions clau, impacte laboral i ètica a tenir en compte en el futur.

🔗 Explicació dels models bàsics en IA generativa per a principiants.
Apreneu què són, com estan entrenats i per què són importants.

🔗 Com afecta la IA el medi ambient i l'ús d'energia
Explora les emissions, la demanda d'electricitat i les maneres de reduir la petjada.

🔗 Com funciona la millora d'escala per IA per obtenir imatges més nítides avui dia
Vegeu com els models afegeixen detalls, eliminen el soroll i amplien les imatges de manera neta.


1) Definint "bo" (depèn, i això està bé) 🎯

Abans de fer cap avaluació, decideix què significa l'èxit. Si no, ho mesuraràs tot i no aprendràs res. És com portar una cinta mètrica per jutjar un concurs de pastissos. Segur que obtindràs números, però no et diran gaire 😅

Aclarir:

  • Objectiu de l'usuari : resum, cerca, escriptura, raonament, extracció de fets

  • Cost del fracàs : una recomanació de pel·lícula incorrecta és divertida; una instrucció mèdica incorrecta... no és divertida (enquadrament del risc: NIST AI RMF 1.0 ).

  • Entorn d'execució : al dispositiu, al núvol, darrere d'un tallafocs, en un entorn regulat

  • Restriccions principals : latència, cost per sol·licitud, privadesa, explicabilitat, suport multilingüe, control de to

Un model que és el "millor" en una feina pot ser un desastre en una altra. Això no és una contradicció, és la realitat. 🙂


2) Quin aspecte té un marc de treball robust per a l'avaluació de models d'IA 🧰

Sí, aquesta és la part que la gent se salta. Agafen un punt de referència, l'executen una vegada i ja està. Un marc d'avaluació robust té alguns trets consistents (exemples d'eines pràctiques: OpenAI Evals / Guia d'avaluacions d'OpenAI ):

  • Repetible : podeu executar-ho de nou la setmana que ve i confiar en les comparacions

  • Representatiu : reflecteix els vostres usuaris i tasques reals (no només curiositats)

  • Multicapa : combina mètriques automatitzades + revisió humana + proves contradictòries

  • Accionable : els resultats indiquen què cal corregir, no només "la puntuació ha baixat".

  • Resistent a manipulacions : evita "l'aprenentatge per a la prova" o fuites accidentals

  • Consciència del cost : l'avaluació en si mateixa no us hauria de portar a la fallida (a menys que us agradi el dolor)

Si la teva avaluació no pot sobreviure a la impressió que un company d'equip escèptic diu "D'acord, però assigna això a la producció", aleshores encara no està acabada. Aquesta és la comprovació de l'ambientació.


3) Com avaluar models d'IA començant amb segments de casos d'ús 🍰

Aquí teniu un truc que us estalvia molt de temps: dividiu el cas d'ús en porcions .

En comptes d'"avaluar el model", feu:

  • Comprensió de la intenció (s'aconsegueix el que l'usuari vol)

  • Recuperació o ús del context (utilitza correctament la informació proporcionada)

  • Raonament / tasques de diversos passos (es manté coherent entre passos)

  • Format i estructura (segueix les instruccions)

  • Seguretat i alineació de polítiques (evita contingut no segur; vegeu NIST AI RMF 1.0 )

  • To i veu de la marca (sona com vols que soni)

Això fa que "Com avaluar models d'IA" sembli menys un examen enorme i més un conjunt de qüestionaris específics. Els qüestionaris són molestos, però manejables. 😄


4) Conceptes bàsics de l'avaluació fora de línia: conjunts de proves, etiquetes i els detalls poc glamurosos que importen 📦

L'avaluació fora de línia és on es fan proves controlades abans que els usuaris toquin res (patrons de flux de treball: OpenAI Evals ).

Crea o recopila un conjunt de proves que sigui realment teu

Un bon conjunt de proves sol incloure:

  • Exemples d'or : resultats ideals que enviaríeu amb orgull

  • Casos límit : indicacions ambigües, entrades desordenades, formatació inesperada

  • Sondes de mode de fallada : indicacions que provoquen al·lucinacions o respostes insegures (marc de prova de risc: NIST AI RMF 1.0 )

  • Cobertura de la diversitat : diferents nivells d'habilitat dels usuaris, dialectes, llengües, dominis

Si només proveu amb indicacions "netes", el model quedarà increïble. Aleshores, els vostres usuaris apareixeran amb errors tipogràfics, frases a mitges i energia de clics de ràbia. Benvinguts a la realitat.

Opcions d'etiquetatge (també coneguts com a: nivells de rigor)

Podeu etiquetar les sortides com a:

  • Binari : aprovat/suspès (ràpid, dur)

  • Ordinal : puntuació de qualitat d'1 a 5 (amb matisos, subjectiva)

  • Multiatribut : precisió, integritat, to, ús de citacions, etc. (millor, més lent)

El multiatribut és el punt ideal per a molts equips. És com tastar el menjar i jutjar la salinitat per separat de la textura. Si no, simplement dius "bo" i arronses les espatlles.


5) Mètriques que no menteixen, i mètriques que en certa manera sí que ho fan 📊😅

Les mètriques són valuoses... però també poden ser una bomba de purpurina. Brillen a tot arreu i són difícils de netejar.

Famílies mètriques comunes

  • Precisió / coincidència exacta : ideal per a l'extracció, la classificació i les tasques estructurades

  • F1 / precisió / recuperació : útil quan perdre alguna cosa és pitjor que un soroll addicional (definicions: scikit-learn precisió/recuperació/puntuació F )

  • Superposició d'estils BLEU/ROUGE : correcte per a tasques de resum, sovint enganyoses (mètriques originals: BLEU i ROUGE )

  • Incrustació de similitud : útil per a la coincidència semàntica, pot recompensar respostes incorrectes però similars

  • Taxa d'èxit de les tasques : "l'usuari ha obtingut el que necessitava?", estàndard d'or quan està ben definit.

  • Compliment de restriccions : segueix el format, la longitud, la validesa JSON, l'adherència a l'esquema

El punt clau

Si la teva tasca és oberta (escriptura, raonament, xat de suport), les mètriques d'un sol número poden ser... inestables. No inútils, només inestables. Mesurar la creativitat amb un regle és possible, però et sentiràs ridícul fent-ho. (A més, probablement et trauràs l'ull.)

Així doncs: feu servir mètriques, però ancorau-les a la revisió humana i als resultats reals de les tasques (un exemple de discussió sobre avaluació basada en LLM + advertències: G-Eval ).


6) La taula comparativa: les millors opcions d'avaluació (amb peculiaritats, perquè la vida té peculiaritats) 🧾✨

Aquí teniu un menú pràctic d'enfocaments d'avaluació. Barregeu i combineu. La majoria dels equips ho fan.

Eina / Mètode Públic Preu Per què funciona
Suite de proves de prompt construïda a mà Producte + enginyeria $ Molt dirigit, detecta regressions ràpidament, però cal mantenir-lo per sempre 🙃 (eines inicials: OpenAI Evals )
Panell de puntuació de rúbrica humana Equips que poden estalviar revisors $$ Millor pel to, el matís, "un humà ho acceptaria", un lleuger caos depenent dels crítics
LLM-com a jutge (amb rúbriques) Bucles d'iteració ràpida $-$$ Ràpid i escalable, però pot heretar biaixos i de vegades qualifica vibracions, no fets (recerca + problemes de biaix coneguts: G-Eval )
Esprint adversari en equip vermell Seguretat + compliment $$ Troba modes de fallada picants, especialment la injecció ràpida: sembla una prova d'estrès al gimnàs (visió general de les amenaces: OWASP LLM01 Prompt Injection / OWASP Top 10 per a aplicacions LLM )
Generació de proves sintètiques Equips de dades lleugeres $ Gran cobertura, però les indicacions sintètiques poden ser massa ordenades, massa educades... els usuaris no són educats
Proves A/B amb usuaris reals Productes madurs $$$ El senyal més clar, i també el més estressant emocionalment quan les mètriques oscil·len (guia pràctica clàssica: Kohavi et al., "Experiments controlats a la web" )
Avaluació basada en la recuperació (comprovacions RAG) Aplicacions de cerca + control de qualitat $$ Mesura que "utilitza el context correctament", redueix la inflació de la puntuació d'al·lucinacions (visió general de l'avaluació RAG: Avaluació de RAG: una enquesta )
Monitorització + detecció de deriva Sistemes de producció $$-$$$ Captura la degradació amb el temps: sense pretensions fins al dia que et salva 😬 (visió general de la deriva: estudi de la deriva conceptual (PMC) )

Fixeu-vos que els preus són tous expressament. Depenen de l'escala, les eines i el nombre de reunions que genereu accidentalment.


7) Avaluació humana: l'arma secreta que la gent no té prou finançament 👀🧑⚖️

Si només fas avaluació automatitzada, et perdràs:

  • Discrepància de to ("per què és tan sarcàstic")

  • Errors factuals subtils que semblen fluids

  • Implicacions nocives, estereotips o frases incòmodes (enquadrament de risc + biaix: NIST AI RMF 1.0 )

  • Errors de seguiment d'instruccions que encara semblen "intel·ligents"

Feu rúbriques concretes (o els revisors les faran de manera lliure)

Mala rúbrica: «Utilitat»
Millor rúbrica:

  • Correcció : factualment precisa donada la indicació + context

  • Completesa : cobreix els punts necessaris sense divagar

  • Claredat : llegible, estructurat, mínima confusió

  • Política / seguretat : evita el contingut restringit, gestiona bé el rebuig (marc de seguretat: NIST AI RMF 1.0 )

  • Estil : s'adapta a la veu, el to i el nivell de lectura

  • Fidelitat : no inventa fonts ni afirmacions no fonamentades

A més, feu comprovacions entre avaluadors de vegades. Si dos revisors discrepen constantment, no és un "problema de persones", sinó un problema de rúbrica. Normalment (conceptes bàsics de fiabilitat entre avaluadors: McHugh sobre el kappa de Cohen ).


8) Com avaluar els models d'IA per seguretat, robustesa i "uf, usuaris" 🧯🧪

Aquesta és la part que fas abans del llançament, i després continues fent-la, perquè Internet mai dorm.

Proves de robustesa que inclouen

  • Errors tipogràfics, argot, gramàtica deficient

  • Indicacions molt llargues i indicacions molt curtes

  • Instruccions contradictòries ("sigues breu però inclou tots els detalls")

  • Converses multi-torn on els usuaris canvien d'objectius

  • Intents d'injecció ràpida ("ignorar les regles anteriors...") (detalls de l'amenaça: OWASP LLM01 Injecció ràpida )

  • Temes sensibles que requereixen un rebuig acurat (enquadrament de risc/seguretat: NIST AI RMF 1.0 )

L'avaluació de seguretat no és només "si es nega"?

Un bon model hauria de:

  • Rebutjar les sol·licituds insegures de manera clara i tranquil·la (estructura de guia: NIST AI RMF 1.0 )

  • Proporcionar alternatives més segures quan sigui necessari

  • Eviteu rebutjar excessivament consultes inofensives (falsos positius)

  • Gestionar sol·licituds ambigües amb preguntes aclaridores (quan estigui permès)

El rebuig excessiu és un problema real del producte. Als usuaris no els agrada que els tractin com a goblins sospitosos. 🧌 (Encara que siguin goblins sospitosos.)


9) Cost, latència i realitat operativa: l'avaluació que tothom oblida 💸⏱️

Un model pot ser "increïble" i, tot i així, no ser adequat per a tu si és lent, car o operacionalment fràgil.

Avaluar:

  • Distribució de latència (no només la mitjana: p95 i p99 importen) (per què importen els percentils: Google SRE Workbook sobre monitorització )

  • Cost per tasca correcta (no cost per token aïlladament)

  • Estabilitat sota càrrega (temps d'espera, límits de velocitat, pics anòmals)

  • Fiabilitat de la crida de l'eina (si utilitza funcions, es comporta)

  • Tendències de la longitud de sortida (alguns models divaguen i divagar costa diners)

Un model una mica pitjor que és el doble de ràpid pot guanyar a la pràctica. Això sembla obvi, però la gent ho ignora. Com comprar un cotxe esportiu per anar al supermercat i després queixar-se de l'espai al maleter.


10) Un flux de treball senzill i integral que pots copiar (i modificar) 🔁✅

Aquí teniu un flux pràctic sobre com avaluar models d'IA sense quedar atrapat en experiments interminables:

  1. Definir l'èxit : tasca, restriccions, costos de fracàs

  2. Crea un petit conjunt de proves "bàsiques" : 50-200 exemples que reflecteixin l'ús real

  3. Afegir conjunts d'arestes i adversaris : intents d'injecció, indicacions ambigües, sondes de seguretat (classe d'injecció d'indicacions: OWASP LLM01 )

  4. Executar comprovacions automatitzades : formatació, validesa JSON, correcció bàsica sempre que sigui possible

  5. Executar una revisió humana : resultats de mostra a través de categories, puntuar amb rúbrica

  6. Comparació de compromisos : qualitat vs cost vs latència vs seguretat

  7. Pilot en versió limitada : proves A/B o desplegament per etapes (guia de proves A/B: Kohavi et al. )

  8. Monitor en producció : deriva, regressions, bucles de retroalimentació d'usuaris (visió general de la deriva: enquesta de deriva conceptual (PMC) )

  9. Iterar : actualitzar les indicacions, recuperar, ajustar, protegir i després tornar a executar l'avaluació (patrons d'iteració d'avaluació: guia d'avaluacions d'OpenAI )

Mantingueu registres versionats. No perquè sigui divertit, sinó perquè en el futur ho agraireu mentre agafeu un cafè i murmureu "què ha canviat..." ☕🙂


11) Errors comuns (també coneguts com: maneres en què la gent s'enganya accidentalment a si mateixa) 🪤

  • Entrenament per a la prova : optimitzeu les indicacions fins que el punt de referència es veu bé, però els usuaris pateixen.

  • Dades d'avaluació amb fuites : les indicacions de prova apareixen a les dades d'entrenament o d'ajustament (ups)

  • Culte d'una sola mètrica : perseguir una puntuació que no reflecteixi el valor de l'usuari

  • Ignorant el canvi de distribució : el comportament de l'usuari canvia i el model es degrada silenciosament (enquadrament del risc de producció: enquesta de deriva conceptual (PMC) )

  • Sobreindexació de "intel·ligència" : el raonament intel·ligent no importa si trenca el format o inventa fets

  • No s'ha comprovat la qualitat del rebuig : el "No" pot ser correcte, però la UX continua sent terrible.

A més, compte amb les demos. Les demos són com tràilers de pel·lícules. Mostren els moments més destacats, amaguen les parts lentes i, de vegades, menteixen amb música dramàtica. 🎬


12) Resum final sobre com avaluar models d'IA 🧠✨

Avaluar models d'IA no és una puntuació única, és un àpat equilibrat. Necessiteu proteïnes (correcció), verdures (seguretat), carbohidrats (velocitat i cost) i sí, de vegades postres (to i delícia) 🍲🍰 (enquadrament de risc: NIST AI RMF 1.0 )

Si no recordes res més:

  • Defineix què significa "bo" per al teu cas d'ús

  • Utilitzeu conjunts de proves representatius, no només punts de referència famosos

  • Combina mètriques automatitzades amb revisió de rúbriques humanes

  • Prova la robustesa i la seguretat com si els usuaris fossin adversaris (perquè de vegades... ho són) (classe d'injecció ràpida: OWASP LLM01 )

  • Incloeu el cost i la latència a l'avaluació, no com una idea a posteriori (per què importen els percentils: Google SRE Workbook )

  • Monitor després del llançament: els models canvien de direcció, les aplicacions evolucionen, els humans es tornen creatius (visió general de la deriva: enquesta de deriva conceptual (PMC) )

Així és com s'avaluen els models d'IA d'una manera que aguanti quan el vostre producte està en funcionament i la gent comença a fer coses imprevisibles. Cosa que sempre passa. 🙂

Preguntes freqüents

Quin és el primer pas per avaluar models d'IA per a un producte real?

Comença per definir què significa "bo" per al teu cas d'ús específic. Explica l'objectiu de l'usuari, quin cost et reporten els errors (risc baix o alt) i on s'executarà el model (núvol, al dispositiu, entorn regulat). A continuació, enumera les restriccions estrictes com la latència, el cost, la privadesa i el control del to. Sense aquesta base, mesuraràs molt i tot i així prendràs una mala decisió.

Com puc crear un conjunt de proves que reflecteixi realment els meus usuaris?

Crea un conjunt de proves que sigui genuïnament teu, no només un punt de referència públic. Inclou exemples d'excel·lència que enviaríeu amb orgull, a més de sol·licituds sorolloses i naturals amb errors tipogràfics, frases a mitges i sol·licituds ambigües. Afegeix casos límit i proves de mode d'error que temptin al·lucinacions o respostes insegures. Cobreix la diversitat en nivells d'habilitat, dialectes, idiomes i dominis perquè els resultats no es col·lapsin en producció.

Quines mètriques he de fer servir i quines poden ser enganyoses?

Feu coincidir les mètriques amb el tipus de tasca. La coincidència exacta i la precisió funcionen bé per a l'extracció i els resultats estructurats, mentre que la precisió/recuperació i la tecla F1 ajuden quan falta alguna cosa que és pitjor que el soroll addicional. Les mètriques superposades com BLEU/ROUGE poden induir a error per a tasques obertes, i la similitud incrustada pot recompensar les respostes "incorrectes però similars". Per a l'escriptura, el suport o el raonament, combineu les mètriques amb la revisió humana i les taxes d'èxit de les tasques.

Com he d'estructurar les avaluacions perquè siguin repetibles i de qualitat de producció?

Un marc d'avaluació robust és repetible, representatiu, multicapa i accionable. Combineu comprovacions automatitzades (format, validesa JSON, correcció bàsica) amb puntuació de rúbriques humanes i proves contradictòries. Feu-lo resistent a les manipulacions evitant fuites i "ensenyant per a la prova". Mantingueu l'avaluació conscient del cost per poder tornar-la a executar amb freqüència, no només una vegada abans del llançament.

Quina és la millor manera de fer una avaluació humana sense que es converteixi en caos?

Feu servir una rúbrica concreta perquè els revisors no facin servir estils lliures. Puntueu atributs com la correcció, la integritat, la claredat, la gestió de seguretat/polítiques, la coincidència d'estil/veu i la fidelitat (sense inventar afirmacions o fonts). Comproveu periòdicament l'acord entre avaluadors; si els revisors discrepen constantment, és probable que la rúbrica necessiti un refinament. La revisió humana és especialment valuosa per a la discrepància de to, els errors factuals subtils i els errors en el seguiment d'instruccions.

Com puc avaluar la seguretat, la robustesa i els riscos d'injecció ràpida?

Prova amb entrades de tipus "ugh, usuaris": errors tipogràfics, argot, instruccions contradictòries, indicacions molt llargues o molt curtes i canvis d'objectius de diversos torns. Inclou intents d'injecció de senyals com ara "ignora les regles anteriors" i temes delicats que requereixen rebutjos acurats. Un bon rendiment de seguretat no només és rebutjar, sinó rebutjar clarament, oferir alternatives més segures quan sigui apropiat i evitar rebutjar excessivament consultes inofensives que perjudiquin l'experiència d'usuari.

Com puc avaluar el cost i la latència de manera que s'ajustin a la realitat?

No només mesureu les mitjanes: feu un seguiment de la distribució de latència, especialment p95 i p99. Avalueu el cost per tasca correcta, no el cost per token de manera aïllada, perquè els reintents i les sortides divagants poden esborrar els estalvis. Proveu l'estabilitat sota càrrega (temps d'espera, límits de velocitat, pics) i la fiabilitat de les crides d'eines/funcions. Un model una mica pitjor que sigui el doble de ràpid o més estable pot ser la millor opció de producte.

Quin és un flux de treball senzill de principi a fi per avaluar models d'IA?

Defineix els criteris d'èxit i les restriccions, i després crea un petit conjunt de proves principals (aproximadament 50-200 exemples) que reflecteixi l'ús real. Afegeix conjunts de proves de perímetre i contradictòries per a la seguretat i els intents d'injecció. Executa comprovacions automatitzades i, a continuació, mostra els resultats per a la puntuació de la rúbrica humana. Compara qualitat vs cost vs latència vs seguretat, prova pilot amb un desplegament limitat o una prova A/B i supervisa en producció les derivacions i les regressions.

Quines són les maneres més comunes en què els equips s'enganyen accidentalment a si mateixos en l'avaluació de models?

Les trampes habituals inclouen l'optimització de les sol·licituds per aconseguir un punt de referència mentre els usuaris pateixen, la filtració de sol·licituds d'avaluació a les dades d'entrenament o d'afinament i l'adoració d'una única mètrica que no reflecteix el valor de l'usuari. Els equips també ignoren el canvi de distribució, sobreindexen la "intel·ligència" en lloc del compliment i la fidelitat del format, i ometen les proves de qualitat de rebuig. Les demostracions poden ocultar aquests problemes, així que confieu en avaluacions estructurades, no en vídeos destacats.

Referències

  1. OpenAI - Guia d'avaluacions d'OpenAI - platform.openai.com

  2. Institut Nacional d'Estàndards i Tecnologia (NIST) - Marc de gestió de riscos d'IA (AI RMF 1.0) - nist.gov

  3. OpenAI - openai/evals (repositori de GitHub) - github.com

  4. scikit-learn - precision_recall_fscore_support - scikit-learn.org

  5. Associació per a la Lingüística Computacional (Antologia ACL) - BLEU - aclanthology.org

  6. Associació per a la Lingüística Computacional (Antologia ACL) - ROUGE - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: Injecció ràpida - owasp.org

  9. OWASP - Els 10 millors d'OWASP per a aplicacions de models de llenguatge gran - owasp.org

  10. Universitat de Stanford - Kohavi et al., “Experiments controlats a la web” - stanford.edu

  11. arXiv - Avaluació de RAG: una enquesta - arxiv.org

  12. PubMed Central (PMC) - Enquesta de deriva conceptual (PMC) - nih.gov

  13. PubMed Central (PMC) - McHugh sobre la kappa de Cohen - nih.gov

  14. Google - Llibre de treball SRE sobre monitorització - google.workbook

Troba la darrera versió d'IA a la botiga oficial d'assistents d'IA

Sobre nosaltres

Torna al bloc