Tota la IA sota un mateix sostre™

Com funcionen els detectors d'IA?

Com funcionen els detectors d'IA?

Resposta curta: els detectors d'IA no "proven" qui va escriure alguna cosa; estimen fins a quin punt un passatge coincideix amb patrons de model lingüístic familiars. La majoria es basen en una combinació de classificadors, senyals de predictibilitat (perplexitat/esclat), estilometria i, en casos més excepcionals, comprovacions de marca d'aigua. Quan la mostra és curta, molt formal, tècnica o escrita per un autor d'anglès com a segona llengua, tracteu la puntuació com una indicació per revisar, no com un veredicte.

Conclusions clau:

Probabilitat, no prova : tracteu els percentatges com a senyals de risc de "semblança amb la IA", no com a certesa.

Falsos positius : l'escriptura formal, tècnica, basada en plantilles o no nativa sovint es marca erròniament.

Barreja de mètodes : les eines combinen classificadors, perplexitat/esclats, estilometria i comprovacions de marques d'aigua poc comunes.

Transparència : Preferiu detectors que analitzin extensions, característiques i incertesa, no només un sol número.

Impugnabilitat : Mantingueu a mà esborranys/notes i proves del procés per a disputes i apel·lacions.

Com funcionen els detectors d'IA? Infografia

Articles que potser t'agradaria llegir després d'aquest:

🔗 Quin és el millor detector d'IA?
Comparació de les millors eines de detecció d'IA per precisió, característiques i casos d'ús.

🔗 Són fiables els detectors d'IA?
Explica la fiabilitat, els falsos positius i per què els resultats sovint varien.

🔗 Pot Turnitin detectar la IA?
Guia completa sobre la detecció, els límits i les millors pràctiques de la IA de Turnitin.

🔗 El detector d'IA QuillBot és precís?
Revisió detallada de la precisió, els punts forts, els punts febles i les proves del món real.

1) La idea ràpida: què fa realment un detector d'IA ⚙️

La majoria de detectors d'IA no "capturen la IA" com una xarxa que atrapa un peix. Estan fent alguna cosa més prosaica:

Estimen la probabilitat que un fragment de text sembli que prové d'un model lingüístic (o que hagi estat molt assistit per un). ( Una enquesta sobre la detecció de text generat per LLM ; OpenAI )
Comparen el teu text amb patrons observats a les dades d'entrenament (escriptura humana vs. escriptura generada per models). ( Una enquesta sobre la detecció de text generat per LLM )
Donen una puntuació (sovint un percentatge) que sembla definitiva... però normalment no ho és. ( Guies de Turnitin )

Siguem sincers: la interfície d'usuari dirà alguna cosa com ara "92% IA" i el teu cervell dirà "bé, suposo que això és un fet". No és un fet. És una conjectura d'un model sobre les empremtes dactilars d'un altre model. La qual cosa és lleugerament hilarant, com si els gossos ensumessin gossos 🐕🐕

2) Com funcionen els detectors d'IA: els "motors de detecció" més comuns 🔍

Els detectors solen utilitzar un (o una combinació) d'aquests mètodes: ( Una enquesta sobre la detecció de text generat per LLM )

A) Models classificadors (els més comuns)

Un classificador s'entrena amb exemples etiquetats:

mostres escrites per humans
mostres generades per IA
De vegades mostres "híbrides" (text editat per IA humana)

Aleshores aprèn patrons que separen els grups. Aquest és l'enfocament clàssic de l'aprenentatge automàtic i pot ser sorprenentment decent... fins que deixa de ser-ho. ( Una enquesta sobre la detecció de text generat per LLM )

B) Puntuació de perplexitat i "esclat" 📈

Alguns detectors calculen com de "previsible" és el text.

Perplexitat : aproximadament, com de sorprès està un model lingüístic per la següent paraula. ( Universitat de Boston - Publicacions sobre perplexitat )
Una perplexitat menor pot suggerir que el text és altament predictible (cosa que pot passar amb les sortides d'IA). ( DetectGPT )
«Brustiness» intenta mesurar quanta variació hi ha en la complexitat i el ritme de les frases. ( GPTZero )

Aquest mètode és senzill i ràpid. També és fàcil de confondre, perquè els humans també poden escriure de manera predictible (hola, correus electrònics corporatius). ( OpenAI )

C) Estilometria (empremta digital per escriptura) ✍️

L'estilometria estudia patrons com:

longitud mitjana de les frases
estil de puntuació
freqüència de la paraula funcional (el, i, però...)
varietat de vocabulari
puntuacions de llegibilitat

És com "l'anàlisi de l'escriptura a mà", excepte que per al text. De vegades ajuda. De vegades és com diagnosticar un refredat mirant les sabates d'algú. ( Estilometria i ciència forense: una revisió bibliogràfica ; Paraules funcionals en l'atribució d'autoria )

D) Detecció de marques d'aigua (quan existeixen) 🧩

Alguns proveïdors de models poden incrustar patrons subtils ("marques d'aigua") al text generat. Si un detector coneix l'esquema de la marca d'aigua, pot intentar verificar-lo. ( Una marca d'aigua per a models de llenguatge grans ; Text SynthID )

Però... no tots els models tenen marca d'aigua, no totes les sortides mantenen la marca d'aigua després de les edicions, i no tots els detectors tenen accés a la fórmula secreta. Per tant, no és una solució universal. ( Sobre la fiabilitat de les marques d'aigua per a models de llenguatge grans ; OpenAI )

3) Què fa que una bona versió d'un detector d'IA sigui bona ✅

Un detector "bon" (segons la meva experiència, provant-ne un munt al costat de l'altre per a fluxos de treball editorials) no és el que crida més fort. És el que es comporta de manera responsable.

Això és el que fa que un detector d'IA sigui sòlid:

Confiança calibrada : un 70% hauria de significar quelcom coherent, no indirectament. ( Una enquesta sobre la detecció de text generat per LLM )
Falsos positius baixos : no hauria de marcar l'anglès no nadiu, els escrits legals o els manuals tècnics com a "IA" només perquè siguin nets. ( Stanford HAI ; Liang et al. (arXiv) )
Límits transparents : hauria d'admetre la incertesa i mostrar rangs, no fingir que és omniscient. ( OpenAI ; Turnitin )
Consciència del domini : els detectors entrenats en blogs informals sovint tenen dificultats amb textos acadèmics i viceversa. ( Una enquesta sobre la detecció de text generat per LLM )
Gestió de text curt : les bones eines eviten puntuacions massa fiables en mostres petites (un paràgraf no és un univers). ( OpenAI ; Turnitin )
Sensibilitat de revisió : hauria de gestionar l'edició humana sense col·lapsar instantàniament en resultats absurds. ( Una enquesta sobre la detecció de text generat per LLM )

Els millors que he vist solen ser una mica humils. Els pitjors actuen com si llegeixin ments 😬

4) Taula comparativa: "tipus" comuns de detectors d'IA i on destaquen 🧾

A continuació es mostra una comparació pràctica. No són marques comercials, sinó les categories principals amb què us trobareu. ( Una enquesta sobre la detecció de text generat per LLM )

Tipus d'eina (aproximadament)	Millor públic	Sensació del preu	Per què funciona (de vegades)
Verificador de perplexitat Lite	Professors, comprovacions ràpides	Gratuït	Senyal ràpid sobre la predictibilitat, però pot ser errònia..
Classifier Scanner Pro	Editors, RRHH, compliment normatiu	Subscripció	Aprèn patrons a partir de dades etiquetades: decent en textos de longitud mitjana
Analitzador d'estilometria	Investigadors, forenses	$$$ o nínxol	Compara les empremtes dactilars per escriure: peculiar però útil en format llarg
Cercador de marques d'aigua	Plataformes, equips interns	Sovint agrupat	Fort quan existeix una marca d'aigua; si no n'hi ha, bàsicament s'està encongint d'espatlles
Suite empresarial híbrida	Grans organitzacions	Contractes per seient	Combina múltiples senyals: millor cobertura, més botons per afinar (i més maneres de configurar malament, ups)

Fixeu-vos en la columna de "preu perceptible". Sí, això no és científic. Però és sincer 😄

5) Els senyals principals que busquen els detectors: els "indicadors" 🧠

Això és el que molts detectors intenten mesurar sota el capó:

Predictabilitat (probabilitat simbòlica)

Els models de llenguatge generen text predient els possibles tokens següents. Això tendeix a crear:

transicions més suaus
menys opcions de paraules sorprenents
menys tangents estranyes (tret que se us demani)
to consistent ( Universitat de Boston - Publicacions de perplexitat ; DetectGPT )

Els humans, en canvi, sovint fem més ziga-zagues. Ens contradiem, afegim comentaris secundaris a l'atzar, fem servir metàfores lleugerament fora de lloc, com ara comparar un detector d'IA amb una torradora que jutja la poesia. Aquesta metàfora és dolenta, però ja ho entens.

Patrons de repetició i estructura

L'escriptura amb IA pot mostrar una repetició subtil:

bastides de frases repetides (“En conclusió…”, “A més…”, “A més a més…”)
longituds de paràgraf similars
ritme consistent ( una enquesta sobre la detecció de text generat per LLM )

Però també, moltes persones escriuen així, sobretot a l'escola o en entorns corporatius. Així doncs, la repetició és una pista, no una prova.

Prosa massa clarejada i "massa neta" ✨

Aquesta és peculiar. Alguns detectors tracten implícitament "escriptura molt neta" com a sospitosa. ( OpenAI )

La qual cosa és incòmoda perquè:

existeixen bons escriptors
existeixen editors
existeix un corrector ortogràfic

Així doncs, si esteu pensant en Com funcionen els detectors d'IA , part de la resposta és: de vegades recompensen la rudesa. La qual cosa és... una mica al revés.

Densitat semàntica i fraseologia genèrica

Els detectors poden marcar text que tingui el següent aspecte:

massa general
poc detalls viscuts específics
amb molta força en afirmacions equilibrades i neutrals ( Una enquesta sobre la detecció de text generat per LLM )

La IA sovint produeix contingut que sona raonable però lleugerament retocat. Com una habitació d'hotel que sembla bonica però no té cap personalitat 🛏️

6) L'enfocament del classificador: com s'entrena (i per què falla) 🧪

Un detector classificador s'entrena normalment així:

Recopilar un conjunt de dades de textos humans (assajos, articles, fòrums, etc.)
Genera text d'IA (múltiples indicacions, estils, longituds)
Etiquetar les mostres
Entrenar un model per separar-los mitjançant característiques o incrustacions
Valida-ho amb dades reservades
Envia-ho... i després la realitat ho colpeja a la cara ( Una enquesta sobre la detecció de text generat per LLM )

Per què la realitat ho colpeja:

Canvi de domini : les dades d'entrenament no coincideixen amb l'escriptura real de l'usuari
Canvi de model : els models de nova generació no es comporten com els del conjunt de dades
Efectes d'edició : les edicions humanes poden eliminar patrons evidents però mantenir els subtils
Variació lingüística : els dialectes, l'escriptura ESL i els estils formals es malinterpreten ( Una enquesta sobre la detecció de text generat per LLM ; Liang et al. (arXiv) )

He vist detectors que eren "excel·lents" en el seu propi conjunt de demostracions, i després s'han trencat en escriptura real al lloc de treball. És com entrenar un gos rastrejador només amb una marca de galetes i esperar que trobi tots els aperitius del món 🍪

7) Perplexitat i explosivitat: la drecera matemàtica 📉

Aquesta família de detectors tendeix a basar-se en la puntuació del model de llenguatge:

Passen el text per un model que estima la probabilitat que tingui cada següent token.
Calculen la "sorpresa" (perplexitat) general. ( Universitat de Boston - Publicacions sobre perplexitat )
Poden afegir mètriques de variació ("ràfegues") per veure si el ritme es percep com a humà. ( GPTZero )

Per què de vegades funciona:

El text en brut de la IA pot ser extremadament fluid i estadísticament predictible ( DetectGPT )

Per què falla:

les mostres curtes són sorolloses
l'escriptura formal és predictible
L'escriptura tècnica és predictible
l'escriptura no nativa pot ser predictible
El text d'IA molt editat pot semblar humà ( OpenAI ; Turnitin )

Així doncs, el funcionament dels detectors d'IA de vegades s'assembla a un radar de velocitat que confon bicicletes i motocicletes. Mateixa carretera, motors diferents 🚲🏍️

8) Marques d'aigua: la idea de "l'empremta digital a la tinta" 🖋️

La marca d'aigua sembla la solució perfecta: marcar el text de la IA en el moment de la generació i detectar-lo més tard. ( Una marca d'aigua per a models de llenguatge grans ; Text SynthID )

A la pràctica, les marques d'aigua poden ser fràgils:

La parafraseig els pot debilitar
la traducció els pot trencar
cites parcials poden eliminar-los
barrejar diverses fonts pot desdibuixar el patró ( Sobre la fiabilitat de les marques d'aigua per a models lingüístics grans )

A més, la detecció de marques d'aigua només funciona si:

s'utilitza una marca d'aigua
el detector sap com comprovar-ho
el text no s'ha transformat gaire ( OpenAI ; SynthID Text )

Així doncs, sí, les marques d'aigua poden ser poderoses, però no són una placa de policia universal.

9) Falsos positius i per què passen (la part dolorosa) 😬

Això mereix una secció pròpia perquè és on rau la major part de la controvèrsia.

Desencadenants comuns de falsos positius:

To molt formal (acadèmic, legal, redacció de compliment)
Anglès no natiu (les estructures de frases més senzilles poden semblar "model")
Redacció basada en plantilles (cartes de presentació, SOP, informes de laboratori)
Exemples de text curt (no hi ha prou senyal)
Restriccions temàtiques (alguns temes forcen a una fraseologia repetitiva) ( Liang et al. (arXiv) ; Turnitin )

Si alguna vegada has vist algú ser denunciat per escriure massa bé... sí. Això passa. I és brutal.

Una puntuació de detector s'ha de tractar així:

una alarma de fum, no un veredicte judicial 🔥
Et diu "potser ho comprovem", no "cas tancat". ( OpenAI ; Turnitin )

10) Com interpretar les puntuacions del detector com un adult 🧠🙂

Aquí teniu una manera pràctica de llegir els resultats:

Si l'eina dóna un únic percentatge

Tracta-ho com un senyal de risc aproximat:

0-30%: probablement humà o molt editat
30-70%zona ambigua: no assumeixis res
70-100% : patrons més probables semblants a la IA, però encara no són una prova ( Guies de Turnitin )

Fins i tot les puntuacions altes poden ser errònies, especialment per a:

escriptura estandarditzada
certs gèneres (resums, definicions)
Escriptura d'anglès com a segona llengua ( Liang et al. (arXiv) )

Busca explicacions, no només xifres

Els millors detectors proporcionen:

trams destacats
notes de característiques (previsibilitat, repetició, etc.)
intervals de confiança o llenguatge d'incertesa ( Una enquesta sobre la detecció de text generat per LLM )

Si una eina es nega a explicar res i simplement et posa un número al front... no hi confio. Tu tampoc hauries de confiar.

11) Com funcionen els detectors d'IA: un model mental senzill 🧠🧩

Si voleu una conclusió clara, feu servir aquest model mental:

Els detectors d'IA busquen patrons estadístics i estilístics comuns en el text generat per màquina. ( Una enquesta sobre la detecció de text generat per LLM )
Comparen aquests patrons amb el que han après dels exemples d'entrenament. ( Una enquesta sobre la detecció de text generat per LLM )
Donen una conjectura probabilística , no una història d'origen factual. ( OpenAI )
L'estimació és sensible al gènere, el tema, la durada, les edicions i les dades d'entrenament del detector . ( Una enquesta sobre la detecció de text generat per LLM )

En altres paraules, com funcionen els detectors d'IA és que "jutgen la semblança", no l'autoria. Com dir que algú s'assembla al seu cosí. Això no és el mateix que una prova d'ADN... i fins i tot les proves d'ADN tenen casos límit.

12) Consells pràctics per reduir les banderes accidentals (sense jugar a jocs) ✍️✅

No "com enganyar els detectors". Més aviat com escriure d'una manera que reflecteixi l'autoria real i eviti males lectures estranyes.

Afegiu detalls concrets: noms dels conceptes que heu utilitzat realment, passos que heu fet, compromisos que heu considerat
Utilitza la variació natural: barreja frases curtes i llargues (com fan els humans quan pensen)
Inclou restriccions reals: límits de temps, eines utilitzades, què ha anat malament, què faries de manera diferent
Evita una formulació massa complexa: canvia "A més" per alguna cosa que realment diries
Guarda esborranys i notes: si mai hi ha una disputa, les proves del procés importen més que la intuïció

En realitat, la millor defensa és simplement... ser genuí. Imperfectament genuí, no genuí com un "fullet perfecte".

Notes de cloenda 🧠✨

Els detectors d'IA poden ser valuosos, però no són màquines de la veritat. Són comparadors de patrons entrenats amb dades imperfectes, que treballen en un món on els estils d'escriptura se superposen constantment. ( OpenAI ; Una enquesta sobre la detecció de text generat per LLM )

En resum:

Els detectors es basen en classificadors, perplexitat/esclats, estilometria i, de vegades, marques d'aigua 🧩 ( Una enquesta sobre la detecció de text generat per LLM )
Estimen la "semblança amb la IA", no la certesa ( OpenAI )
Els falsos positius es produeixen molt en l'escriptura formal, tècnica o no nativa 😬 ( Liang et al. (arXiv) ; Turnitin )
Utilitzeu els resultats del detector com a indicació per revisar, no com a veredicte ( Turnitin )

I sí... si algú et torna a preguntar: Com funcionen els detectors d'IA ? Pots dir-li: "Endevinen basant-se en patrons: de vegades intel·ligents, de vegades ximples, sempre limitats". 🤖

Preguntes freqüents

Com funcionen a la pràctica els detectors d'IA?

La majoria de detectors d'IA no "proven" l'autoria. Estimeu com de semblant s'assembla el text als patrons que solen produir els models lingüístics i, a continuació, generen una puntuació probabilística. En segon pla, poden utilitzar models classificadors, puntuació de predictibilitat d'estil perplexitat, funcions d'estilometria o comprovacions de marques d'aigua. El resultat es tracta millor com un senyal de risc, no com un veredicte definitiu.

Quins senyals busquen els detectors d'IA en l'escriptura?

Els senyals comuns inclouen la predictibilitat (com de "sorprès" està un model per les teves properes paraules), la repetició en les bastides de frases, un ritme inusualment consistent i una fraseologia genèrica amb poc detall concret. Algunes eines també examinen marcadors d'estilometria com la longitud de la frase, els hàbits de puntuació i la freqüència de les paraules funcionals. Aquests senyals poden superposar-se amb l'escriptura humana, especialment en gèneres formals, acadèmics o tècnics.

Per què els detectors d'IA marquen l'escriptura humana com a IA?

Els falsos positius es produeixen quan l'escriptura humana sembla estadísticament "suau" o semblant a una plantilla. El to formal, la redacció d'estil de compliment, les explicacions tècniques, les mostres curtes i l'anglès no natiu es poden interpretar erròniament com a semblants a la IA perquè redueixen la variació. És per això que un paràgraf net i ben editat pot desencadenar una puntuació alta. Un detector compara la semblança, no confirma l'origen.

Són fiables els detectors de perplexitat i de "ràfegues"?

Els mètodes basats en la perplexitat poden funcionar quan el text és una sortida d'IA crua i altament predictible. Però són fràgils: els passatges curts són sorollosos i molts gèneres humans legítims són naturalment predictibles (resums, definicions, correus electrònics corporatius, manuals). L'edició i el poliment també poden canviar la puntuació dràsticament. Aquestes eines s'adapten a un triatge ràpid, no a decisions d'alt risc per si soles.

Quina diferència hi ha entre els detectors classificadors i les eines d'estilometria?

Els detectors classificadors aprenen de conjunts de dades etiquetats de text humà vs. IA (i de vegades híbrid) i prediuen a quin contenidor s'assembla més el text. Les eines d'estilometria se centren en escriure "empremtes dactilars" com ara patrons d'elecció de paraules, paraules de funció i senyals de llegibilitat, que poden ser més informatives en anàlisis de format llarg. Ambdós enfocaments pateixen de canvi de domini i poden tenir dificultats quan l'estil d'escriptura o el tema difereixen de les seves dades d'entrenament.

Les marques d'aigua solucionen la detecció d'IA per sempre?

Les marques d'aigua poden ser fortes quan un model les utilitza i el detector coneix l'esquema de la marca d'aigua. En realitat, no tots els proveïdors utilitzen marques d'aigua, i les transformacions comunes (parafraseig, traducció, citació parcial o barreja de fonts) poden debilitar o trencar el patró. La detecció de marques d'aigua és potent en els casos estrets on tota la cadena s'alinea, però no és una cobertura universal.

Com he d'interpretar una puntuació de "X% AI"?

Tracteu un únic percentatge com un indicador aproximat de "semblança amb la IA", no com una prova de l'autoria de la IA. Les puntuacions mitjanes són especialment ambigües, i fins i tot les puntuacions altes poden ser incorrectes en l'escriptura estandarditzada o formal. Les millors eines proporcionen explicacions com ara intervals destacats, notes de característiques i llenguatge d'incertesa. Si un detector no s'explica a si mateix, no tracteu el nombre com a autoritzat.

Què fa que un detector d'IA sigui un bon per a escoles o fluxos de treball editorials?

Un detector sòlid està calibrat, minimitza els falsos positius i comunica els límits clarament. Hauria d'evitar afirmacions massa confiades sobre mostres curtes, gestionar diferents dominis (acadèmic vs. blog vs. tècnic) i romandre estable quan els humans revisen el text. Les eines més responsables es comporten amb humilitat: ofereixen proves i incertesa en lloc d'actuar com a lectors de ments.

Com puc reduir les banderes accidentals de la IA sense "manipular" el sistema?

Centra't en senyals d'autoria autèntics en lloc de trucs. Afegeix detalls concrets (passos que has fet, restriccions, compromisos), varia el ritme de les frases de manera natural i evita transicions massa modelades que normalment no faries servir. Guarda esborranys, notes i historial de revisions: les proves del procés sovint importen més que una puntuació de detector en disputes. L'objectiu és la claredat amb personalitat, no una prosa perfecta per a un fullet.

Referències

Associació per a la Lingüística Computacional (ACL Anthology) - Una enquesta sobre la detecció de text generat per LLM - aclanthology.org
OpenAI - Nou classificador d'IA per indicar text escrit per IA - openai.com
Guies de Turnitin : detecció d'escriptura per IA a la vista d'informe clàssica - guides.turnitin.com
Guies de Turnitin : model de detecció d'escriptura amb IA - guides.turnitin.com
Turnitin - Comprensió dels falsos positius dins de les nostres capacitats de detecció d'escriptura amb IA - turnitin.com
arXiv - DetectGPT - arxiv.org
Universitat de Boston - Publicacions sobre perplexitat - cs.bu.edu
GPTZero - Perplexitat i explosivitat: què és? - gptzero.me
PubMed Central (NCBI) - Estilometria i ciència forense: una revisió bibliogràfica - ncbi.nlm.nih.gov
Associació per a la Lingüística Computacional (Antologia ACL) - Paraules funcionals en l'atribució d'autoria - aclanthology.org
arXiv - Una marca d'aigua per a models de llenguatge grans - arxiv.org
Google AI per a desenvolupadors : text SynthID - ai.google.dev
arXiv - Sobre la fiabilitat de les marques d'aigua per a models lingüístics grans - arxiv.org
OpenAI - Comprendre l'origen del que veiem i sentim en línia - openai.com
Stanford HAI - Detectors d'IA esbiaixats contra escriptors no nadius d'anglès - hai.stanford.edu
arXiv - Liang et al. - arxiv.org

Troba la darrera versió d'IA a la botiga oficial d'assistents d'IA

Sobre nosaltres