Què són els models fonamentals en la IA generativa?

Què són els models fonamentals en la IA generativa?

Resposta curta: els models de fonamentació són models d'IA grans i d'ús general entrenats en conjunts de dades amplis i amplis, que després s'adapten a moltes tasques (escriptura, cerca, codificació, imatges) mitjançant indicacions, ajustaments, eines o recuperació. Si necessiteu respostes fiables, combineu-les amb fonaments (com ara RAG), restriccions clares i comprovacions, en lloc de deixar que improvisin.

Conclusions clau:

Definició : Un model base àmpliament entrenat reutilitzat en moltes tasques, no una tasca per model.

Adaptació : utilitzar indicacions, ajustos, LoRA/adaptadors, RAG i eines per dirigir el comportament.

Ajust generatiu : Potencien la generació de text, imatges, àudio, codi i contingut multimodal.

Senyals de qualitat : Prioritzar la controlabilitat, menys al·lucinacions, la capacitat multimodal i la inferència eficient.

Controls de risc : planificar al·lucinacions, biaixos, fuites de privadesa i injecció ràpida mitjançant la governança i les proves.

Què són els models de base en la IA generativa? Infografia

Articles que potser t'agradaria llegir després d'aquest:

🔗 Què és una empresa d'IA?
Comprendre com les empreses d'IA creen productes, equips i models d'ingressos.

🔗 Com és el codi d'IA?
Vegeu exemples de codi d'IA, des de models de Python fins a API.

🔗 Què és un algoritme d'IA?
Aprèn què són els algoritmes d'IA i com prenen decisions.

🔗 Què és la tecnologia d'IA?
Explora les tecnologies bàsiques d'IA que impulsen l'automatització, l'analítica i les aplicacions intel·ligents.


1) Models de fonamentació: una definició sense boira 🧠

Un model de base és un model d'IA de propòsit general i gran, entrenat amb dades àmplies (normalment tones de dades) de manera que es pot adaptar a moltes tasques, no només a una ( NIST , Stanford CRFM ).

En lloc de construir un model separat per a:

  • escriure correus electrònics

  • responent preguntes

  • resum de PDF

  • generant imatges

  • classificació de tiquets d'assistència

  • traduir idiomes

  • fer suggeriments de codi

...entrenes un gran model base que "aprèn el món" de manera estadística difusa, i després adaptes a tasques específiques amb indicacions, ajustaments o eines afegides ( Bommasani et al., 2021 ).

En altres paraules: és un motor general que pots dirigir.

I sí, la paraula clau és "general". Aquest és tot el truc.


2) Què són els models de fonamentació en IA generativa? (Com encaixen específicament) 🎨📝

Aleshores, què són els models fonamentals en la IA generativa? Són els models subjacents que impulsen els sistemes que poden generar contingut nou: text, imatges, àudio, codi, vídeo i, cada cop més... barreges de tot això ( NIST , perfil d'IA generativa de NIST ).

La IA generativa no es limita a predir etiquetes com ara "correu brossa / no és correu brossa". Es tracta de produir resultats que semblin que hagin estat creats per una persona.

  • paràgrafs

  • poemes

  • descripcions de productes

  • il·lustracions

  • melodies

  • prototips d'aplicacions

  • veus sintètiques

  • i de vegades ximpleries inversemblantment segures 🙃

Els models de fonamentació són especialment bons aquí perquè:

Són la "capa base", com la massa de pa. Es pot coure en una baguette, una pizza o uns rotllets de canyella... no és una metàfora perfecta, però m'entens 😄


3) Per què ho van canviar tot (i per què la gent no para de parlar-ne) 🚀

Abans dels models bàsics, molta IA era específica per a tasques:

  • entrenar un model per a l'anàlisi de sentiments

  • formar una altra persona per a la traducció

  • entrenar-ne un altre per a la classificació d'imatges

  • entrenar-ne un altre per al reconeixement d'entitats amb nom

Això va funcionar, però era lent, car i una mica... fràgil.

Els models de la fundació ho van capgirar:

Aquesta reutilització és el multiplicador. Les empreses poden crear 20 funcions sobre una família de models, en lloc de reinventar la roda 20 vegades.

A més, l'experiència de l'usuari es va tornar més natural:

  • no "utilitzes un classificador"

  • Parles amb la model com si fos una companya de feina servicial que mai dorm ☕🤝

De vegades també és com un company de feina que ho malinterpreta tot amb confiança, però ei. Creixement.


4) La idea central: preentrenament + adaptació 🧩

Gairebé tots els models de fonamentació segueixen un patró ( Stanford CRFM , NIST ):

Preentrenament (la fase d'"absorbir Internet") 📚

El model s'entrena en conjunts de dades massius i amplis mitjançant l'aprenentatge autosupervisat ( NIST ). Per als models lingüístics, això normalment significa predir paraules que falten o el següent token ( Devlin et al., 2018 , Brown et al., 2020 ).

La qüestió no és ensenyar-li una tasca. La qüestió és ensenyar-li representacions generals :

  • gramàtica

  • fets (més o menys)

  • patrons de raonament (de vegades)

  • estils d'escriptura

  • estructura del codi

  • intenció humana comuna

Adaptació (la fase de "fer-ho pràctic") 🛠️

A continuació, l'adaptes utilitzant un o més dels següents elements:

  • indicacions (instruccions en llenguatge planer)

  • ajustament d'instruccions (entrenant-lo per seguir instruccions) ( Wei et al., 2021 )

  • ajust fi (entrenament amb les dades del vostre domini)

  • LoRA / adaptadors (mètodes d'afinació lleugers) ( Hu et al., 2021 )

  • RAG (generació augmentada per recuperació: el model consulta la documentació) ( Lewis et al., 2020 )

  • ús d'eines (crida de funcions, navegació per sistemes interns, etc.)

Per això el mateix model base pot escriure una escena romàntica... i després ajudar a depurar una consulta SQL cinc segons més tard 😭


5) Què fa que una versió adequada d'un model de fonamentació sigui bona? ✅

Aquesta és la secció que la gent se salta i que després es penedeix.

Un "bon" model de fonamentació no és només "més gran". Més gran ajuda, és clar... però no és l'única cosa. Una bona versió d'un model de fonamentació sol tenir:

Generalització forta 🧠

Té un bon rendiment en moltes tasques sense necessitat de reentrenament específic per a cada tasca ( Bommasani et al., 2021 ).

Direcció i controlabilitat 🎛️

Pot seguir de manera fiable instruccions com ara:

  • "Sigues concís"

  • "Utilitza vinyetes"

  • "escriure en un to amable"

  • "No revelis informació confidencial"

Alguns models són intel·ligents però relliscosos. Com intentar subjectar una pastilla de sabó a la dutxa. Útils, però erràtics 😅

Baixa tendència a les al·lucinacions (o si més no, incertesa sincera) 🧯

Cap model és immune a les al·lucinacions, però els bons:

  • al·lucinar menys

  • admetre la incertesa més sovint

  • mantenir-se més a prop del context proporcionat quan s'utilitza la recuperació ( Ji et al., 2023 , Lewis et al., 2020 )

Bona capacitat multimodal (quan cal) 🖼️🎧

Si esteu creant assistents que llegeixen imatges, interpreten gràfics o entenen àudio, la multimodalitat importa molt ( Radford et al., 2021 ).

Inferència eficient ⚡

La latència i el cost importen. Un model potent però lent és com un cotxe esportiu amb una roda punxada.

Comportament de seguretat i alineació 🧩

No només "rebutjar-ho tot", sinó:

Documentació + ecosistema 🌱

Això sona sec, però és real:

  • eines

  • arnesos d'avaluació

  • opcions de desplegament

  • controls empresarials

  • suport d'afinació

Sí, «ecosistema» és una paraula vaga. Jo també l'odio. Però importa.


6) Taula comparativa: opcions comunes de models de fonamentació (i per a què serveixen) 🧾

A continuació es mostra una taula comparativa pràctica i lleugerament imperfecta. No és "l'única llista veritable", sinó més aviat: el que la gent tria a la natura.

tipus d'eina / model públic car per què funciona
LLM propi (estil xat) equips que volen velocitat + poliment basat en l'ús / subscripció Gran seguiment d'instruccions, bon rendiment general, normalment millor "des del primer moment" 😌
LLM de pes obert (autoallotjable) constructors que volen el control cost d'infraestructura (i mals de cap) Personalitzable, respectuós amb la privadesa, pot executar-se localment... si t'agrada jugar a mitjanit
Generador d'imatges de difusió creatius, equips de disseny de gratuït a de pagament Excel·lent síntesi d'imatges, varietat d'estils, fluxos de treball iteratius (també: els dits poden estar fora de lloc) ✋😬 ( Ho et al., 2020 , Rombach et al., 2021 )
Model multimodal de "visió-llenguatge" aplicacions que llegeixen imatges + text basat en l'ús Permet fer preguntes sobre imatges, captures de pantalla i diagrames: sorprenentment útil ( Radford et al., 2021 )
Incorporació del model de fonamentació cerca + sistemes RAG baix cost per trucada Converteix el text en vectors per a la cerca semàntica, l'agrupació i la recomanació: energia silenciosa del MVP ( Karpukhin et al., 2020 , Douze et al., 2024 )
Model de fonamentació de veu a text centres d'atenció telefònica, creadors basat en l'ús / local Transcripció ràpida, suport multilingüe, prou bo per a àudio sorollós (normalment) 🎙️ ( Whisper )
Model de fonamentació de text a veu equips de producte, mitjans de comunicació basat en l'ús Generació de veu natural, estils de veu, narració: pot arribar a ser realment esgarrifosa ( Shen et al., 2017 )
LLM centrat en el codi desenvolupadors basat en l'ús / subscripció Millor en patrons de codi, depuració, refactorització... tot i que encara no llegeixo la ment 😅

Fixeu-vos que "model de fonamentació" no només significa "chatbot". Les incrustacions i els models de veu també poden ser similars a les fonamentacions, perquè són amplis i reutilitzables en diverses tasques ( Bommasani et al., 2021 , NIST ).


7) Una mirada més detallada: com aprenen els models de fonamentació lingüística (la versió vibratòria) 🧠🧃

Els models de fonamentació del llenguatge (sovint anomenats LLM) normalment s'entrenen en grans col·leccions de text. Aprenen predient fitxes ( Brown et al., 2020 ). Això és tot. No hi ha pols de fades secreta.

Però la màgia és que la predicció de tokens obliga el model a aprendre l'estructura ( CSET ):

  • gramàtica i sintaxi

  • relacions temàtiques

  • patrons semblants al raonament (de vegades)

  • seqüències comunes de pensament

  • com la gent explica les coses, discuteix, es disculpa, negocia, ensenya

És com aprendre a imitar milions de converses sense "entendre" la manera com ho fan els humans. La qual cosa sembla que no hauria de funcionar... i tot i així continua funcionant.

Una lleugera exageració: és bàsicament com comprimir l'escriptura humana en un cervell probabilístic gegant.
Aleshores, aquesta metàfora és una mica maleïda. Però seguim endavant 😄


8) Una mirada més detallada: models de difusió (per què les imatges funcionen de manera diferent) 🎨🌀

Els models de fonamentació d'imatges sovint utilitzen mètodes de difusió Ho et al., 2020 , Rombach et al., 2021 ).

La idea aproximada:

  1. afegir soroll a les imatges fins que siguin bàsicament estàtiques de televisió

  2. entrenar un model per revertir aquest soroll pas a pas

  3. en el moment de la generació, comença amb soroll i "elimina el soroll" en una imatge guiada per una indicació ( Ho et al., 2020 )

Per això la generació d'imatges sembla com "revelar" una foto, excepte que la foto és un drac amb sabatilles esportives en un passadís de supermercat 🛒🐉

Els models de difusió són bons perquè:

  • generen imatges d'alta qualitat

  • poden ser guiats fortament pel text

  • admeten el refinament iteratiu (variacions, repinturació, ampliació d'escala) ( Rombach et al., 2021 )

De vegades també tenen dificultats amb:

  • renderització de text dins d'imatges

  • detalls d'anatomia fina

  • identitat de personatge consistent a través de les escenes (està millorant, però tot i així)


9) Una mirada més detallada: models de fonamentació multimodals (text + imatges + àudio) 👀🎧📝

Els models de fonamentació multimodals tenen com a objectiu comprendre i generar dades a través de múltiples tipus de dades:

Per què això és important a la vida real:

  • l'atenció al client pot interpretar captures de pantalla

  • les eines d'accessibilitat poden descriure imatges

  • Les aplicacions educatives poden explicar diagrames

  • els creadors poden remesclar formats ràpidament

  • les eines empresarials poden "llegir" una captura de pantalla del tauler de control i resumir-la

Sota el capó, els sistemes multimodals sovint alineen representacions:

  • convertir una imatge en incrustacions

  • convertir text en incrustacions

  • aprèn un espai compartit on "gat" coincideix amb píxels de gat 😺 ( Radford et al., 2021 )

No sempre és elegant. De vegades està cosit com una manta. Però funciona.


10) Ajustament precís vs. suggeriments vs. RAG (com s'adapta el model base) 🧰

Si intenteu fer que un model de fonament sigui pràctic per a un domini específic (legal, mèdic, servei al client, coneixement intern), teniu algunes opcions:

Suggeriment 🗣️

El més ràpid i senzill.

  • avantatges: entrenament zero, iteració instantània

  • inconvenients: pot ser inconsistent, límits del context, fragilitat immediata

Ajustament fi 🎯

Entrena més el model amb els teus exemples.

  • avantatges: comportament més coherent, millor llenguatge de domini, pot reduir la longitud de l'indicació

  • inconvenients: cost, requisits de qualitat de les dades, risc de sobreajustament, manteniment

Afinació lleugera (LoRA / adaptadors) 🧩

Una versió més eficient de l'afinament ( Hu et al., 2021 ).

  • avantatges: més barat, modular, més fàcil d'intercanviar

  • inconvenients: encara necessita un canal de formació i avaluació

RAG (generació augmentada per recuperació) 🔎

El model obté documents rellevants de la vostra base de coneixement i respon utilitzant-los ( Lewis et al., 2020 ).

  • avantatges: coneixements actualitzats, citacions internes (si ho implementeu), menys reciclatge

  • inconvenients: la qualitat de la recuperació pot fer-ho o desfer-ho, necessita una bona segmentació i incrustacions

Parlant de veritat: molts sistemes d'èxit combinen indicacions + RAG. L'afinament és potent, però no sempre necessari. La gent s'hi precipita massa perquè sona impressionant 😅


11) Riscos, límits i la secció "si us plau, no ho desplegueu a cegues" 🧯😬

Els models de fonamentació són potents, però no són estables com el programari tradicional. Són més aviat com... un becari talentós amb un problema de confiança.

Limitacions clau per planificar:

Al·lucinacions 🌀

Els models poden inventar:

  • fonts falses

  • fets incorrectes

  • passos plausibles però erronis ( Ji et al., 2023 )

Mitigacions:

  • RAG amb context fonamentat ( Lewis et al., 2020 )

  • sortides restringides (esquemes, crides d'eines)

  • instrucció explícita de "no endevinar"

  • capes de verificació (regles, comprovacions creuades, revisió humana)

Biaixos i patrons nocius ⚠️

Com que les dades d'entrenament reflecteixen els humans, podeu obtenir:

Mitigacions:

Privacitat i filtracions de dades 🔒

Si introduïu dades confidencials en un punt final de model, heu de saber:

  • com s'emmagatzema

  • si s'utilitza per a l'entrenament

  • quina tala existeix

  • quins controls necessita la teva organització ( NIST AI RMF 1.0 )

Mitigacions:

Injecció ràpida (especialment amb RAG) 🕳️

Si el model llegeix text no fiable, aquest text pot intentar manipular-lo:

Mitigacions:

No intento espantar-te. Només... és millor saber on grinyolen les taules del terra.


12) Com triar un model de fonamentació per al vostre cas d'ús 🎛️

Si trieu un model de fonamentació (o construïu sobre un), comenceu amb aquestes indicacions:

Defineix què estàs generant 🧾

  • només text

  • imatges

  • àudio

  • multimodal mixt

Estableix el teu llistó de factualitat 📌

Si necessiteu una alta precisió (finances, salut, legal, seguretat):

Decideix el teu objectiu de latència ⚡

El xat és immediat. El resum per lots pot ser més lent.
Si necessiteu una resposta instantània, la mida del model i l'allotjament són importants.

Necessitats de privadesa i compliment del mapa 🔐

Alguns equips requereixen:

Equilibri pressupostari - i paciència operativa 😅

L'autoallotjament dóna control però afegeix complexitat.
Les API gestionades són fàcils però poden ser cares i menys personalitzables.

Un petit consell pràctic: primer feu un prototip amb alguna cosa fàcil i després enduriu-ho. Començar amb la configuració "perfecta" normalment ho alenteix tot.


13) Què són els models fonamentals en la IA generativa? (El model mental ràpid) 🧠✨

Tornem-hi. Què són els models de base en la IA generativa?

Són:

  • models grans i generals entrenats amb dades àmplies ( NIST , Stanford CRFM )

  • capaç de generar contingut (text, imatges, àudio, etc.) ( perfil d'IA generativa del NIST )

  • adaptable a moltes tasques mitjançant indicacions, ajustaments precisos i recuperació ( Bommasani et al., 2021 )

  • la capa base que impulsa la majoria dels productes d'IA generativa moderns

No són una sola arquitectura o marca. Són una categoria de models que es comporten com una plataforma.

Un model de base s'assembla menys a una calculadora i més a una cuina. Hi pots cuinar molts àpats. També pots cremar les torrades si no hi prestes atenció... però la cuina encara és força útil 🍳🔥


14) Resum i conclusió ✅🙂

Els models de fonamentació són els motors reutilitzables de la IA generativa. S'entrenen àmpliament i després s'adapten a tasques específiques mitjançant indicacions, ajustos precisos i recuperació ( NIST , Stanford CRFM ). Poden ser sorprenents, desordenats, potents i, de vegades, ridículs, tot alhora.

Resum:

Si esteu construint alguna cosa amb IA generativa, entendre els models de fonamentació no és opcional. És tot el terra sobre el qual s'assenta l'edifici... i sí, de vegades el terra trontolla una mica 😅

Preguntes freqüents

Models de fonamentació, en termes senzills

Un model de base és un model d'IA de propòsit general i gran, entrenat amb dades àmplies per tal que es pugui reutilitzar per a moltes tasques. En lloc de construir un model per tasca, es comença amb un model "base" fort i s'adapta segons calgui. Aquesta adaptació sovint es produeix mitjançant indicacions, ajustos precisos, recuperació (RAG) o eines. La idea central és l'amplitud més la capacitat de direcció.

En què els models de base es diferencien dels models tradicionals d'IA específics per a tasques

La IA tradicional sovint entrena un model separat per a cada tasca, com ara l'anàlisi o la traducció de sentiments. Els models bàsics inverteixen aquest patró: s'entrenen prèviament una vegada i després es reutilitzen en moltes funcions i productes. Això pot reduir l'esforç duplicat i accelerar el lliurament de noves capacitats. L'inconvenient és que poden ser menys predictibles que el programari clàssic, tret que s'hi afegeixin restriccions i proves.

Models fonamentals en IA generativa

En la IA generativa, els models de fonamentació són els sistemes bàsics que poden produir contingut nou com ara text, imatges, àudio, codi o sortides multimodals. No es limiten a l'etiquetatge o la classificació; generen respostes que s'assemblen al treball fet per humans. Com que aprenen patrons amplis durant el preentrenament, poden gestionar molts tipus i formats de preguntes. Són la "capa base" darrere de la majoria de les experiències generatives modernes.

Com aprenen els models de base durant el preentrenament

La majoria dels models de fonamentació lingüística aprenen predient elements clau, com ara la següent paraula o les paraules que falten en el text. Aquest simple objectiu els empeny a internalitzar estructures com la gramàtica, l'estil i els patrons d'explicació habituals. També poden absorbir una gran quantitat de coneixement del món, tot i que no sempre de manera fiable. El resultat és una representació general sòlida que més tard podeu orientar cap a un treball específic.

La diferència entre prompting, fine-tuning, LoRA i RAG

Les indicacions són la manera més ràpida de dirigir el comportament mitjançant instruccions, però poden ser fràgils. L'afinament entrena el model amb els exemples per a un comportament més coherent, però afegeix costos i manteniment. Els adaptadors/LoRA són un enfocament d'afinament més lleuger que sovint és més barat i modular. RAG recupera documents rellevants i té la resposta del model utilitzant aquest context, cosa que ajuda amb l'actualitat i la connexió amb el terreny.

Quan s'ha d'utilitzar RAG en comptes d'afinar

RAG sovint és una bona opció quan necessiteu respostes basades en els vostres documents actuals o en la vostra base de coneixement interna. Pot reduir les "endevinalles" proporcionant al model un context rellevant en el moment de la generació. L'afinament és més adequat quan necessiteu un estil, una fraseologia de domini o un comportament coherents que les indicacions no poden produir de manera fiable. Molts sistemes pràctics combinen indicacions + RAG abans de recórrer a l'afinament.

Com reduir les al·lucinacions i obtenir respostes més fiables

Un enfocament comú és fonamentar el model amb recuperació (RAG) perquè es mantingui a prop del context proporcionat. També podeu restringir les sortides amb esquemes, exigir crides a eines per a passos clau i afegir instruccions explícites de "no endevinar". Les capes de verificació també importen, com ara les comprovacions de regles, la comprovació creuada i la revisió humana per a casos d'ús de més alt risc. Tracteu el model com un ajudant probabilístic, no com una font de veritat per defecte.

Els riscos més grans amb els models de fonamentació en producció

Els riscos comuns inclouen al·lucinacions, patrons esbiaixats o nocius de les dades d'entrenament i fuites de privadesa si les dades sensibles es gestionen malament. Els sistemes també poden ser vulnerables a la injecció de senyals, especialment quan el model llegeix text no fiable de documents o contingut web. Les mitigacions solen incloure governança, red-teaming, controls d'accés, patrons de senyals més segurs i avaluació estructurada. Planifiqueu aquests riscos aviat en lloc d'aplicar pegats més tard.

Injecció ràpida i per què és important en els sistemes RAG

La injecció de prompts es produeix quan un text no fiable intenta anul·lar instruccions, com ara "ignorar les instruccions anteriors" o "revelar secrets". En RAG, els documents recuperats poden contenir aquestes instruccions malicioses, i el model pot seguir-les si no es té cura. Un enfocament comú és aïllar les instruccions del sistema, sanejar el contingut recuperat i confiar només en polítiques basades en eines en lloc de només en prompts. Les proves amb entrades contradictòries ajuden a revelar punts febles.

Com triar un model de base per al vostre cas d'ús

Comença per definir què has de generar: text, imatges, àudio, codi o sortides multimodals. A continuació, estableix el llistó de factualitat: els dominis d'alta precisió sovint necessiten fonamentació (RAG), validació i, de vegades, revisió humana. Tingues en compte la latència i el cost, perquè un model fort que sigui lent o car pot ser difícil de llançar. Finalment, assigna les necessitats de privadesa i compliment a les opcions i controls de desplegament.

Referències

  1. Institut Nacional d'Estàndards i Tecnologia (NIST) - Model de base (terme del glossari) - csrc.nist.gov

  2. Institut Nacional d'Estàndards i Tecnologia (NIST) - NIST AI 600-1: Perfil d'IA Generativa - nvlpubs.nist.gov

  3. Institut Nacional d'Estàndards i Tecnologia (NIST) - NIST AI 100-1: Marc de gestió de riscos d'IA (AI RMF 1.0) - nvlpubs.nist.gov

  4. Centre de Recerca de Models de Fundacions de Stanford (CRFM) - Informe - crfm.stanford.edu

  5. arXiv - Sobre les oportunitats i els riscos dels models de fundació (Bommasani et al., 2021) - arxiv.org

  6. arXiv - Els models lingüístics són aprenents de poques oportunitats (Brown et al., 2020) - arxiv.org

  7. arXiv - Generació augmentada de recuperació per a tasques de PNL intensives en coneixement (Lewis et al., 2020) - arxiv.org

  8. arXiv - LoRA: Adaptació de baix rang de models de llenguatge grans (Hu et al., 2021) - arxiv.org

  9. arXiv - BERT: Preentrenament de transformadors bidireccionals profunds per a la comprensió del llenguatge (Devlin et al., 2018) - arxiv.org

  10. arXiv - Els models de llenguatge afinats són aprenents amb pronòstic zero (Wei et al., 2021) - arxiv.org

  11. Biblioteca digital ACM - Estudi d'al·lucinacions en la generació de llenguatge natural (Ji et al., 2023) - dl.acm.org

  12. arXiv - Aprenentatge de models visuals transferibles a partir de la supervisió del llenguatge natural (Radford et al., 2021) - arxiv.org

  13. arXiv - Models probabilístics de difusió amb eliminació de soroll (Ho et al., 2020) - arxiv.org

  14. arXiv - Síntesi d'imatges d'alta resolució amb models de difusió latent (Rombach et al., 2021) - arxiv.org

  15. arXiv - Recuperació de passatges densos per a la resposta a preguntes de domini obert (Karpukhin et al., 2020) - arxiv.org

  16. arXiv - La biblioteca Faiss (Douze et al., 2024) - arxiv.org

  17. OpenAI - Presentació de Whisper - openai.com

  18. arXiv - Síntesi natural de TTS condicionant WaveNet sobre prediccions d'espectrogrames de Mel (Shen et al., 2017) - arxiv.org

  19. Centre de Seguretat i Tecnologia Emergent (CSET), Universitat de Georgetown - El sorprenent poder de la predicció de la següent paraula: explicació dels grans models lingüístics (part 1) - cset.georgetown.edu

  20. USENIX - Extracció de dades d'entrenament de models de llenguatge grans (Carlini et al., 2021) - usenix.org

  21. OWASP - LLM01: Injecció ràpida - genai.owasp.org

  22. arXiv - Més del que has demanat: una anàlisi exhaustiva de les noves amenaces d'injecció ràpida als models de llenguatge gran integrats a les aplicacions (Greshake et al., 2023) - arxiv.org

  23. Sèrie de fulls de referència d'OWASP - Full de referència per a la prevenció d'injeccions ràpides de LLM - cheatsheetseries.owasp.org

Troba la darrera versió d'IA a la botiga oficial d'assistents d'IA

Sobre nosaltres

Torna al bloc