La IA substituirà els enginyers de dades?

La IA substituirà els enginyers de dades?

Resposta curta: la IA no substituirà completament els enginyers de dades; automatitzarà el treball repetitiu com ara l'esborrany SQL, l'estructuració de pipeline, les proves i la documentació. Si el vostre rol és principalment de baixa responsabilitat i basat en tiquets, està més exposat; si sou propietari de la fiabilitat, les definicions, la governança i la resposta a incidents, la IA principalment us fa més ràpids.

Conclusions clau:

Propietat : Prioritzar la responsabilitat pels resultats, no només la producció ràpida de codi.

Qualitat : Creeu proves, observabilitat i contractes perquè les pipelines continuïn sent fiables.

Governança : Mantenir la privadesa, el control d'accés, la retenció i les pistes d'auditoria en mans humanes.

Resistència a l'ús indegut : Tracteu els resultats de la IA com a esborranys; reviseu-los per evitar errors segurs.

Canvi de rols : Dediqueu menys temps a escriure text estàndard i més temps a dissenyar sistemes duradors.

La IA substituirà els enginyers de dades? Infografia

Si heu passat més de cinc minuts amb equips de dades, haureu sentit la frase, de vegades xiuxiuejada, de vegades llançada durant una reunió com un gir argumental: La IA substituirà els enginyers de dades?

I... ho entenc. La IA pot generar SQL, construir pipelines, explicar traces de pila, esborrar models dbt, fins i tot suggerir esquemes de magatzem amb una confiança inquietant. GitHub Copilot per a SQL Sobre els models dbt GitHub Copilot
És com veure una carretilla elevadora aprendre a fer malabars. Impressionant, lleugerament alarmant, i no estàs completament segur de què significa per a la teva feina 😅

Però la veritat és menys clara que el titular. La IA està canviant completament l'enginyeria de dades. Està automatitzant les parts avorrides i repetibles. Està accelerant els moments de "Sé el que vull però no recordo la sintaxi". També està generant nous tipus de caos.

Així doncs, expliquem-ho correctament, sense optimisme ostentós ni pànic fatalista.

Articles que potser t'agradaria llegir després d'aquest:

🔗 La IA substituirà els radiòlegs?
Com la IA d'imatges canvia el flux de treball, la precisió i els rols futurs.

🔗 La IA substituirà els comptables?
Vegeu quines tasques comptables automatitza la IA i quines romanen humanes.

🔗 La IA substituirà els banquers d'inversió?
Comprendre l'impacte de la IA en els acords, la recerca i les relacions amb els clients.

🔗 La IA substituirà els agents d'assegurances?
Descobreix com la IA transforma la subscripció, les vendes i l'atenció al client.


Per què la pregunta de "la IA substitueix els enginyers de dades" continua tornant a sorgir 😬

La por prové d'un lloc molt concret: l'enginyeria de dades té molta feina repetible .

  • Escriptura i refactorització de SQL

  • Creació de scripts d'ingestió

  • Mapejar camps d'un esquema a un altre

  • Creació de proves i documentació bàsica

  • Depuració d'errors de canalització que són... una mica predictibles

La IA és inusualment bona en patrons repetibles. I una bona part de l'enginyeria de dades és exactament això: patrons apilats sobre patrons. Suggeriments de codi GitHub Copilot

A més, l'ecosistema d'eines ja està "amagant" la complexitat:

Així doncs, quan apareix la IA, pot semblar l'última peça. Si la pila ja està abstraïda i la IA pot escriure el codi d'enganxament... què queda? 🤷

Però aquí teniu el que la gent passa per alt: l'enginyeria de dades no és principalment escriure . Escriure és la part fàcil. La part difícil és fer que la realitat empresarial tèrbola, política i canviant es comporti com un sistema fiable.

I la IA encara té dificultats amb aquesta foscor. La gent també té dificultats: simplement improvisen millor.


Què fan realment els enginyers de dades durant tot el dia (la veritat poc glamurosa) 🧱

Siguem francs: el títol de treball "Enginyer de dades" sona com si estiguessis construint motors de coet a partir de matemàtiques pures. A la pràctica, estàs generant confiança .

Un dia típic és menys "inventar nous algoritmes" i més:

  • Negociació amb els equips superiors sobre les definicions de dades (dolorosa però necessària)

  • Investigar per què ha canviat una mètrica (i si és real)

  • Gestió de la deriva de l'esquema i les sorpreses de "algú ha afegit una columna a mitjanit"

  • Assegurar que les canonades siguin idempotents, recuperables i observables

  • Crear barreres de seguretat perquè els analistes posteriors no creïn accidentalment quadres de comandament sense sentit

  • Gestionant costos perquè el vostre magatzem no es converteixi en una foguera de diners 🔥

  • Assegurar l'accés, l'auditoria, el compliment i les polítiques de retenció Principis del RGPD (Comissió Europea) Limitació d'emmagatzematge (ICO)

  • Crear productes de dades que la gent pugui utilitzar realment sense enviar-te missatges directes 20 preguntes

Una gran part de la feina és social i operativa:

  • "De qui és aquesta taula?"

  • «Encara és vàlida aquesta definició?»

  • "Per què el CRM exporta duplicats?"

  • «Podem enviar aquesta mètrica als executius sense vergonya?» 😭

La IA pot ajudar amb algunes parts d'això, és clar. Però substituir-la completament és... una exageració.


Què fa que un rol d'enginyeria de dades sigui sòlid? ✅

Aquesta secció és important perquè el llenguatge de substitució normalment assumeix que els enginyers de dades són principalment "constructors de pipelines". Això és com suposar que els xefs principalment "tallen verdures". Forma part de la feina, però no és la feina.

Una versió forta d'un enginyer de dades normalment significa que pot fer la majoria d'aquestes coses:

  • Disseny per al canvi
    . Les dades canvien. Els equips canvien. Les eines canvien. Un bon enginyer construeix sistemes que no col·lapsen cada cop que la realitat esternuda 🤧

  • Definir contractes i expectatives
    Què significa "client"? Què significa "actiu"? Què passa quan una fila arriba tard? Els contractes eviten el caos més que el codi sofisticat. Estàndard de contractes de dades obertes (ODCS) ODCS (GitHub)

  • Integrar l'observabilitat en tot.
    No només "ha funcionat", sinó "ha funcionat correctament". Frescor, anomalies de volum, explosions nul·les, canvis de distribució. Observabilitat de dades (Dynatrace). Què és l'observabilitat de dades?

  • Fes compromisos com un adult:
    velocitat vs. correcció, cost vs. latència, flexibilitat vs. simplicitat. No hi ha cap canalització perfecta, només canalitzacions amb les quals pots conviure.

  • Traduir les necessitats empresarials en sistemes duradors.
    La gent demana mètriques, però el que necessiten és un producte de dades. La IA pot esborrar el codi, però no pot conèixer màgicament les mines terrestres empresarials.

  • Mantingueu les dades en secret.
    El major compliment per a una plataforma de dades és que ningú en parla. Les dades sense incidents són bones dades. Com la fontaneria. Només te n'adones quan falla 🚽

Si esteu fent aquestes coses, la pregunta "La IA substituirà els enginyers de dades?" comença a sonar... una mica fora de lloc. La IA pot substituir les tasques , no la propietat .


On la IA ja està ajudant els enginyers de dades (i és realment fantàstic) 🤖✨

La IA no és només màrqueting. Ben utilitzada, és un multiplicador de força legítim.

1) Treball de SQL i transformació més ràpid

  • Redacció d'unions complexes

  • Escrivint funcions de finestra en què preferiries no pensar

  • Convertir la lògica del llenguatge planer en esquelets de consultes

  • Refactorització de consultes lletges en CTE llegibles GitHub Copilot per a SQL

Això és enorme perquè redueix l'efecte de "pàgina en blanc". Encara cal validar, però es comença amb un 70% en comptes del 0%.

2) Depuració i cerca de la causa arrel

La IA és decent en:

  • Explicació dels missatges d'error

  • Suggerint on buscar

  • Recomanació dels passos del tipus "comprovar la incompatibilitat de l'esquema" GitHub Copilot
    És com tenir un enginyer júnior incansable que mai dorm i de vegades menteix amb confiança 😅

3) Enriquiment de la documentació i del catàleg de dades

Generat automàticament:

  • Descripcions de columnes

  • Resums de models

  • Explicacions de llinatge

  • "Per a què serveix aquesta taula?" esborranys de documentació dbt

No és perfecte, però trenca la maledicció dels oleoductes no documentats.

4) Proves i comprovacions de bastides

La IA pot proposar:

De nou, tu encara decideixes què importa, però això accelera les parts rutinàries.

5) Codi de "cola" de la canonada

Plantilles de configuració, bastides YAML, esborranys de DAG d'orquestració. Tot això és repetitiu i la IA menja repetitiu per esmorzar 🥣 DAG d'Apache Airflow


On la IA encara té dificultats (i aquest és el nucli) 🧠🧩

Aquesta és la part més important, perquè respon a la pregunta de substitució amb una textura real.

1) Ambigüitat i definicions canviants

La lògica empresarial poques vegades és nítida. La gent canvia d'opinió a mitja frase. "Usuari actiu" es converteix en "usuari de pagament actiu" i es converteix en "usuari de pagament actiu excloent-hi reemborsaments, excepte de vegades"... ja saps com és.

La IA no pot posseir aquesta ambigüitat. Només pot endevinar.

2) Responsabilitat i risc

Quan es trenca una canonada i el tauler de control executiu mostra ximpleries, algú ha de:

  • triatge

  • comunicar l'impacte

  • arregla-ho

  • prevenir la recurrència

  • escriure l'autòpsia

  • decidir si l'empresa encara pot confiar en les xifres de la setmana passada

La IA pot ajudar, però no pot ser responsable de manera significativa. Les organitzacions no funcionen amb vibracions, sinó amb responsabilitat.

3) Pensament sistèmic

Les plataformes de dades són ecosistemes: ingestió, emmagatzematge, transformacions, orquestració, governança, control de costos, SLA. Un canvi en una sola capa genera ondulacions. Conceptes d'Apache Airflow.

La IA pot proposar optimitzacions locals que creen un dolor global. És com arreglar una porta que grinyola traient-la 😬

4) Seguretat, privadesa, compliment normatiu

Aquí és on moren les fantasies de reemplaçament.

La IA pot redactar polítiques, però implementar-les de manera segura és enginyeria real.

5) Els «desconeguts desconeguts»

Els incidents de dades sovint són imprevisibles:

  • Una API de proveïdor canvia silenciosament la semàntica

  • Una suposició de fus horari s'inverteix

  • Un farciment duplica una partició

  • Un mecanisme de reintent provoca escriptures dobles

  • Una nova funció del producte introdueix nous patrons d'esdeveniments

La IA és més feble quan la situació no és un patró conegut.


Taula comparativa: què redueix què, a la pràctica 🧾🤔

A continuació es mostra una visió pràctica. No "eines que substitueixen les persones", sinó eines i enfocaments que redueixen certes tasques.

Eina / enfocament Públic vibració del preu Per què funciona
Copilots de codi d'IA (ajudants SQL + Python) Copilot de GitHub Enginyers que escriuen molt de codi De gratuït a de pagament Excel·lent en bastides, refactoritzacions, sintaxi... de vegades presumit d'una manera molt específica
Connectors ELT gestionats Fivetran Equips cansats de generar ingestió Subscripció Elimina el dolor d'ingestió personalitzat, però es trenca de maneres noves i divertides
Plataformes d'observabilitat de dades Observabilitat de dades (Dynatrace) Qualsevol persona que tingui SLAs Mitjana a empresa Detecta anomalies aviat, com ara detectors de fum per a canonades 🔔
Marcs de transformació (modelització declarativa) dbt Híbrids d'analítica + DE Normalment eina + càlcul Fa que la lògica sigui modular i comprovable, menys espaguetis
Catàlegs de dades + capes semàntiques dbt Capa semàntica Organitzacions amb confusió mètrica Depèn, a la pràctica Defineix la "veritat" una vegada: redueix els debats mètrics interminables
Orquestració amb plantilles Apache Airflow Equips amb mentalitat de plataforma Cost obert + operacions Estandarditza els fluxos de treball; menys DAG de tipus floc de neu
Generació de documents DBT de documentació assistida per IA Equips que odien escriure documents Barat a moderat Crea documents "prou bons" perquè el coneixement no s'esvaeixi
Polítiques de governança automatitzades Marc de privadesa del NIST Entorns regulats Empresarial Ajuda a fer complir les normes, però encara necessita humans per dissenyar les normes

Fixeu-vos en què falta: una fila que diu "premeu el botó per eliminar els enginyers de dades". Sí... aquesta fila no existeix 🙃


Aleshores... la IA substituirà els enginyers de dades o simplement canviarà el seu rol? 🛠️

Aquí teniu la resposta, no dramàtica: la IA substituirà parts del flux de treball, no la professió.

Però reconfigurarà el rol. I si ho ignores, sentiràs la pressió.

Què canvia:

  • Menys temps escrivint format de referència

  • Menys temps buscant documents

  • Més temps per revisar, validar i dissenyar

  • Més temps per definir contractes i expectatives de qualitat Estàndard de Contractes de Dades Obertes (ODCS)

  • Més temps dedicat a col·laborar amb producte, seguretat i finances

Aquest és el canvi subtil: l'enginyeria de dades es redueix menys a "construir canals" i més a "construir un sistema de productes de dades fiable"

I en un gir silenciós, això és més valuós, no menys.

A més, i ho diré encara que sembli dramàtic, la IA augmenta el nombre de persones que poden produir artefactes de dades , cosa que augmenta la necessitat que algú mantingui tot plegat en ordre. Més producció significa més confusió potencial. Copilot de GitHub

És com donar a tothom un trepant elèctric. Fantàstic! Ara algú ha de fer complir la regla de "si us plau, no foradeu la canonada d'aigua" 🪠


La nova pila d'habilitats que continua sent valuosa (fins i tot amb IA a tot arreu) 🧠⚙️

Si voleu una llista de comprovació pràctica i "a prova de futur", té aquest aspecte:

Mentalitat de disseny de sistemes

  • Modelització de dades que sobreviu al canvi

  • Compromisos entre lots i transmissió en temps real

  • Pensament de latència, cost i fiabilitat

Enginyeria de qualitat de dades

Governança i arquitectura de confiança

Pensament de plataforma

  • Plantilles reutilitzables, camins daurats

  • Patrons estandarditzats per a la ingestió, transformacions i proves de dades dbt de Fivetran

  • Eines d'autoservei que no es fonen

Comunicació (sí, de debò)

  • Escriure documents clars

  • Alineació de definicions

  • Dir "no" educadament però amb fermesa

  • Explicant els compromisos sense semblar un robot 🤖

Si pots fer això, la pregunta "La IA substituirà els enginyers de dades?" esdevé menys amenaçadora. La IA esdevé el teu exoesquelet, no el teu substitut.


Escenaris realistes on alguns rols d'enginyeria de dades es redueixen 📉

D'acord, una ràpida comprovació de la realitat, perquè no tot és sol i confeti d'emojis 🎉

Alguns rols estan més exposats:

  • Rols d'ingestió pura on tot són connectors estàndard Connectors Fivetran

  • Els equips fan pipelines d'informes majoritàriament repetitius amb un mínim de matisos de domini

  • Organitzacions on l'enginyeria de dades es tracta com a "micos SQL" (dur, però cert)

  • Rols de baixa propietat on la feina només consisteix en tiquets i copiar i enganxar

La IA més les eines gestionades poden reduir aquestes necessitats.

Però fins i tot allà, la substitució sol ser així:

  • Menys gent fent la mateixa feina repetitiva

  • Més èmfasi en la propietat i la fiabilitat de la plataforma

  • Un canvi cap a "una persona pot donar suport a més canonades"

Així doncs, sí, els patrons de recompte de personal poden canviar. Els rols evolucionen. Els càrrecs canvien. Aquesta part és real.

Tot i això, la versió d'alta responsabilitat i confiança del rol es manté.


Resum final 🧾✅

La IA substituirà els enginyers de dades? No de la manera neta i total que la gent s'imagina.

La IA farà:

Però l'enginyeria de dades tracta fonamentalment de:

La IA pot ajudar amb això... però no ho "posseeix".

Si ets enginyer de dades, el pas és senzill (no fàcil, però senzill):
centra't en la propietat, la qualitat, el pensament de plataforma i la comunicació. Deixa que la IA s'encarregui de la rutina mentre tu t'encarregues de les parts importants.

I sí, de vegades això vol dir ser l'adult de la sala. No glamurós. Tot i que discretament poderós 😄

La IA substituirà els enginyers de dades?
Substituirà algunes tasques, remodelarà l'escala i farà que els millors enginyers de dades siguin encara més valuosos. Aquesta és la veritable història.


Preguntes freqüents

La IA substituirà completament els enginyers de dades?

A la majoria d'organitzacions, és més probable que la IA assumeixi tasques específiques que no pas que elimini el rol completament. Pot accelerar l'esborrany de SQL, l'estructuració de pipeline, les primeres passades de documentació i la creació de proves bàsiques. Però l'enginyeria de dades també comporta propietat i responsabilitat, a més de la feina poc glamurosa de fer que la realitat empresarial desordenada es comporti com un sistema fiable. Aquestes parts encara necessiten humans per decidir què vol dir "correcte" i assumir la responsabilitat quan les coses es trenquen.

Quines parts de l'enginyeria de dades ja està automatitzant la IA?

La IA funciona millor en treballs repetibles: esborrany i refactorització de SQL, generació d'esquelets de models DBT, explicació d'errors comuns i producció d'esquemes de documentació. També pot estructurar proves com ara comprovacions de nul·litat o unicitat i generar codi de plantilla "enganxant" per a eines d'orquestració. La victòria és l'impuls: comences més a prop d'una solució que funcioni, però encara has de validar la correcció i assegurar-te que s'adapta al teu entorn.

Si la IA pot escriure SQL i pipelines, què queda per als enginyers de dades?

Molt: definir contractes de dades, gestionar la deriva d'esquemes i garantir que els pipelines siguin idempotents, observables i recuperables. Els enginyers de dades dediquen temps a investigar canvis de mètriques, construir barreres de protecció per als usuaris posteriors i gestionar els compromisos entre costos i fiabilitat. La feina sovint es redueix a generar confiança i mantenir la plataforma de dades "tranquil·la", és a dir, prou estable perquè ningú hagi de pensar-hi dia a dia.

Com canvia la IA la feina diària d'un enginyer de dades?

Normalment, redueix el temps de repetició i el "temps de cerca", de manera que es dedica menys temps a escriure i més temps a revisar, validar i dissenyar. Aquest canvi impulsa el rol cap a la definició d'expectatives, estàndards de qualitat i patrons reutilitzables en lloc de codificar-ho tot manualment. A la pràctica, probablement es farà més treball de col·laboració amb el producte, la seguretat i les finances, perquè el resultat tècnic esdevé més fàcil de crear, però més difícil de governar.

Per què la IA té dificultats amb definicions empresarials ambigües com ara "usuari actiu"?

Com que la lògica empresarial no és estàtica ni precisa, canvia a mig projecte i varia segons les parts interessades. La IA pot elaborar una interpretació, però no pot prendre la decisió quan les definicions evolucionen o sorgeixen conflictes. L'enginyeria de dades sovint requereix negociació, documentació de suposicions i conversió de requisits imprecisos en contractes duradors. Aquesta feina d'"alineació humana" és una de les raons principals per les quals el rol no desapareix, fins i tot quan les eines milloren.

Pot la IA gestionar la governança de dades, la privadesa i el compliment normatiu de manera segura?

La IA pot ajudar a redactar polítiques o suggerir enfocaments, però una implementació segura encara requereix una enginyeria real i una supervisió acurada. La governança implica controls d'accés, gestió d'informació identificable, regles de retenció, pistes d'auditoria i, de vegades, restriccions de residència. Aquestes són àrees d'alt risc on "gairebé correcte" no és acceptable. Els humans han de dissenyar les normes, verificar-ne l'aplicació i seguir sent responsables dels resultats de compliment.

Quines habilitats continuen sent valuoses per als enginyers de dades a mesura que la IA millora?

Habilitats que fan que els sistemes siguin resilients: pensament de disseny de sistemes, enginyeria de qualitat de dades i estandardització basada en plataformes. Els contractes, l'observabilitat, els hàbits de resposta a incidents i l'anàlisi disciplinada de les causes arrel esdevenen encara més importants quan més persones poden generar artefactes de dades ràpidament. La comunicació també esdevé un diferenciador: alinear les definicions, escriure documents clars i explicar els compromisos sense drames és una part important per mantenir les dades fiables.

Quins rols d'enginyeria de dades estan més en risc a causa de la IA i les eines gestionades?

Els rols centrats específicament en la ingestió repetitiva o en les canalitzacions d'informes estàndard estan més exposats, especialment quan els connectors ELT gestionats cobreixen la majoria de les fonts. El treball de baixa propietat i basat en tiquets es pot reduir perquè la IA i l'abstracció redueixen l'esforç per canalització. Però això normalment sembla que hi hagi menys persones que facin tasques repetitives, no "cap enginyer de dades". Els rols d'alta propietat centrats en la fiabilitat, la qualitat i la confiança continuen sent duradors.

Com hauria d'utilitzar eines com GitHub Copilot o dbt amb IA sense crear caos?

Tracta la sortida de la IA com un esborrany, no com una decisió. Fes-la servir per generar esquelets de consultes, millorar la llegibilitat o estructurar proves i documents de DBT, i després valida-la amb dades reals i casos límit. Combina-la amb convencions sòlides: contractes, estàndards de nomenclatura, comprovacions d'observabilitat i pràctiques de revisió. L'objectiu és un lliurament més ràpid sense sacrificar la fiabilitat, el control de costos o la governança.

Referències

  1. Comissió Europea - Explicació de la protecció de dades: principis del RGPD - commission.europa.eu

  2. Oficina del Comissionat d'Informació (ICO) - Limitació d'emmagatzematge - ico.org.uk

  3. Comissió Europea - Quant de temps es poden conservar les dades i cal actualitzar-les? - commission.europa.eu

  4. Institut Nacional d'Estàndards i Tecnologia (NIST) - Marc de privadesa - nist.gov

  5. Centre de Recursos de Seguretat Informàtica del NIST (CSRC) - SP 800-92: Guia per a la gestió del registre de seguretat informàtica - csrc.nist.gov

  6. Centre per a la Seguretat d'Internet (CIS) - Gestió del registre d'auditoria (Controls CIS) - cisecurity.org

  7. Documentació de Snowflake - Polítiques d'accés a files - docs.snowflake.com

  8. Documentació de Google Cloud : seguretat a nivell de fila de BigQuery - docs.cloud.google.com

  9. BITOL - Estàndard de Contractes de Dades Obertes (ODCS) v3.1.0 - bitol-io.github.io

  10. BITOL (GitHub) - Estàndard de contracte de dades obertes - github.com

  11. Apache Airflow - Documentació (estable) - airflow.apache.org

  12. Apache Airflow - DAGs (conceptes bàsics) - airflow.apache.org

  13. Documentació de dbt Labs : què és dbt? - docs.getdbt.com

  14. Documentació de dbt Labs : sobre els models dbt - docs.getdbt.com

  15. Documentació de dbt Labs - Documentació - docs.getdbt.com

  16. Documentació de dbt Labs - Proves de dades - docs.getdbt.com

  17. Documentació de dbt Labs - Capa semàntica de dbt - docs.getdbt.com

  18. Documentació de Fivetran - Introducció - fivetran.com

  19. Fivetran - Connectors - fivetran.com

  20. Documentació d'AWS - Guia per a desenvolupadors d'AWS Lambda - docs.aws.amazon.com

  21. GitHub - Copilot de GitHub - github.com

  22. Documentació de GitHub : obtenir suggeriments de codi al vostre IDE amb GitHub Copilot - docs.github.com

  23. Microsoft Learn - GitHub Copilot per a SQL (extensió VS Code) - learn.microsoft.com

  24. Documentació de Dynatrace - Observabilitat de dades - docs.dynatrace.com

  25. DataGalaxy - Què és l'observabilitat de dades? - datagalaxy.com

  26. Documentació de Great Expectations - Visió general de les expectatives - docs.greatexpectations.io

Troba la darrera versió d'IA a la botiga oficial d'assistents d'IA

Sobre nosaltres

Torna al bloc