Seguretat de la IA

Algunes maneres en què una IA avançada desalineada podria intentar obtenir més poder. Els comportaments de recerca de poder poden sorgir perquè el poder és útil per aconseguir pràcticament qualsevol objectiu ^[1] (vegeu convergència instrumental).

La seguretat de la IA és un camp interdisciplinari preocupat per prevenir accidents, mal ús o altres conseqüències perjudicials que podrien derivar-se dels sistemes d'intel·ligència artificial (IA). Comprèn l'ètica de les màquines i l'alineació de la IA, que tenen com a objectiu fer que els sistemes d'IA siguin morals i beneficiosos, i la seguretat de la IA inclou problemes tècnics, inclosos els sistemes de monitorització de riscos i fer-los altament fiables. Més enllà de la investigació en IA, implica desenvolupar normes i polítiques que promoguin la seguretat.

Motivacions

Els investigadors d'IA tenen opinions molt diferents sobre la gravetat i les principals fonts de risc que suposa la tecnologia d'IA,^[2]^[3]^[4] tot i que les enquestes suggereixen que els experts es prenen seriosament els riscos de conseqüències elevades. En dues enquestes d'investigadors d'IA, la mitjana enquestada era optimista sobre la IA en general, però va situar una probabilitat del 5% en un resultat "extremadament dolent (per exemple, extinció humana)" de la IA avançada.^[2] En una enquesta de 2022 a la comunitat de processament del llenguatge natural (PNL), el 37% va estar d'acord o poc d'acord que és plausible que les decisions de la IA poguessin conduir a una catàstrofe que és "almenys tan dolenta com una guerra nuclear total".^[5] Els estudiosos discuteixen els riscos actuals de fallades crítiques dels sistemes, biaix,^[6] i vigilància habilitada per IA; riscos emergents de l'atur tecnològic, la manipulació digital,^[7] i l'armamentització; ^[8] i riscos especulatius de perdre el control dels futurs agents d'intel·ligència general artificial (AGI).

Es pot afegir un soroll dissenyat amb cura a una imatge per fer que es classifiqui erròniament amb una gran confiança.

^[9]

Alguns han criticat les preocupacions sobre l'AGI, com Andrew Ng que les va comparar el 2015 amb "preocupar-se per la superpoblació a Mart quan encara no hem posat un peu al planeta".^[10] Stuart J. Russell, de l'altra banda, demana precaució, argumentant que "és millor anticipar l'enginy humà que no pas subestimar-lo".^[11]

Rerefons

Els riscos de la IA es van començar a discutir seriosament a l'inici de l'era de la informàtica:

«	A més, si ens movem en la direcció de fer màquines que aprenen i el comportament de les quals es modifica per l'experiència, hem d'enfrontar-nos al fet que cada grau d'independència que donem a la màquina és un grau de possible desafiament dels nostres desitjos.	»
— Norbert Wiener (1949)^[12]

Del 2008 al 2009, l'AAAI va encarregar un estudi per explorar i abordar les possibles influències socials a llarg termini de la investigació i el desenvolupament de la IA. El panell es mostrava generalment escèptic sobre les opinions radicals expressades pels autors de ciència-ficció, però va acordar que "una investigació addicional seria valuosa sobre els mètodes per comprendre i verificar la gamma de comportaments de sistemes computacionals complexos per minimitzar els resultats inesperats".^[13]

Seguiment

Sovint és important que els operadors humans avaluïn fins a quin punt haurien de confiar en un sistema d'IA, especialment en entorns de gran risc, com ara el diagnòstic mèdic.^[14] Els models ML generalment expressen confiança mitjançant la sortida de probabilitats; tanmateix, sovint tenen excés de confiança, especialment en situacions que difereixen d'aquelles per a les quals van ser entrenats per manejar.^[15] La investigació de calibratge pretén fer que les probabilitats del model es corresponguin el més a prop possible amb la proporció real que el model és correcte.

Els estudiosos ^[16] i les agències governamentals han expressat la seva preocupació perquè els sistemes d'IA es poguessin utilitzar per ajudar els actors maliciosos a construir armes,^[17] manipular l'opinió pública ^[18]^[19] o automatitzar els ciberatacs.^[20]^[21] Aquestes preocupacions són una preocupació pràctica per a empreses com OpenAI que allotgen potents eines d'IA en línia.^[22] Per evitar un mal ús, OpenAI ha creat sistemes de detecció que marquen o restringeixen els usuaris en funció de la seva activitat.^[23]

Les xarxes neuronals sovint s'han descrit com a caixes negres,^[24] el que significa que és difícil entendre per què prenen les decisions que prenen com a resultat del gran nombre de càlculs que realitzen.^[25] Això fa que sigui difícil anticipar els fracassos. L'any 2018, un cotxe autònom va matar un vianant després de no identificar-lo. A causa de la naturalesa de la caixa negra del programari d'IA, el motiu de la fallada encara no està clar.^[26]

És habitual que els riscos de la IA (i els riscos tecnològics en general) es classifiquen com a mal ús o accidents.^[27] Alguns estudiosos han suggerit que aquest marc es queda curt.^[27] Per exemple, la crisi dels míssils de Cuba no va ser clarament un accident o un mal ús de la tecnologia.^[27] Els analistes polítics Zwetsloot i Dafoe van escriure: "Les perspectives d'ús indegut i d'accident tendeixen a centrar-se només en l'últim pas d'una cadena causal que porta a un dany: és a dir, la persona que va fer un mal ús de la tecnologia o el sistema que es va comportar de manera no desitjada... Sovint, però, la cadena causal rellevant és molt més llarga". Els riscos sovint sorgeixen de factors "estructurals" o "sistèmics", com ara pressions competitives, difusió de danys, desenvolupament ràpid, alts nivells d'incertesa i cultura de seguretat inadequada.^[27] En el context més ampli de l'enginyeria de seguretat, factors estructurals com la "cultura de seguretat organitzativa" tenen un paper central en el popular marc d'anàlisi de riscos STAMP.^[28]

Referències

↑ «'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power» (en anglès). Fortune. [Consulta: 10 juny 2023].
↑ ^2,0 ^2,1 Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain Journal of Artificial Intelligence Research, 62, 31-07-2018, pàg. 729–754. DOI: 10.1613/jair.1.11222. ISSN: 1076-9757 [Consulta: 28 novembre 2022].
↑ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C. "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers", 05-05-2021. arXiv: 2105.02117.
↑ Stein-Perlman, Zach. «2022 Expert Survey on Progress in AI» (en anglès). AI Impacts, 04-08-2022. Arxivat de l'original el 2022-11-23. [Consulta: 23 novembre 2022].
↑ Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex "What Do NLP Researchers Believe? Results of the NLP Community Metasurvey", 26-08-2022. arXiv: 2208.12852.
↑ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (en anglès) ACM Computing Surveys, 54, 6, 2021, pàg. 1–35. arXiv: 1908.09635. DOI: 10.1145/3457607. ISSN: 0360-0300 [Consulta: 28 novembre 2022].
↑ Barnes, Beth Lesswrong, 2021 [Consulta: 23 novembre 2022].
↑ Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter "The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation", 30-04-2018. DOI: 10.17863/cam.22520 [Consulta: 28 novembre 2022].
↑ Carlsmith, Joseph "Is Power-Seeking AI an Existential Risk?", 16-06-2022. arXiv: 2206.13353.
↑ «AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com» (en anglès americà), 04-04-2023. [Consulta: 23 juliol 2023].
↑ Dafoe, Allan. «Yes, We Are Worried About the Existential Risk of Artificial Intelligence» (en anglès). MIT Technology Review, 2016. Arxivat de l'original el 2022-11-28. [Consulta: 28 novembre 2022].
↑ Markoff, John «In 1949, He Imagined an Age of Robots». The New York Times, 20-05-2013 [Consulta: 23 novembre 2022].
↑ AAAI. «AAAI Presidential Panel on Long-Term AI Futures» (en anglès). Arxivat de l'original el 2022-09-01. [Consulta: 23 novembre 2022].
↑ Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V. (en anglès) Genome Medicine, 13, 1, 2021, pàg. 152. DOI: 10.1186/s13073-021-00968-x. ISSN: 1756-994X. PMC: 8477474. PMID: 34579788.
↑ Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D. "Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift", 17-12-2019. arXiv: 1906.02530.
↑ Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter "Description of Corner Cases in Automated Driving: Goals and Challenges", 30-04-2018. DOI: 10.17863/cam.22520 [Consulta: 28 novembre 2022].
↑ Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (en anglès) Nature Machine Intelligence, 4, 3, 2022, pàg. 189–191. DOI: 10.1038/s42256-022-00465-9. ISSN: 2522-5839. PMC: 9544280. PMID: 36211133.
↑ Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina "Truth, Lies, and Automation: How Language Models Could Change Disinformation", 2021. DOI: 10.51593/2021ca003 [Consulta: 28 novembre 2022].
↑ «Propaganda-as-a-service may be on the horizon if large language models are abused» (en anglès). VentureBeat, 14-12-2021. Arxivat de l'original el 2022-11-24. [Consulta: 24 novembre 2022].
↑ Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack "Automating Cyber Attacks: Hype and Reality", 2020. DOI: 10.51593/2020ca002 [Consulta: 28 novembre 2022].
↑ Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack. «Automating Cyber Attacks» (en anglès americà). DOI: 10.51593/2020ca002. [Consulta: 10 setembre 2023].
↑ «Lessons Learned on Language Model Safety and Misuse» (en anglès). OpenAI, 03-03-2022. Arxivat de l'original el 2022-11-24. [Consulta: 24 novembre 2022].
↑ Markov, Todor. «New-and-Improved Content Moderation Tooling» (en anglès). OpenAI, 10-08-2022. Arxivat de l'original el 2023-01-11. [Consulta: 24 novembre 2022].
↑ Savage, Neil Nature, 29-03-2022. DOI: 10.1038/d41586-022-00858-1. PMID: 35352042 [Consulta: 24 novembre 2022].
↑ Rudner, Tim; Toner, Helen. «Key Concepts in AI Safety: Interpretability in Machine Learning» (en anglès americà). DOI: 10.51593/20190042. [Consulta: 10 setembre 2023].
↑ McFarland, Matt. «Uber pulls self-driving cars after first fatal crash of autonomous vehicle» (en anglès). CNNMoney, 19-03-2018. Arxivat de l'original el 2022-11-24. [Consulta: 24 novembre 2022].
↑ ^27,0 ^27,1 ^27,2 ^27,3 Zwetsloot, Remco. «Thinking About Risks From AI: Accidents, Misuse and Structure» (en anglès). Lawfare, 11-02-2019. Arxivat de l'original el 2022-11-24. [Consulta: 24 novembre 2022].
↑ Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (en anglès) Safety Science, 152, 2022, pàg. 105596. DOI: 10.1016/j.ssci.2021.105596 [Consulta: 28 novembre 2022].

[1] «'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power» (en anglès). Fortune. [Consulta: 10 juny 2023].

[:1-2] 2,0 ^2,1 Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain Journal of Artificial Intelligence Research, 62, 31-07-2018, pàg. 729–754. DOI: 10.1613/jair.1.11222. ISSN: 1076-9757 [Consulta: 28 novembre 2022].

[3] Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C. "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers", 05-05-2021. arXiv: 2105.02117.

[4] Stein-Perlman, Zach. «2022 Expert Survey on Progress in AI» (en anglès). AI Impacts, 04-08-2022. Arxivat de l'original el 2022-11-23. [Consulta: 23 novembre 2022].

[5] Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex "What Do NLP Researchers Believe? Results of the NLP Community Metasurvey", 26-08-2022. arXiv: 2208.12852.

[:3-6] Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (en anglès) ACM Computing Surveys, 54, 6, 2021, pàg. 1–35. arXiv: 1908.09635. DOI: 10.1145/3457607. ISSN: 0360-0300 [Consulta: 28 novembre 2022].

[7] Barnes, Beth Lesswrong, 2021 [Consulta: 23 novembre 2022].

[:13-8] Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter "The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation", 30-04-2018. DOI: 10.17863/cam.22520 [Consulta: 28 novembre 2022].

[9] Carlsmith, Joseph "Is Power-Seeking AI an Existential Risk?", 16-06-2022. arXiv: 2206.13353.

[10] «AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com» (en anglès americà), 04-04-2023. [Consulta: 23 juliol 2023].

[11] Dafoe, Allan. «Yes, We Are Worried About the Existential Risk of Artificial Intelligence» (en anglès). MIT Technology Review, 2016. Arxivat de l'original el 2022-11-28. [Consulta: 28 novembre 2022].

[12] Markoff, John «In 1949, He Imagined an Age of Robots». The New York Times, 20-05-2013 [Consulta: 23 novembre 2022].

[13] AAAI. «AAAI Presidential Panel on Long-Term AI Futures» (en anglès). Arxivat de l'original el 2022-09-01. [Consulta: 23 novembre 2022].

[14] Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V. (en anglès) Genome Medicine, 13, 1, 2021, pàg. 152. DOI: 10.1186/s13073-021-00968-x. ISSN: 1756-994X. PMC: 8477474. PMID: 34579788.

[15] Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D. "Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift", 17-12-2019. arXiv: 1906.02530.

[:132-16] Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter "Description of Corner Cases in Automated Driving: Goals and Challenges", 30-04-2018. DOI: 10.17863/cam.22520 [Consulta: 28 novembre 2022].

[17] Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (en anglès) Nature Machine Intelligence, 4, 3, 2022, pàg. 189–191. DOI: 10.1038/s42256-022-00465-9. ISSN: 2522-5839. PMC: 9544280. PMID: 36211133.

[18] Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina "Truth, Lies, and Automation: How Language Models Could Change Disinformation", 2021. DOI: 10.51593/2021ca003 [Consulta: 28 novembre 2022].

[19] «Propaganda-as-a-service may be on the horizon if large language models are abused» (en anglès). VentureBeat, 14-12-2021. Arxivat de l'original el 2022-11-24. [Consulta: 24 novembre 2022].

[20] Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack "Automating Cyber Attacks: Hype and Reality", 2020. DOI: 10.51593/2020ca002 [Consulta: 28 novembre 2022].

[21] Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack. «Automating Cyber Attacks» (en anglès americà). DOI: 10.51593/2020ca002. [Consulta: 10 setembre 2023].

[22] «Lessons Learned on Language Model Safety and Misuse» (en anglès). OpenAI, 03-03-2022. Arxivat de l'original el 2022-11-24. [Consulta: 24 novembre 2022].

[23] Markov, Todor. «New-and-Improved Content Moderation Tooling» (en anglès). OpenAI, 10-08-2022. Arxivat de l'original el 2023-01-11. [Consulta: 24 novembre 2022].

[:5-24] Savage, Neil Nature, 29-03-2022. DOI: 10.1038/d41586-022-00858-1. PMID: 35352042 [Consulta: 24 novembre 2022].

[25] Rudner, Tim; Toner, Helen. «Key Concepts in AI Safety: Interpretability in Machine Learning» (en anglès americà). DOI: 10.51593/20190042. [Consulta: 10 setembre 2023].

[26] McFarland, Matt. «Uber pulls self-driving cars after first fatal crash of autonomous vehicle» (en anglès). CNNMoney, 19-03-2018. Arxivat de l'original el 2022-11-24. [Consulta: 24 novembre 2022].

[:12-27] 27,0 ^27,1 ^27,2 ^27,3 Zwetsloot, Remco. «Thinking About Risks From AI: Accidents, Misuse and Structure» (en anglès). Lawfare, 11-02-2019. Arxivat de l'original el 2022-11-24. [Consulta: 24 novembre 2022].

[28] Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (en anglès) Safety Science, 152, 2022, pàg. 105596. DOI: 10.1016/j.ssci.2021.105596 [Consulta: 28 novembre 2022].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]