Il nostro impegno per la sicurezza delle comunità
Sparatorie di massa, minacce contro funzionari pubblici, tentativi di bombardamento e attacchi a comunità e individui sono una realtà inaccettabile e grave nel mondo di oggi. Questi incidenti ci ricordano quanto sia reale la minaccia della violenza e quanto rapidamente l'intento violento possa passare dalle parole all'azione.
Le persone possono portare questi momenti e sentimenti anche in ChatGPT. Possono porre domande sulle notizie, cercare di capire cosa sia successo, esprimere paura o rabbia, o parlare di violenza in modi che possono essere fittizi, storici, politici, personali o potenzialmente pericolosi. Ci impegniamo ad addestrare ChatGPT a riconoscere la differenza e a tracciare dei limiti quando una conversazione inizia a muoversi verso minacce, potenziale danno a terzi o pianificazione nel mondo reale.
Stiamo condividendo ciò che facciamo per ridurre al minimo l'uso dei nostri servizi a fini di violenza o altri danni: come i nostri modelli sono addestrati a rispondere in modo sicuro, come i nostri sistemi rilevano il potenziale rischio di danno e quali azioni intraprendiamo quando qualcuno viola le nostre politiche. Miglioriamo costantemente le misure che adottiamo per contribuire a proteggere le persone e le comunità, guidati dal contributo di psicologi, psichiatri, esperti di libertà civili e forze dell'ordine e altri che ci aiutano a navigare decisioni difficili in merito a sicurezza, privacy e accesso democratico.
Un approccio multifattoriale alla sicurezza
Il nostro impegno per la sicurezza si basa su un approccio articolato che integra principi etici, addestramento dei modelli, sistemi di rilevamento avanzati e l'intervento umano. La combinazione di queste strategie ci permette di affrontare la complessità delle interazioni umane con l'intelligenza artificiale e di mitigare i rischi emergenti.
I principi guida dei nostri modelli
Il nostro Model Spec espone i nostri principi di lunga data su come vogliamo che i nostri modelli si comportino: massimizzare l'utilità e la libertà dell'utente, minimizzando al contempo il rischio di danno attraverso impostazioni predefinite sensate.
Ci impegniamo ad addestrare i nostri modelli a rifiutare richieste di istruzioni, tattiche o pianificazione che potrebbero abilitare in modo significativo la violenza. Al contempo, le persone possono porre domande neutre sulla violenza per ragioni fattuali, storiche, educative o preventive, e il nostro obiettivo è consentire queste discussioni mantenendo chiari confini di sicurezza, ad esempio, omettendo istruzioni operative dettagliate che potrebbero facilitare il danno. Il confine tra usi benigni e dannosi può essere sottile, quindi affiniamo continuamente il nostro approccio e lavoriamo con esperti per aiutare a distinguere tra risposte sicure e delimitate e passaggi attuabili per l'esecuzione di violenza o altri danni nel mondo reale.
Equilibrare libertà e sicurezza
Nell'ambito di questo lavoro continuo, abbiamo continuato a espandere le nostre salvaguardie per aiutare ChatGPT a riconoscere meglio i segnali sottili di rischio di danno in diversi contesti. Alcuni rischi per la sicurezza diventano chiari solo con il tempo: un singolo messaggio può sembrare innocuo di per sé, ma un modello più ampio all'interno di una lunga conversazione, o tra conversazioni, può suggerire qualcosa di più preoccupante. Basandoci su anni di lavoro nell'addestramento dei modelli, nelle valutazioni e nel red teaming, e sul continuo contributo di esperti, abbiamo rafforzato il modo in cui ChatGPT riconosce i segnali di allarme sottili in conversazioni lunghe e ad alto rischio e risponde con attenzione. Condivideremo ulteriori dettagli su questo lavoro nelle prossime settimane.
Rilevamento e intervento
Assumiamo il meglio dei nostri utenti, ma quando rileviamo che qualcuno sta tentando di usare i nostri strumenti per potenzialmente pianificare o attuare violenza, interveniamo, inclusa la revoca dell'accesso ai servizi di OpenAI. Le nostre Politiche di Utilizzo stabiliscono chiare aspettative per un uso accettabile e specificano che possiamo proibire l'uso per:
- Minacce
- Intimidazioni
- Molestie
- Terrorismo o violenza
- Sviluppo di armi
- Attività illecita
- Distruzione di proprietà o sistemi
- Tentativi di eludere le nostre salvaguardie
Prendiamo queste politiche sul serio e lavoriamo duramente per farle rispettare. Abbiamo una politica di tolleranza zero per l'uso dei nostri strumenti per assistere nella commissione di atti di violenza. Le persone possono presentare ricorso contro le decisioni di applicazione, e noi esaminiamo tali ricorsi per confermare l'esito.
Sistemi di rilevamento automatizzato
Utilizziamo sistemi di rilevamento automatizzati per identificare attività potenzialmente preoccupanti su larga scala. Questi sistemi analizzano il contenuto e il comportamento degli utenti utilizzando una gamma di strumenti progettati per identificare segnali che possono indicare violazioni delle politiche o attività dannose, inclusi:
- Classificatori
- Modelli di ragionamento
- Tecnologie di corrispondenza hash
- Liste di blocco
- Altri sistemi di monitoraggio
Il ruolo cruciale della revisione umana
Quando un account o una conversazione viene segnalata, viene valutata nel contesto da personale addestrato. Questi revisori umani sono formati sulle nostre politiche e protocolli e operano all'interno di salvaguardie di privacy e sicurezza stabilite, il che significa che il loro accesso alle informazioni dell'utente è limitato, condotto all'interno di sistemi sicuri e soggetto a requisiti di riservatezza e protezione dei dati. Il loro ruolo è valutare l'attività segnalata nel contesto, incluso il contenuto dell'interazione, la conversazione circostante e qualsiasi modello di comportamento rilevante nel tempo. Questa revisione contestuale è importante perché i sistemi automatizzati possono identificare segnali di potenziale preoccupazione senza cogliere appieno l'intento o la sfumatura.
L'obiettivo è determinare se l'attività segnalata viola le nostre politiche e/o indica che un utente potrebbe compiere un atto di violenza, richiede un'escalation per una revisione umana più dettagliata, o può essere scartata o deprioritizzata come a basso rischio o non violativa. Quando determiniamo che si è verificata un'infrazione che comporta un ban, miriamo a revocare immediatamente l'accesso ai servizi di OpenAI. Questo può includere la disabilitazione dell'account, il blocco di altri account dello stesso utente e l'adozione di misure per rilevare e impedire l'apertura di nuovi account.
Azioni e notifiche
La maggior parte delle azioni di applicazione, inclusi i ban per violenza, avvengono direttamente tra OpenAI e l'utente, chiarendo che hanno oltrepassato un limite. Ma in alcuni casi sensibili, potremmo contattare altri che sono nella posizione migliore per aiutare.
Laddove valutiamo che un caso presenti indicatori di un potenziale danno grave e reale, viene escalato per un'indagine più approfondita, inclusa la valutazione del livello complessivo di rischio utilizzando criteri strutturati. Questa fase è riservata a un sottoinsieme limitato di casi ed è intesa a garantire che gli scenari a rischio più elevato siano valutati con contesto ed esperienza aggiuntivi. Quando le conversazioni indicano un rischio imminente e credibile di danno ad altri, notifichiamo le forze dell'ordine. Esperti di salute mentale e comportamentali ci aiutano a valutare i casi difficili e i nostri criteri di segnalazione sono flessibili per tenere conto del fatto che un utente potrebbe non discutere esplicitamente l'obiettivo, i mezzi e i tempi della violenza pianificata in una conversazione con ChatGPT, ma che potrebbe comunque esserci un potenziale rischio di violenza imminente e credibile.
Supporto per gli utenti e per le famiglie
Oltre a prevenire la violenza, ci preoccupiamo anche del benessere degli utenti in situazioni di vulnerabilità, fornendo risorse e strumenti per garantire un ambiente digitale più sicuro e di supporto.
Gestione delle situazioni di disagio e autolesionismo
Il nostro lavoro di sicurezza si estende anche a situazioni in cui gli utenti possono essere in disagio o a rischio di autolesionismo. In questi momenti, il nostro obiettivo è evitare di facilitare atti dannosi e anche aiutare a disinnescare la situazione e guidare le persone verso un supporto nel mondo reale. ChatGPT fornisce risorse di crisi localizzate, incoraggia le persone a rivolgersi a professionisti della salute mentale o a persone care fidate e, nei casi più gravi, indirizza le persone a cercare aiuto di emergenza.
Controlli parentali per un ambiente sicuro
Lo scorso autunno abbiamo introdotto i controlli parentali per aiutare le famiglie a guidare il funzionamento di ChatGPT nelle loro case. I controlli parentali consentono ai genitori di collegare il proprio account con l'account del proprio adolescente e di personalizzare le impostazioni per un'esperienza sicura e appropriata all'età. I genitori non hanno accesso alle conversazioni del proprio adolescente e, in rari casi in cui il nostro sistema e i revisori umani addestrati rilevano possibili segni di disagio acuto, i genitori possono essere notificati, ma solo con le informazioni necessarie per supportare la sicurezza del proprio adolescente. I genitori vengono automaticamente notificati tramite e-mail, SMS, notifica push o tutti e tre.
La funzione "contatto fidato" in arrivo
Lavorando a stretto contatto con esperti del nostro Council on Well-Being and AI e del nostro Global Physicians Network, introdurremo presto anche una funzione di contatto fidato, che consentirà agli utenti adulti di designare qualcuno per ricevere notifiche quando potrebbero aver bisogno di supporto aggiuntivo.
Un impegno costante per il futuro
Continuiamo a rafforzare i nostri modelli, i metodi di rilevamento, i processi di revisione e i criteri di escalation in risposta all'utilizzo osservato, ai rischi emergenti e al contributo di esperti esterni e della comunità. La complessità delle minacce e l'evoluzione dell'intelligenza artificiale richiedono un impegno dinamico e costante. La nostra missione è garantire che i nostri strumenti siano sempre un bene per l'umanità, proteggendo gli utenti e le comunità da qualsiasi forma di violenza o abuso. Questo è un viaggio continuo, che richiede collaborazione, innovazione e una profonda comprensione delle dinamiche umane e tecnologiche.