Paper 1

This paper presents FairGen, a novel adversarial debiasing framework aimed at reducing gender and racial biases in large language models (LLMs) while preserving linguistic quality and task performance. The framework employs an adversarial discriminator to penalize biased outputs, achieving a 40% reduction in bias on standard benchmarks compared to models like GPT-2. The study highlights the effectiveness of FairGen and discusses its potential applications in creating more equitable AI systems.

Uploaded by

ishanoor828

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views2 pages

Paper 1

Uploaded by

ishanoor828

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

Paper 1: Computer Science / Artificial Intelligence

Title: Mitigating Bias in Large Language Models: A Novel Adversarial

Debiasing Framework for Enhanced Fairness in Text Generation

Abstract: Large Language Models (LLMs) have demonstrated remarkable

capabilities in text generation but are notoriously prone to amplifying
societal biases present in their training data. This paper proposes a novel
adversarial debiasing framework, FairGen, designed to reduce gender and
racial biases in LLM outputs without significant loss in linguistic quality or
task performance. We introduce an adversarial discriminator network that is
trained simultaneously with the language model to identify biased language.
The primary model is then penalized not only for task-specific errors but also
for successfully generating text that the discriminator flags as biased. We
evaluate FairGen on standard benchmarks (e.g., StereoSet, CrowS-Pairs) and
demonstrate a 40% reduction in measured bias compared to baseline
models like GPT-2, while maintaining competitive performance on
downstream tasks like text summarization and dialogue generation. This
work provides a scalable and effective method for creating more equitable AI
systems.

Outline:

1. Introduction: The problem of bias in AI; focus on LLMs and their societal
impact.
2. Literature Review: Overview of existing debiasing techniques (e.g., data
filtering, counterfactual data augmentation, reinforcement learning from
human feedback).
3. Methodology:

o Architecture of the proposed FairGen framework (Generator: LLM,

Discriminator: CNN/Transformer classifier).
o Detailed explanation of the adversarial training loop and loss functions.
o Description of datasets used for training and evaluation.
4. Experiments & Results:

o Baseline models selected for comparison.

o Quantitative results on bias benchmarks (tables showing bias scores).
o Quantitative results on language quality and task performance (perplexity,
BLEU scores, task accuracy).
o Qualitative analysis: examples of generated text before and after debiasing.
5. Discussion: Interpretation of results; limitations of the approach (e.g.,
computational overhead, potential for "fairness taxes"); types of bias not
addressed.
6. Conclusion & Future Work: Summary of contributions; potential for
applying FairGen to multimodal models and other domains.

2024 cl-3 8
No ratings yet
2024 cl-3 8
83 pages
NLP Project Module 1+2+3, Bias Detection
No ratings yet
NLP Project Module 1+2+3, Bias Detection
27 pages
Research Proposal Cs
No ratings yet
Research Proposal Cs
3 pages
LLM Bias
No ratings yet
LLM Bias
79 pages
Bias Detection Multimodal Models Proposal
No ratings yet
Bias Detection Multimodal Models Proposal
3 pages
Biasin AIDeveloping Fairand Ethical Systems Through Mitigation Strategies
No ratings yet
Biasin AIDeveloping Fairand Ethical Systems Through Mitigation Strategies
8 pages
Art 5
No ratings yet
Art 5
19 pages
Anjali Case Study Synopsis PDF
No ratings yet
Anjali Case Study Synopsis PDF
11 pages
Final 2 Ethical Considerations in AI
No ratings yet
Final 2 Ethical Considerations in AI
9 pages
AI Race
No ratings yet
AI Race
1 page
Hcai
No ratings yet
Hcai
9 pages
A Comparative Analysis To Evaluate Bias and Fairness Across 20lnqvp821
No ratings yet
A Comparative Analysis To Evaluate Bias and Fairness Across 20lnqvp821
9 pages
This File Was Analsyis of 20 Research Paper
No ratings yet
This File Was Analsyis of 20 Research Paper
3 pages
LMARL25 Final Projects
No ratings yet
LMARL25 Final Projects
8 pages
2408.00992v3 Fairness in Large Language Models in Three Hours
No ratings yet
2408.00992v3 Fairness in Large Language Models in Three Hours
5 pages
Dbias: Detecting Biases and Ensuring Fairness in News Articles
No ratings yet
Dbias: Detecting Biases and Ensuring Fairness in News Articles
21 pages
Week 9 Session 2 Lesson Plan
No ratings yet
Week 9 Session 2 Lesson Plan
5 pages
Mitigating Bias in Artificial Intelligence
No ratings yet
Mitigating Bias in Artificial Intelligence
18 pages
2025 Acl-Long 5
No ratings yet
2025 Acl-Long 5
16 pages
Evaluating and Mitigating Social Bias For Large Language Models in Open-Ended Settings
No ratings yet
Evaluating and Mitigating Social Bias For Large Language Models in Open-Ended Settings
12 pages
21EARCS062 ResearchPaper1 (1) 23
No ratings yet
21EARCS062 ResearchPaper1 (1) 23
4 pages
Decoding Bias: A Deep Dive Into Algorithmic Prejudices
No ratings yet
Decoding Bias: A Deep Dive Into Algorithmic Prejudices
2 pages
Group 4 Case Study
No ratings yet
Group 4 Case Study
9 pages
12 - Fairness Issues, Current Approaches, and Challenges in Machine Learning Models
No ratings yet
12 - Fairness Issues, Current Approaches, and Challenges in Machine Learning Models
31 pages
Ethical AI Addressing Bias and Fairness in Machine
No ratings yet
Ethical AI Addressing Bias and Fairness in Machine
5 pages
2 Ruf
No ratings yet
2 Ruf
11 pages
Research Essay - Making AI Fair - Edited
No ratings yet
Research Essay - Making AI Fair - Edited
15 pages
The Pursuit of Fairness in Artificial Intelligence Models: A Survey
No ratings yet
The Pursuit of Fairness in Artificial Intelligence Models: A Survey
37 pages
Making AI Fair
No ratings yet
Making AI Fair
11 pages
Lec1.2 - AI Research
No ratings yet
Lec1.2 - AI Research
25 pages
A Review On Debiasing and Dehallucinating in Large Language Models
No ratings yet
A Review On Debiasing and Dehallucinating in Large Language Models
50 pages
Policy Advice and Best Practices On Bias and Fairn
No ratings yet
Policy Advice and Best Practices On Bias and Fairn
27 pages
Digital 04 00001
No ratings yet
Digital 04 00001
68 pages
Should Fairness Be A Metric or A Model? A Model-Based Framework For Assessing Bias in Machine Learning Pipelines
No ratings yet
Should Fairness Be A Metric or A Model? A Model-Based Framework For Assessing Bias in Machine Learning Pipelines
41 pages
AI Fairness in Data Management
No ratings yet
AI Fairness in Data Management
34 pages
偏见综述2411 10915v1
No ratings yet
偏见综述2411 10915v1
47 pages
Annotator Bias Llms
No ratings yet
Annotator Bias Llms
14 pages
From GPT To BERT:: Benchmarking Large Language Models For Automated Iz Generation
No ratings yet
From GPT To BERT:: Benchmarking Large Language Models For Automated Iz Generation
2 pages
2024 Acl-Long 778
No ratings yet
2024 Acl-Long 778
15 pages
Prep Material For Lecture Fairness
No ratings yet
Prep Material For Lecture Fairness
1 page
LLM Biasness 2 Mod
No ratings yet
LLM Biasness 2 Mod
67 pages
Adversarial Learning
No ratings yet
Adversarial Learning
10 pages
Evaluating Interfaced LLM Bias - 2023.rocling-1.37
No ratings yet
Evaluating Interfaced LLM Bias - 2023.rocling-1.37
8 pages
Fixna Algorithmic Bias
No ratings yet
Fixna Algorithmic Bias
6 pages
Sample Presentation
No ratings yet
Sample Presentation
11 pages
Applsci 13 10258
No ratings yet
Applsci 13 10258
33 pages
Addressing Bias in LLMS: Strategies and Application To Fair AI-based Recruitment
No ratings yet
Addressing Bias in LLMS: Strategies and Application To Fair AI-based Recruitment
11 pages
She Had Cobalt Blue Eyes: Prompt Testing To Create Aligned and Sustainable Language Models
No ratings yet
She Had Cobalt Blue Eyes: Prompt Testing To Create Aligned and Sustainable Language Models
8 pages
Roisinluo Reasoning in LLMs
No ratings yet
Roisinluo Reasoning in LLMs
72 pages
Impact Robotic
No ratings yet
Impact Robotic
21 pages
AI Ethics and Bias in Machine Learning
No ratings yet
AI Ethics and Bias in Machine Learning
1 page
Fairness-Aware Federated Learning With Real-Time Bias Detection and Correction
No ratings yet
Fairness-Aware Federated Learning With Real-Time Bias Detection and Correction
4 pages
CSCI566 Proposal
No ratings yet
CSCI566 Proposal
2 pages
2025 Coling-Main 190
No ratings yet
2025 Coling-Main 190
15 pages
Chat GPT Sex Bias
No ratings yet
Chat GPT Sex Bias
17 pages
Highlights
No ratings yet
Highlights
41 pages
Systematic Prejudices UNESCO 2024
No ratings yet
Systematic Prejudices UNESCO 2024
22 pages
Algoverse AI Research Brochure - NeurIPS Track
No ratings yet
Algoverse AI Research Brochure - NeurIPS Track
13 pages

Paper 1

Uploaded by

Paper 1

Uploaded by

Paper 1: Computer Science / Artificial Intelligence

Title: Mitigating Bias in Large Language Models: A Novel Adversarial

Abstract: Large Language Models (LLMs) have demonstrated remarkable

o Architecture of the proposed FairGen framework (Generator: LLM,

o Baseline models selected for comparison.

You might also like