Investigating the Impact of Private Data on RAG based LLM Personalization. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
MS_Thesis_2026 (Print Version).pdf Restricted to Repository staff only until 4 June 2027. Download (3MB) |
Arabic Abstract
يمكن لتخصيص النماذج اللغوية الكبيرة )LLM( أن يولّد نصوص ً ا خاصة بكل مستخدم بدرجة عالية من الدقة الأسلوبية. ومع ذلك، فإن البيانات الشخصية التي تمكّن هذا التخصيص غالبًا ما تتضمن مؤشرات ديموغرافية وثقافية وأسلوبية، مما يثير مخاوف تتعلق بإمكانية إعادة التعرف على الهوية من خلال التحليل الأسلوبي. تبحث هذه الورقة فيما إذا كان تقليل الا ٕ شارات الأسلوبية القابلة للتعرّف يؤثر على التخصيص في توليد النصوص بواسطة النماذج اللغوية الكبيرة. باستخدام معيار 7-LaMP لتويتر، نقوم ببناء خط أنابيب توليد معزّز بالاسترجاع يسترجع أفضل 5 تغريدات ذات صلة أسلوبية من ملف كل مستخدم، ويستخدمها لتهيئة عملية إعادة صياغة التغريدات. تُقارن التجارب على عينة من 250 مستخدمًا بين حالتين: إعادة الصياغة المعتمدة على الملف الشخصي الأصلي، وإعادة الصياغة المعتمدة على ملف شخصي مُحوّل ومُجهّل تم فيه تحييد المؤشرات الديموغرافية والا ٕ شارات الثقافية والتفاصيل الشخصية والسمات اللغوية غير الرسمية بشكل منهجي. يتم تقييم المخرجات بواسطة نموذجين لغويين كبيرين مستقلين، بالا ٕ ضافة إلى تقييم بشري مكمّل. تُظهر المقارنة الثنائية أن المخرجات المعتمدة على الملفات الشخصية الأصلية تكاد تكون غير قابلة للتمييز عن النصوص البشرية الأصلية، مما يشير إلى أن النماذج اللغوية الحديثة قادرة على إعادة إنتاج أسلوب الكاتب بدقة عالية عند توفر بيانات كافية. في المقابل، ينخفض تفضيل مخرجات النموذج عند استخدام ملفات شخصية مُجهّلة إلى متوسط 13. %0، في حين يظل الحفاظ على المعنى مرتفعًا بنسبة 94. 8 كما تؤكد دراسة باستخدام مقيّمين بشريين النمط نفسه. تكشف هذه النتائج عن وجود مفاضلة واضحة بين الخصوصية والتخصيص، وتبرز الحاجة إلى تطوير أساليب تخصيص تراعي الخصوصية، بحيث تحافظ على المعنى مع تقليل الا ٕ شارات الأسلوبية التي يمكن أن تكشف الهوية.
English Abstract
Large language model (LLM) personalization can generate user-specific text with high stylistic fidelity. However, the personal data that enables such personalization fre- quently embeds demographic, cultural, and stylistic markers raising concerns about stylometric re-identification. This paper investigates whether reducing identifiable stylistic signals affect in personalization in text generation by LLMs. Using the LaMP- 7 Twitter benchmark, we build a retrieval-augmented generation pipeline that retrieves the top 5 stylistically relevant tweets from each user profile and uses them to condition tweet paraphrase generation. Experiments on 250 sampled users compare two settings: paraphrasing conditioned on the original profile and paraphrasing conditioned on an anonymized converted profile in which demographic identifiers, cultural references, personal details, and informal linguistic cues have been systematically neutralized. Outputs are assessed by two independent LLM judges and a complementary human evaluation. Pairwise evaluation shows that outputs conditioned on original profiles are nearly indistinguishable from human-authored ground truth, indicating that modern LLMs can closely reproduce an author’s writing style with sufficient fidelity. In con- trast, preference for model outputs with anonymized profiles drops to 13.0% on average, while semantic context preservation remains high at 94.8%. A study with human eval- uators confirms the same pattern. These findings reveal a clear privacy-personalization trade-off and highlight the need for privacy-aware personalization methods that retain meaning while suppressing identifying stylistic signals.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Computer |
| Department: | College of Computing and Mathematics > Information and Computer Science |
| Thesis Advisor: |
Omar Hammad,
|
| Thesis Committee Members: |
Hamzah Luqman,
Hamzah Luqman,
Mansour Alharthi,
Mansour Alharthi,
|
| Depositing User: | MUHAMMED AREFIN |
| Date Deposited: | 07 Jun 2026 05:26 |
| Last Modified: | 07 Jun 2026 05:26 |
| URI: | https://eprints.kfupm.edu.sa/id/eprint/144503 |