KFUPM ePrints

English to Arabic Machine Translation Using a Phrase-based Approach

l English to Arabic Machine Translation Using a Phrase-based Approach. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]PDF (English to Arabic Machine Translation Using a Phrase-based Approach) - Accepted Version
2903Kb

Arabic Abstract

تعد ترجمة اللغة الطبيعية بواسطة الطرق الإحصائية مسألة من مسائل التعلم الآلي ، حيث تتعلم خوارزميات الطريقة الإحصائية كيفية الترجمة تلقائيا بالاعتماد على العبارات اللغوية المترجمة بطريقة يدوية من عدة مترجمين. نناقش في هذه الأطروحة استخدام الطريقة الإحصائية المعتمدة على العبارات اللغوية في عملية الترجمة من اللغة الإنجليزية إلى اللغة العربية باستخدام مكنز ثنائي اللغة. تتكون هذه الطريقة الإحصائية في عملية الترجمة من مرحلتين رئيسيتين هما مرحلة التدريب ومرحلة النقل. يتم في المرحلة الأولى بناء النموذج الإحصائي اللغوي ونموذج الترجمة، ويتم في المرحلة الثانية اختيار أجود ترجمة ممكنة اعتمادا على عملية البحث الشامل. قمنا من خلال هذه الأطروحة ببناء مكنز لغوي يغطي مواضيع متنوعة بالاعتماد على البيانات اللغوية المستخلصة من موقع ميدان. كما قمنا بمقارنة نتائج الترجمة المعتمده على مكنز ميدان مع نتائج مكانز لغوية اخرى مثل مكنز الامم المتحدة ومكنز اتحاد البيانات اللغوية في جامعة بنسلفانيا LDC. حيث تمت هذه المقارنة باستخدام أداء BLEU . وخلال التجارب تبين لنا ان مكنز ميدان عموما يتفوق على المكانز الاخرى . أيضا قمنا بالمقارنة بين Moses decoder و Pharaoh decoder .واستنتجنا أنه بالرغم من أن وقت استجابة Pharaoh decoder هو أفضل من Moses decoder ، إلا أن جودة الترجمة عند استخدام Moses decoder أفضل من Pharaoh decoder.

English Abstract

Statistical machine translation (SMT) treats the translation of natural language as a machine learning problem. By examining many samples of human-produced translations, SMT algorithms automatically learn how to translate. In this thesis, we discuss the automatic machine translation from English to Arabic using a statistical phrase-based approach employing a parallel Arabic-English corpus that was developed manually by more than one translator. Statistical machine translation (SMT) consists of two phases: The training phase and the decoding phase. In the training phase, the statistical language model and the translation model are built. In the decoding phase, the best possible translation is chosen depending on a comprehensive search process. We built a sizable parallel corpus spanning various categories of topics from the Meedan website, and later compared the results of Meedan with that of the other two corpora: LDC and UN. The performance was compared based on the Bilingual Evaluation Understudy (BLEU). Our experimentation shows that, overall, the Meedan corpus outperformed the other two corpora in most categories. We, also, compared the performance of the Moses decoder and the Pharaoh decoder. We conclude that although the response time for the pharaoh decoder is better than that of the Moses decoder, the quality of the translation of the Moses decoder exceeds that of the Pharaoh decoder.



Item Type:Thesis (Masters)
Subjects:Computer
General
Divisions:College Of Computer Sciences and Engineering > Information and Computer Science Dept
College Of Computer Sciences and Engineering > Systems Engineering Dept
Committee Advisor:Al-Khatib, Dr. Wasfi
Committee Members:Elshafei, Dr. Moustafa and Al-Muhtaseb, Dr. Husni
ID Code:138583
Deposited By:(g200806140)
Deposited On:29 Jan 2012 09:29
Last Modified:29 Jan 2012 09:29

Repository Staff Only: item control page