چکیده
این کار به مطالعه اثربخشی بسط پرس و جو برای جستجوی ایمیل می پردازد. در این مقاله سه روش جدید برای بسط پرس و جو مورد بررسی قرار گرفته است: 1) مدل توسعه بر مبنای ترجمه کلی ، 2) مدل تعبیه کلمه شخصی ، 3) مدل بازخورد شبه مرتبط کلاسیک . در این رابطه، آزمایشاتی با دو مجموعه داده استخراج شده از لاگ پرس و جوی بزرگ سرویس وب میل، انجام شد. نتایج بدست آمده، کمک مهم بسط پرس و جو به اندازه گیری تشابه بین پرس و جو و پیغام های ایمیل را نشان می دهد. از طرف دیگر، کمک روشهای بسط به تابع نمره گذاری یادگیری رتبه بندی درست آموزش دیده با استفاده از سیگنالهای مرتبط زیاد، نسبتاً کم بوده است.
1. مقدمه
اخیراً، جستجوی داده های ایمیل، مورد توجه زیادی قرار گرفته و جامعه تحقیق تلاشهای گوناگونی در جهت استفاده از پارادایم های به روز برای جستجوی ایمیل انجام داده است. در این پارادایم ها، ربط پیغام با پرس و جو با استفاده از تابع نمره گذاری پیچیده ای برآورد شده است که بسیاری از سیگنالهای مرتبط، من جمله تازگی پیغام، تشابه متنی با پرس و جو، تعامل کاربر با پیغام و بسیاری از سیگنالهای دیگر را مد نظر قرار می دهد. اما، پرس و جوهای بی نهایت کوتاه ایمیل ، به محدودیتی جدی برای برآورد درست ربط پیغام با پرس و جو تبدیل می شوند. طول متوسط پرس و جو برروی وب در حدود سه واژه درهر پرس و جو، و در حوزه ایمیل فقط 5. 1 واژه در هر پرس و جو است. تکنیک های بسط پرس و جو، که پرس و جوی اصلی کاربر را با واژه های مرتبط بسط می دهند، احتمالاً به مسئله پرس و جوی کوتاه در جستجوی ایمیل رسیدگی می کنند.
ABSTRACT
This work studies the effectiveness of query expansion for email search. Three state-of-the-art expansion methods are examined: 1) a global translation-based expansion model; 2) a personalized-based word embedding model; 3) the classical pseudo-relevance-feedback model. Experiments were conducted with two mail datasets extracted from a large query log of a Web mail service. Our results demonstrate the significant contribution of query expansion for measuring the similarity between the query and email messages. On the other hand, the contribution of expansion methods for a well trained learning-to-rank scoring function that exploits many relevance signals, was found to be modest.
1 INTRODUCTION
Searching over email data has attracted a lot of attention recently and several attempts have been made by the research community to apply up-to-date ranking paradigms for email search [2, 4]. In these paradigms, the relevance of the message to the query is estimated by a complicated scoring function that considers many signals of relevance, including the message freshness, the textual similarity to the query, the user interaction with the message, and many more signals [2]. However, email queries which are extremely short become a severe limitation for an accurate estimation of message relevance to the query. While the average query length on the Web is about three terms per query, the average length in the email domain is only 1.5 terms per query [2]. qyery expansion techniques which expand the user’s original query with related terms can presumably deal with the short query problem in email search.
چکیده
1. مقدمه
2. مدلهای بسط
1. 2 مدل ترجمه
2. 2 بسط پرس و جوی شخصی
3. 2 بازخورد شبه مرتبط
4. 2 مدل رتبه بندی
3. آزمایشات
1. 3 راه اندازی آزمایش
2. 3 نتایج آزمایش
4. نتایج
ABSTRACT
1 INTRODUCTION
2 EXPANSION MODELS
2.1 Translation Model
2.2 Personalized query expansion
2.3 Pseudo Relevance Feedback
2.4 Ranking Model
3 EXPERIMENTS
3.1 Experimental Setup
3.2 Experimental Results
4 CONCLUSIONS