چکیده
هدف این مقاله انجام مطالعه ای بر روی رویکرد لیست محور برای یادگیری رتبه بندی می باشد. این رویکرد، یک تابع رتبه بندی را با در نظر گرفتن لیست های فردی به صورت نمونه و کمینه سازی تابع زیان تعریف شده در لیست واقعی و پیش بینی شده آموزش می دهد. کار های موجود در خصوص این رویکرد بر توسعه الگوریتم های جدید متمرکز است و روش هایی نظیر RankCosine وListNetپیشنهاد شده اند و عملکرد خوب آن ها مشاهده شده است. متاسفانه، تئوری اصلی و اولیه به طور کامل مطالعه نشده است. برای حل مسئله، این مقاله یک تحلیل نظری بر روی یادگیری جهت رتبه بندی الگوریتم را از طریق بررسی ویژگی های تابع زیان، مشتق پذیری، تحدب و نیز کارایی پیشنهاد می کند. یک شرط کافی برای پیوستگی رتبه بندی ارایه شده است که این مقاله تحلیلی را بر روی سه تابع زیان انجام می دهد. زیان احتمالی، زیان کوسینوس و زیان انتروپی. دو مورد اخیر در RankCosine وListNetمورد استفاده قرار می گیرند. کاربرد زیان احتمالی منجر به توسعه یک روش موسوم بخ LISTMLE شده است که تابع زیان آن ویژگی های بهتری را ارایه کرده و منجر به نتایج ازمایشی بهتر می گردد.
1- مقدمه
رتبه بندی، که به معنی مرتب کردن اشیا بر اساس عوامل خاص می باشد یکی از مسائل اصلی در زمینه هایی نظیر بازیابی اطلاعات و فیلترینگ اطلاعات می باشد. اخیرا روش های یادگیری ماشینی موسوم به یادگیری رتبه بندی، به طور موفق استفاده و پیشنهاد شده اند از جمله روش های نقطه ای، زوجی و لیستی. رویکرد لیستی از مسئله رنبه بندی به روش زیر استفاده می کند. در فرایند یادگیری، فهرست اشیا به صورت نمونه هایی رتبه بندی شده و سپس یک تابع رتبه بندی از طریق کمینه سازی تابع زیان اموزش را انجام می دهد. رویکرد لیستی مسائل رتبه بندی را در نظر می گیرد. ازمایشات قبلی نشان می دهد که رویکرد لیستی معمولا عملکرد بهتری از رویکرد های دیگر دارد( کایو 2007).
Abstract
This paper aims to conduct a study on the listwise approach to learning to rank. The listwise approach learns a ranking function by taking individual lists as instances and minimizing a loss function defined on the predicted list and the ground-truth list. Existing work on the approach mainly focused on the development of new algorithms; methods such as RankCosine and ListNet have been proposed and good performances by them have been observed. Unfortunately, the underlying theory was not sufficiently studied so far. To amend the problem, this paper proposes conducting theoretical analysis of learning to rank algorithms through investigations on the properties of the loss functions, including consistency, soundness, continuity, differentiability, convexity, and efficiency. A sufficient condition on consistency for ranking is given, which seems to be the first such result obtained in related research. The paper then conducts analysis on three loss functions: likelihood loss, cosine loss, and cross entropy loss. The latter two were used in RankCosine and ListNet. The use of the likelihood loss leads to the development of a new listwise method called ListMLE, whose loss function offers better properties, and also leads to better experimental results.
1. Introduction
Ranking, which is to sort objects based on certain factors, is the central problem of applications such as information retrieval (IR) and information filtering. Recently machine learning technologies called ‘learning to rank’ have been successfully applied to ranking, and several approaches have been proposed, including the pointwise, pairwise, and listwise approaches. The listwise approach addresses the ranking problem in the following way. In learning, it takes ranked lists of objects (e.g., ranked lists of documents in IR) as instances and trains a ranking function through the minimization of a listwise loss function defined on the predicted list and the ground truth list. The listwise approach captures the ranking problems, particularly those in IR in a conceptually more natural way than previous work. Several methods such as RankCosine and ListNet have been proposed. Previous experiments demonstrate that the listwise approach usually performs better than the other approaches (Cao et al., 2007)(Qin et al., 2007).
چکیده
1. مقدمه
2. مطالعات مربوطه
3. رویکرد لیستی
4. تحلیل نظری
4-1 ویژگی های تابع زیان
4-2 پیوستگی
4-3 مطالعات موردی
5- LisTMLE
6- نتایج ازمایش
6-2 ازمایش بر روی داده های OHSUMED
7- نتیجه گیری
Abstract
1. Introduction
2. Related Work
3. Listwise Approach
4. Theoretical Analysis
4.1. Properties of Loss Function
4.2. Consistency
4.3. Case Studies
5. ListMLE
6. Experimental Results
6.1. Experiment on Synthetic Data
6.2. Experiment on OHSUMED Data
7. Conclusion