Hide keyboard shortcuts

Hot-keys on this page

r m x p   toggle line displays

j k   next/prev highlighted chunk

0   (zero) top of page

1   (one) first highlighted chunk

1# -*- coding: utf-8 -*- 

2""" 

3@file 

4@brief Jeux de données reliés aux vins. 

5""" 

6import os 

7from sklearn.datasets import load_svmlight_file 

8from .data_helper import get_data_folder 

9 

10 

11def load_search_engine_dataset(train_or_test=True): 

12 """ 

13 Retourne un très petit échantillon tiré de 

14 `Microsoft Learning to Rank Datasets 

15 <https://www.microsoft.com/en-us/research/project/mslr/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fprojects%2Fmslr%2F>`_. 

16 Vu le nombre de features, le petit nombre de requêtes, il est impossible 

17 d'apprendre un bon modèle, cela permet néanmoins de tester son code. 

18 La fonction retourne les features d'abord puis les labels. 

19 Notebooks associés à ce jeu de données : 

20 

21 .. runpython:: 

22 :rst: 

23 

24 from papierstat.datasets.documentation import list_notebooks_rst_links 

25 links = list_notebooks_rst_links('lectures', 'search') 

26 links = [' * %s' % s for s in links] 

27 print('\\n'.join(links)) 

28 

29 @param train_or_test True for train, False for test 

30 @return :epkg:`numpy:csr_matrix`, :epkg:`numpy:array` 

31 

32 La fonction utilise `load_svmlight_file <http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_svmlight_file.html>`_ 

33 pour lire le fichier. Cette option ne permet l'ouverture de gros fichiers, 

34 en particulier façon streaming. 

35 """ 

36 fold = get_data_folder() 

37 if train_or_test: 

38 data = os.path.join(fold, 'search_tiny_train.txt') 

39 else: 

40 data = os.path.join(fold, 'search_tiny_test.txt') 

41 df = load_svmlight_file(data, query_id=True) 

42 return df