Google Scholar - zaawansowane narzędzia wyszukiwania

W lutym 2017 roku E. Orduna-Malea, A. Martin-Martin i E.D. Lopez-Cozar opublikowali w archiwum internetowym arXiv preprint artykułu “Google Scholar and the Grey Literature: Reply to Bonato's Interview”. W zamyśle autorów stanowi on odpowiedź na artykuł S. Bonato, “Google Scholar and Scopus for finding gray literature publications”, opublikowany w 2016 roku w Journal of the Medical Library Association, a zwłaszcza, na ten fragment artykułu, w którym Bonato wskazuje na możliwe ograniczenia w odnajdywaniu w Google Scholar pewnego typu publikacji w określonego rodzaju kontekstach. Odpowiedź (odrzucona przez Journal of the Medical Library Association) wskazuje na niektóre strategie i narzędzia wyszukiwania, jakie może obrać użytkownik, by, wbrew sugestiom Bonato, odnaleźć jednak w Google Scholar pożądane publikacje. W niniejszym tekście chciałbym streścić te spostrzeżenia, które dotyczą prezentacji zaawansowanych narzędzi wyszukiwania w Google Scholar. Mogą się one okazać przydatne nie tylko w kontekście odnajdywania szarej literatury. Niniejszy przegląd pozwoli też przyjrzeć się procesowi budowania zapytania przez Google Scholar w oparciu o wprowadzone słowa kluczowe.

Ryc.1

Wspólną cechą wymienionych poniżej narzędzi jest to, że wszystkie one znacząco zawężają liczbę prezentowanych przez Google Scholar wyników. Wspólnym wnioskiem [Bonato 2016] i [Orduna-Malea i in. 2017] jest spostrzeżenie, że obszerność wyników wyszukiwania Google Scholar ze względu na ogromne rozmiary dostępnej biblioteki tekstów naukowych może w znaczącym stopniu utrudnić odnalezienie tych rekordów, których się poszukuje. Dzieje się tak ze względu na specyfikę działania głównego paska wyszukiwania. Wyszukiwanie proste polega na wprowadzeniu przez użytkownika ciągu słów kluczowych. Google Scholar najpierw eliminuje z zapytania spójniki, a następnie prezentuje wyniki, wśród których dowolne z wprowadzonych słów kluczowych znajduje się w dowolnym z następujących miejsc: tytuł publikacji, imię i nazwisko autora, czasopismo, wydawca, tekst publikacji (jeśli publikacja jest przeszukiwalna pełnotekstowo), bibliografia, afiliacja autora i inne. Na początku prezentowanych wyników znajdować się będą linki do profili zarejestrowanych w Google Scholar autorów, o ile imię i nazwisko będą pasować do dowolnego słowa kluczowego. Wyniki prezentowane będą tak, jakbyśmy połączyli wszystkie wprowadzone słowa kluczowe spójnikami logicznymi OR (alternatywa logiczna), tj. zbiór prezentowanych wyników będzie sumą zbiorów wyników dla wszystkich wprowadzonych słów kluczowych (z preferencją trafności, to znaczy elementy zawarte w części wspólnej wymienionych zbiorów zostaną zaprezentowane wcześniej, niż elementy zawarte w jednym z nich, a nie zawarte w innych). Zauważmy, że w większości przypadków prezentowane wyniki spełniają oczekiwania użytkownika, zwłaszcza jeśli z góry zna on tytuł lub autora poszukiwanej publikacji. Istnieją jednak takie konteksty, w których wśród prezentowanych przez Google Scholar wyników prostego wyszukiwania obecna będzie duża ilość szumu. Przykład takiego kontekstu podaje właśnie [Bonato 2016]: poszukiwania publikacji pokonferencyjnych (z konkretnego roku) w sytuacji, w której znamy tylko tytuł cyklicznej konferencji. Jak podpowiada [Orduna-Malea 2016], zaawansowane narzędzia wyszukiwania przychodzą nam na pomoc właśnie w takich sytuacjach. Przyjrzyjmy im się po kolei.

Posłużmy się następującym przykładem. Załóżmy, że na pasku wyszukiwania wprowadziliśmy słowo kluczowe 'mickiewicz'. Prezentowane przez Google Scholar wyniki będą zawierać wszystkie spośród wymienionych elementów:

  • publikacje z zakresu medycyny, w których jednym z autorów jest E. Mickiewicz;
  • publikacje z zakresu ekonomii, w których jednym z autorów jest T. Mickiewicz;
  • b. wysoko cytowany artykuł "Block copolymer nanocomposites: perspectives for tailored functional materials" (jednym z autorów jest R.A. Mickiewicz);
  • artykuły wielu innych autorów o nazwisku Mickiewicz;
  • cytowania książki "Adam Mickiewicz. Dzieła" Gubrynowicza i Schmidta (1885);
  • Książki Adama Mickiewicza (z books.google.com): "Dziady", "Księgi narodu polskiego i pielgrzymstwa polskiego" itd.;
  • Adam Sikora, "Posłannicy słowa: Hoene-Wroński, Towiański, Mickiewicz", PWN 1967; Tadeusz Sinko, "Mickiewicz i antyk", Ossolineum 1957 itp.;
  • publikacje Uniwersytetu im. Adama Mickiewicza w Poznaniu.

Przykład jest oczywiście trochę sztuczny: przeciętny użytkownik dysponuje zazwyczaj znacznie skuteczniejszymi strategiami wyszukiwania, nawet bez użycia zaawansowanych narzędzi. Zobaczmy jednak, w jaki sposób poszczególne zaawansowane narzędzia wyszukiwania zmienią prezentowane przez Google Scholar wyniki.
Pojedynczym cudzysłowem zaznaczał będę poniżej tekst, jaki wpisujemy do danego paska wyszukiwania, np. 'duży dom' oznacza, że do paska wyszukiwania wprowadzamy to, co znajduje się między znakami ', tj. ciąg znaków d-u-ż-y-spacja-d-o-m. W szczególności odróżnić należy pojedynczy cudzysłów od podwójnego cudzysłowu (np. "duży dom"). Ponieważ cudzysłów posiada w wyszukiwaniach Google swoje znaczenie, zapytanie 'duży dom' jest znacząco różne od zapytania "duży dom" (o szczegółowym charakterze tej różnicy poniżej).

1. Komenda 'allintitle'
Zamiast 'mickiewicz' w pasek wyszukiwania wprowadzamy 'allintitle:mickiewicz'.
Google Scholar prezentuje nam wyłącznie wyniki, w których tytule zawarte jest słowo 'Mickiewicz' (czyli np. Alina Witkowska, "Mickiewicz, słowo i czyn", PWN 1998).
Uwaga: 'allintitle: adam mickiewicz' zadziała tak, jakby słowa "adam" i "mickiewicz" były połączone spójnikiem logicznym AND (koniunkcja logiczna), tj. wśród wyników znajdziemy "Adam Mickiewicz: zarys bibliograficzny", ale nie znajdziemy "Mickiewicz i antyk". 'allintitle: adam mickiewicz' oraz 'allintitle: mickiewicz adam' zwracają te same zbiory wyników (prezentowane wyniki mogą się różnić jednak kolejnością wyświetlania).

2. Komenda 'site'
Załóżmy, że zależy nam na publikacjach uniwersytetu Adama Mickiewicza. W takim wypadku wprowadzenie w pasek wyszukiwań ciągu znaków 'site:repozytorium.amu.edu.pl' zwróci wszystkie te i tylko te rekordy, które pochodzą z repozytorium Uniwersytetu Adama Mickiewicza. Zapytanie 'site:mickiewicz' - lub w ogólności, jakikolwiek ciąg znaków, który nie jest dokładnym adresem domeny internetowej - nie zwróci żadnych wyników).

3. Komenda 'author'
Zapytanie 'author:mickiewicz', jak można się domyślać, powinno w wynikach zwracać wyłącznie artykuły, których autor ma na nazwisko Mickiewicz. Zwraca jednak również (jako cytowania) artykuły, w których bibliografii pojawia się autor o nazwisku Mickiewicz. Uwaga na spację: zapytanie 'author: adam mickiewicz' zwraca jako cytowania artykuły, których autor ma w afiliacji Uniwersytet im. Adama Mickiewicza. Zapytanie 'author:adam mickiewicz' zwraca, zgodnie z oczekiwaniami, rekordy autorstwa Adama Mickiewicza.

4. Cudzysłów
Zapytanie 'adam mickiewicz', jak wspominaliśmy powyżej, zwróci nam wyniki tak, jakbyśmy połączyli słowa "adam" i "mickiewicz" spójnikiem logicznym OR. Zapytanie "adam mickiewicz" zwróci nam tylko te wyniki, które zawierają ciąg znaków “Adam Mickiewicz” w dowolnym fragmencie artykułu lub metadanych. Kolejność jest ważna – zapytanie “Adam Mickiewicz” jest różne od “Mickiewicz Adam” (odwrotnie niż w przypadku użycia spójnika logicznego AND – tam kolejność nie ma znaczenia).

5. Okienko zaawansowanego wyszukiwania
Okienko to dostępne jest po kliknięciu strzałki w dół obecnej po prawej stronie paska wyszukiwania na głównej stronie Google Scholar (patrz ryc. 1). Przyjrzyjmy się wszystkim elementom tego okienka po kolei (patrz ryc. 2). Pierwszy pasek pozwala użyć spójnika AND (koniunkcja logiczna): wpisanie 'adam mickiewicz' daje ten sam efekt, co wpisanie 'adam AND mickiewicz' w pasek wyszukiwania prostego.

Ryc.2


Drugi pasek pozwala użyć wyrażenia. Wpisanie w ten pasek słów kluczowych ma ten sam efekt, co wpisanie w pasek wyszukiwania prostego tych samych słów kluczowych otoczonych cudzysłowem (patrz punkt 4).
Trzeci pasek pozwala użyć spójnika logicznego OR (alternatywa logiczna). Wpisanie weń ciągu słów kluczowych daje taki sam efekt, co wpisanie ich w pasek wyszukiwania prostego.
Czwarty pasek pozwala użyć spójnika logicznego NOT (negacja). Wpisanie weń 'mickiewicz' sprawi, że ze zbioru wyników zostaną wyeliminowane te, które zawierają słowo kluczowe 'mickiewicz'.
Pod czwartym paskiem możemy wybrać opcję (w trybie 'radio', tzn. zawsze musi być wybrana dokładnie jedna z podanych opcji), czy słowa kluczowe wprowadzone powyżej mają być szukane w dowolnym miejscu artykułu, czy tylko w tytule. Użycie opcji "w tytule" daje taki sam efekt, co użycie komendy 'allintitle' (patrz punkt 1.)
Piąty pasek pozwala nam zawęzić wyszukiwanie do imienia i nazwiska autora. Wprowadzenie weń ciągu słów kluczowych daje ten sam efekt, co zastosowanie komendy 'author:' (patrz punkt 3.)

Powyższe opcje dostępne w okienku zaawansowanego wyszukiwania mają swoje ścisłe odpowiedniki w komendach dostępnych w pasku wyszukiwania prostego. Wpisanie do pierwszego paska "adam mickiewicz", do czwartego "Dziady" i zaznaczenie opcji "w tytule" daje ten sam efekt, co wpisanie do paska wyszukiwania prostego ciągu znaków 'allintitle:(adam AND mickiewicz) NOT Dziady'. Obsługa okienka zaawansowanego wyszukiwania może być jednak odbierana jako prostsza, gdyż nie wymaga znajomości brzemienia poszczególnych komend i uodparnia wyszukiwanie na literówki oraz pomyłki w zakresach nawiasów.

W dwóch następnych punktach wymienię te elementy okienka zaawansowanego wyszukiwania, które nie mają swoich ścisłych odpowiedników w komendach wpisywanych do paska wyszukiwania prostego.

6. pole "Publikacja"
Pole to pozwala wybrać spośród dostępnych wyników tylko te, które zostały opublikowane przez określone wydawnictwo.

7. Pole "Data publikacji"
Pole to pozwala zawęzić wyniki do rekordów publikowanych w wybranym przedziale czasowym. Liczy się, oczywiście, data publikacji uwzględniona w metadanych, a nie data zdeponowania artykułu w danym repozytorium lub na danej stronie internetowej wydawnictwa.

8. Opcja wyłączenia patentów i cytowań spośród prezentowanych wyników.
(patrz ryc. 3)
Prosta opcja, lecz często się ją przeocza. Pozwala na wyeliminowanie spośród prezentowanych wyników zarówno patentów, jak i cytowań. To ostatnie jest przydatne zwłaszcza w kontekstach podobnych do opisanego w punkcie 3.

 

Ryc. 3

 

Zaawansowane narzędzia wyszukiwania Google Scholar są bardzo podobne do zaawansowanych narzędzi głównego Google – również pod tym względem, że często zapominamy o ich istnieniu. Są przy tym dość dobrze dopasowane do specyfiki artykułów naukowych – praktycznie wszystkie rodzaje metadanych są w nich uwzględnione na tyle, by znacząco ułatwić życie każdego użytkownika (może przydałaby się jeszcze opcja odfiltrowania książek tak, jak odfiltrowuje się cytaty i patenty). Są one oczywiście mniej zaawansowane od tego, do czego przyzwyczaiły nas bazy bibliograficzne i biblioteki: brakuje przede wszystkim wyszukiwania semantycznego - nawet termin “słowo kluczowe” nie oznacza słowa kluczowego w sensie, w jakim ten termin używany jest w dziedzinie informacji naukowej i bibliotekoznawstwa, a raczej jakikolwiek ciąg znaków (oddzielony spacjami), wprowadzony do wyszukiwarki. Mimo wszystko Google Scholar pozwala korzystać z ogromnego indeksu zgromadzonych w nim zasobów.

Tomasz Lewandowski

 

Additional information