Kako koristiti "Ngram Viewer" alat u Google knjigama

Ngram, koji se obično naziva N-gram, predstavlja statističku analizu teksta ili govora kako bi pronašli n (broj) nekakve stavke u tekstu. To bi moglo biti sve vrste stvari, kao što su fonemi, prefiksi, fraze ili slova. Iako je N-gram nešto nejasan izvan istraživača, on se zapravo koristi u različitim oblastima i ima mnogo implikacija za ljude koji rade računarske programe koji razumeju i reaguju sa prirodnim govornim jezikom. To bi, u suštini, bilo interesovanje Googlea za tu ideju.

U slučaju Google Books Ngram Viewer, tekst koji se analizira dolazi iz ogromne količine knjiga koje je Google skenirao u javnim bibliotekama kako bi popunili svoj pretraživač Google knjiga . Za Google Books Ngram Viewer, oni se odnose na tekst koji ćete pretraživati ​​kao "korpus". Kipar u Ngram Vieweru deli se po jeziku, mada možete zasebno analizirati britanski i američki engleski ili ih zajedno spojiti. Završava se super zanimljiv prelazak sa britanske na američku upotrebu termina i promena grafikona.

Kako Ngram radi

  1. Idite na Google Books Ngram Viewer na books.google.com/ngrams.
  2. Stavke su osjetljive na veličinu slova, za razliku od Google Web pretraživanja, zato budite sigurni da kapitalizujete ispravne imenike.
  3. Ukucajte bilo koju frazu ili fraze koje želite analizirati. Obavezno odvojite svaku frazu sa zarezom. Google sugeriše, "Albert Ajnštajn, Šerlok Holms, Frankenštajn" da biste započeli.
  4. Zatim upišite vremenski period. Podrazumevana vrednost je od 1800 do 2000, ali postoje još skorašnje knjige (2011. je najnovija navedena u Googleovoj dokumentaciji, ali se to možda promenilo.)
  5. Izaberi korpus. Možete pretraživati ​​tekstove stranih jezika ili engleske, a pored standardnih izbora, na dnu možete primetiti stvari poput "Engleski (2009) ili Američki engleski (2009)". Ovo su stariji korpusi od kojih je Google još više ažuriran, ali možda imate neki razlog da napravite upoređivanje sa starim setovima podataka. Većina korisnika ih može ignorisati i fokusirati se na najnovije korpore.
  6. Podesite nivo poravnanja. Glatko se odnosi na to koliko je glatko grafikon na kraju. Najtačnija reprezentacija bi bila nivo poravnanja od 0, ali može biti teško čitati. Podrazumevano je postavljeno na 3. U većini slučajeva ne morate da ga podesite.
  1. Pritisnite taster za pretragu puno knjiga . (Takođe možete kliknuti samo na unos u tražilu za pretragu.)

Šta se Ngram pokazuje?

Google Books Ngram Viewer će izvesti grafikon koji predstavlja upotrebu određene fraze u knjigama kroz vreme. Ako ste uneli više od jedne reči ili fraze, videćete linije u boji kako biste upoređivali različite pojmove za pretraživanje. Ovo je prilično slično Google trendovima , samo pretraživanje pokriva duži vremenski period.

Evo primera stvarnog života. Bili smo radoznali zbog pita za sirće nedavno. Spomenute su u Lauri Ingalls Wilderovoj Little House u seriji Prairie , ali nikada nismo čuli za takvu stvar. Prvo smo koristili Googleovu pretragu Weba kako bismo saznali više o pitećim sirćetom. Očigledno, oni se smatraju delom američke Južne kuhinje i stvarno su napravljeni od sirćeta. Oni se čuvaju unazad kada nisu svi imali pristup svežem proizvodu tokom čitave godine. Da li je to cela priča?

Tražili smo Google Ngram Viewer, a postoje i pominjanja kolača u ranim i kasnim 1800-im, puno pomena u 1940-im i sve veći broj pominjanja u poslednje vreme (možda i neke pite nostalgije.) Pa, problem sa podacima na ravnomernom nivou 3. Na 1800. godini postoji visoka visina. Sigurno nije bilo jednak broj pominjanja jedne pite svake godine pet godina? Ono što se dešava je to što u to doba nije pušteno puno knjiga, a zbog toga što su naši podaci postavljeni da budu glatki, to iskrivljuje sliku. Verovatno je postojala jedna knjiga koja je pominjala pitu od oštre, i upravo je postala u proseku da bi se izbegao klasik. Postavljanjem pomeranja na 0, vidimo da je upravo to slučaj. Krug se kreće 1869. godine, a 1897. i 1900.

Zar niko nije pričao o oku pitu ostatak vremena? Verovatno su pričali o tim pite. Bilo je vjerovatno da su recepti plutajući po celom mjestu. Oni jednostavno nisu pisali o njima u knjigama, a to je ograničenje ovih Ngram pretraživanja.

Napredna pretraga Ngrama

Sećate li se kako smo rekli da se Ngram mogu sastojati od različitih tekstualnih pretraga? Google vam dozvoljava da se malo smanjite i sa Ngram Viewer-om. Ako želite da pretražite ribu glagol umesto ribe imenice, to možete učiniti koristeći oznake. U ovom slučaju, tražili biste "fish_VERB"

Google pruža kompletnu listu komandi koje možete koristiti i druge napredne dokumentacije na njihovoj web lokaciji.