Cum să preluați rapid date din Google Search și Google Analytics în R?

SEO
Sebastian MioduszewskiSebastian Mioduszewski
Publicat: 01.04.2021
18 minute

În acest articol, vom analiza cum să extragem date din cele mai importante instrumente Google pentru orice SEO – Google Analytics (de asemenea, în cea mai recentă versiune, adică v4) și Google Search Console. Vom începe cu cifrele care ne sunt necesare zilnic. În plus, vom folosi instrumente gata făcute și gratuite, care sunt bibliotecile: searchConsoleR și googleAnalyticsR.

.
Din acest articol veți învăța:

  • Cum se instalează bibliotecile necesare?

    .

  • Cum să nu instalați bibliotecile pe care le aveți deja?

  • .

  • Cum să descărcați date din Google Analytics (inclusiv cea mai recentă versiune – v4)?

  • .

  • Cum se colectează date din panoul Google Webmaster Tools?

  • .

  • Cum să începi să folosești API-urile furnizate de Google?

  • .

După ce ați citit postul anterior, vă amintiți deja (dacă nu, vă invit să citiți – Limbajul de programare R pentru fiecare SEO. Poziționează, programează și urmărește rezultatele):

  • Ce este R și cum vă va ajuta în activitatea dumneavoastră

    .

  • Ce sunt bibliotecile din R (și de ce aveți nevoie de ele)

  • .
Principalele concluzii
  • Pentru a extrage date din Google Analytics și Google Search Console, este necesar să instalați bibliotecile searchConsoleR și googleAnalyticsR, verificând mai întâi dacă acestea sunt deja prezente pe sistemul dvs.
  • Autorizarea accesului la datele din Google Search Console se face prin intermediul comenzii scr_auth(), care va permite aplicației să interacționeze cu contul dvs. Google.
  • Descărcarea datelor din Google Analytics, inclusiv versiunea v4, necesită utilizarea bibliotecii googleAnalyticsR și înțelegerea dimensiunilor și metricelor pentru a structura corect interogările.
  • Pentru a depăși limitările Google Search Console, puteți folosi opțiuni precum gruparea pe loturi, permițând descărcarea de date în tranșe de până la 25.000 de rânduri.
  • Utilizarea limbajului R și a instrumentelor precum Analiza de Vizibilitate Senuto poate transforma provocările SEO și de marketing de conținut în pași concreți către succes.

Obținem date din Google Search Console

.
Pentru a utiliza biblioteca din R, trebuie să o instalăm (puteți să ocoliți acest lucru, dar vă recomand să o instalați) și să o încărcăm în memorie (exact în această ordine). Procesul de instalare durează, în majoritatea cazurilor, până la o duzină de secunde. Chiar și așa, în codul de mai jos, vom verifica mai întâi dacă nu aveți deja bibliotecile care ne interesează. Dacă da, vom trece direct la pasul doi, care constă în încărcarea bibliotecii selectate în memoria de operare a computerului.

Pasul 1. Următorul cod scrie numele bibliotecii de care avem nevoie sub forma unui vector (ghid de tip de date în R: https://towardsdatascience.com/data-types-in-r-8124c3b2afe6):

packages <- c("searchConsoleR"," googleAnalyticsR")

.
cod 1.1

Etapa 2. Verificați dacă bibliotecile necesare sunt instalate pe computerul dumneavoastră (dacă una dintre bibliotecile necesare nu este instalată, se instalează)

install.packages(setdiff(packages, rownames(installed.packages())))

cod 1.2

Etapa 3. Autorizare. Acest lucru se explică de la sine, dar merită să vă reamintim că în acest fel vom avea acces doar la datele site-ului care sunt disponibile în contul nostru din Search Console.

Facem acest lucru folosind o comandă simplă:

scr_auth()

.
cod 1.3

Codul pentru pașii 1, 2 și 3 este disponibil aici. .

Următorii pași depind de faptul dacă este prima dată pe un anumit calculator când se recuperează date folosind această bibliotecă.

Prima dată este atunci când se deschide fereastra de autentificare a contului Google în browser. Instrumentul GSC utilizează autentificarea prin intermediul protocolului oAuth. Ca urmare, veți vedea fereastra standard de autentificare Google..

Google Search Console login

 

După ce v-ați logat cu succes, trebuie totuși să fiți de acord să permiteți aplicației Search Console să vă acceseze contul Google.

 

Google Search Console

 

O astfel de solicitare are loc numai în timpul primei autentificări pe un anumit dispozitiv. În timpul acesteia, este creat un fișier JSON care conține datele de conectare. Datorită acestui fapt, autentificările ulterioare au loc mult mai rapid (R descarcă deja datele de autentificare stocate în fișierul JSON).

Din acest moment, avem acces deplin la funcțiile legate de:

  • Paginile adăugate la panou (descărcarea unei liste cu toate, adăugarea unei pagini la panou, eliminarea unei pagini din panou)
  • .

  • Hărți ale site-ului (preluarea listei tuturor, adăugarea la panoul site-ului, eliminarea din panoul site-ului)

    .

  • Erori raportate în panou (descărcați exemple de erori raportate în panou, descărcați exemple de URL-uri care conțin erori raportate)

  • Vizibilitatea site-urilor noastre în Google (putem vedea aceste date în dimensiuni):

– data – aici obținem informații pentru ce zi obținem datele

– țară – date despre locația geografică a utilizatorului care a văzut site-ul dvs. în rezultatele căutării

– device type – pe ce tip de dispozitiv din rezultatele Google a avut loc afișarea (valorile disponibile sunt Desktop, Mobile, Tablet)

– pagina – o subpagină a site-ului care apare în rezultatele căutării

– fraza căutată frază – fraza, în urma căutării căreia, site-ul a fost găsit în Google

– este interesant că niciuna dintre dimensiuni nu este necesară (atunci obținem datele totale).

Funcția search_analytics, pe care urmează să o folosim, primește parametri precum: Sheck_analytics:

  • adresa URL (parametru necesar)

    .

  • start date – data de la care doriți să preluați datele (dacă setați o dată pentru care nu există date în panou, vor fi returnate pur și simplu rânduri goale)

  • .

  • end date – data până la care doriți să descărcați datele

  • tip de rezultate ale căutării, valori disponibile:

– „web” – rezultate standard de căutare

– „image” – rezultate grafice ale căutării

– „video” – rezultate de căutare Google în format video

  • walk_data – un parametru care specifică modul în care dorim să recuperăm datele. Acesta ia una dintre valorile:

byBatch – această opțiune funcționează mult mai rapid, dar returnează doar rezultatele pentru care pagina analizată a primit clicuri (adică nu este o idee bună dacă doriți să verificați câte accesări a primit o pagină pe Google – toate accesările fără clicuri vor fi eliminate)

byDate – după cum știți deja, această metodă este mai precisă, dar necesită mai mult timp (mie mi-a luat aproximativ o oră pentru a prelua informații despre 10 milioane de impresii Google). Limitarea impusă API-ului este că poate prelua până la 25.000 de rânduri la un moment dat. Din fericire, pentru cei care doresc mai multe date, este oferită o opțiune de a pune în coadă 25.000 de rânduri deodată și de a combina datele astfel colectate.

Cum să facem față limitărilor GSC?

.
Biblioteca descrisă recuperează datele folosind API GSC, astfel încât putem ocoli limitarea standard a panoului GSC care ne permite să recuperăm până la 1.000 de rânduri într-un raport. Opțiunea batching ne permite să descărcăm toate datele. După cum am descris, astfel de date sunt descărcate în loturi de până la 25.000 de rânduri.

Atunci când descărcăm date din GSC, trebuie să ținem cont de posibilitatea de a pierde o parte din date. Acest lucru se datorează faptului că, după cum explică Google, sistemul încearcă să returneze rezultatele într-un timp acceptabil. Rezultă că, în cazul unor interogări prost construite (care implică prea multe resurse Google în același timp), este posibil să se piardă unele date.

Cu cunoștințele de mai sus, putem efectua prima interogare completă a datelor GSC..

Interogare: Una dintre caracteristicile puternice ale Rstudio este indicarea automată a codului. După cum puteți vedea mai jos, acest lucru este foarte util atunci când lucrați cu biblioteca searchconsoler.

 

Rstudio

 

Cum să descărcați cantități foarte mari de date (mai mult de un milion de rânduri) din Google Search Console?

.
Descărcarea unei astfel de cantități de date necesită:

  • Utilizarea API (interfața GSC are o limitare de 1.000 de înregistrări în raport – de fapt, primele 1.000 de înregistrări, ceea ce înseamnă că, de exemplu, veți vedea doar cele mai populare fraze)

  • .
  • Aplicarea opțiunii de grupare pe loturi în gscR (deja descrisă mai sus)

  • .

  • Batchingul datelor – este nevoie de aproximativ 30 de minute pentru a descărca aproximativ 1,5 milioane de înregistrări. Cu numere mult mai mari, este posibil să avem nevoie chiar de câteva zile pentru a descărca toate datele! Soluția la această problemă este utilizarea parametrului dimensionFilterExp.

    >

Conținutul acestui parametru este format dintr-un filtru și un operator.

parametrul dimensionFilterExp

 

Filtrul poate lua una dintre valorile:

  • Country
  • Device
  • Page
  • Query

Operatorii disponibili sunt:

  • ~~~ (care înseamnă conține)
  • .

  • ==(însemnând egal)
  • .

  • !~(sensul nu conține)
  • .

  • != (sensul nu este egal)
  • .

Filtrarea ideilor:

  • Tot traficul de la dispozitivele selectate

    .

  • Tot traficul către subpaginile selectate (de exemplu, doar pagina principală)

  • Tot traficul din țara selectată (de exemplu, doar traficul din Polonia)

  • .

Filtrele, important, pot fi combinate. Exemple de filtre compuse includ:

  • Tot traficul de la un tip de dispozitiv selectat către o subpagină selectată

    .

  • Tot traficul de la utilizatorii dintr-o țară selectată pentru fraze care conțin un anumit element

Întregul script, gata de a fi copiat și rulat, este disponibil taici..

Încearcă Senuto Suite gratuit timp de 14 zile

Încearcă gratuit 14 zile

Cum să descărcați rapid date din Google Analytics (și versiunea v4) în R?

.
Pasul 1. Ca și în scriptul anterior, scriem numele bibliotecii de care avem nevoie.

packages <- c(" googleAnalyticsR")

.
Pasul 2. La fel cum am descris deja cu Google Search Console, verificăm dacă biblioteca necesară este instalată pe calculator.

install.packages(setdiff(packages, rownames(installed.packages())))

.

Începem să lucrăm serios cu API-ul Google (înscrieți-vă pentru un cont Google Cloud Platform)

.
Dorind să lucrăm serios cu API-urile puse la dispoziție de Google, ar trebui să ne creăm un cont.

Pasul 3. În acest pas, ne vom crea un cont în Google Cloud Platform. Acest lucru este necesar pentru a putea profita pe deplin de capacitățile API pentru Google Analytics. Scopul nostru va fi de a obține:

  • client secret (un șir de caractere disponibil într-un fișier pe care îl descărcăm de la GCP)
  • .

  • client ID (ID-ul utilizatorului GCP)
  • .

Pentru a face acest lucru, trebuie să:

  • Crearea unui cont gratuit pe site-ul GCP (nu voi explica acest lucru)

    .

  • Activați suportul API Google analytics pe contul dvs. de GCP.

  • .

Pentru a face acest lucru, selectați meniul API-uri și servicii.

 

Google Cloud Platform.

 

Mergeți la Enable APIs and Services (Activare API-uri și servicii).

 

Google Cloud Platform

 

Dintre cele disponibile, alegem următorul API.

 

Google analytics API

 

În continuare, din meniu, selectați Login Details.

 

Google analytics API.

 

Când suntem întrebați despre tipul de aplicație, selectăm „Aplicație informatică”.

 

Google analytics API

 

După ce completăm numele și tipul de aplicație, obținem ID-ul și cheia secretă pentru contul nostru.

 

Google analytics API

 

Următorul pas este crearea unui cont de servicii. Acest lucru ne va permite să generăm adresa necesară pentru verificarea în GA. Creăm acest cont de servicii selectând Administration > Service Accounts (Administrare > Conturi de servicii) în meniul GCP (ca mai jos).

 

Google Cloud Platform

 

Ultimul pas pregătitor este adăugarea adresei de utilizator a contului GCP (evidențiată mai jos) în tabloul de bord Google Analytics.

 

Google Analytics

 

Vom avea nevoie de ID-ul clientului și de cheia clientului pentru autentificare. Le vom salva ca variabile în R.

Ce sunt dimensiunile și metricele de date

.
Pentru cei cu experiență în lucrul cu bazele de date, diviziunea dintre fapte și dimensiuni va fi familiară. Deoarece o imagine valorează mai mult decât o mie de cuvinte, voi încerca să discut acest lucru în mod pictural.

Faptele sunt evenimente care stau la baza analizei (de exemplu, vânzări sau utilizatori de servicii).

Dimensiunile descriu faptele. Faptele pot fi defalcate în dimensiuni (de exemplu, numărul de sesiuni ale utilizatorilor).

Următoarea defalcare a datelor pentru GA (preluată din această pagină) reprezintă analiza în care:

Fact – utilizatori ai site-ului.

Dimensiunea – tipul de utilizator (aici nou sau care revine)

Metrice – numărul de utilizatori, data în format (AAAA-MM-DD adică 2021-02-15 de exemplu).

 

Dimensiuni și metrice de date

 

Acest lucru ne oferă date precum cele de mai jos:

 

date despre toți și noii utilizatori

 

Și codul R:

 

cod R

 

Întregul cod este disponibil aici.

Limitele (eșantionare și cantitatea de date) în rapoartele Google Analytics vs. API

.
Google Analytics are limitări legate de eșantionarea datelor (mai multe informații despre eșantionare aici).

Atunci când descărcăm date, putem verifica acest lucru folosind parametrul anti_sample. Utilizarea acestuia face ca sistemul să returneze date neeșantionate, dacă este posibil (adică până când ne încadrăm în limite). Următorul exemplu prezintă feedback-ul din consola R Studio, care indică faptul că raportul a fost preluat fără eșantionarea datelor.

 

anti_sample parameter

 

Date descărcate

.

Descărcați o listă cu conturile GA la care avem acces

.
Întotdeauna îmi încep munca cu GA cu acest pas. Îmi permite să verific dacă scriptul meu a obținut o conexiune la API și dacă am acces la conturile care mă interesează. Acest lucru se face prin apelarea funcției ga_account_list().

 

 

Ceea ce ne oferă un obiect numit my_acc care conține informații despre vizualizările de date și conturile GA la care avem acces. Acest lucru ne permite să creăm un obiect (în acest caz, o matrice numită data_GA) care conține toate ID-urile vizualizărilor de date și numele conturilor la care avem acces.

 

 

Acest lucru ne oferă următorul obiect:

 

ga_account_list()

 

Numărul de rezultate

.
În mod implicit, API returnează doar 100 de rezultate. Numărul de rezultate poate fi setat prin utilizarea parametrului limit. Pentru a prelua toate rezultatele, dați parametrului limit o valoare de -1.

 

numărul de rezultate în Google Analytics API

 

Fereșteri de date

.
În mod implicit, intervalul de date pe care îl recuperăm este setat prin intermediul parametrului date_range. Este posibil să selectați mai multe intervale de date.

 

Intervale de date în Google Analytics API

 

Ceea ce este foarte util, în loc să folosim date specifice (întotdeauna în format AAAA-MM-DD), putem folosi parametri universali, cum ar fi yesterday sau XXdaysAgo. Acesta returnează data cu XX zile înainte de astăzi (în locul lui XX introducem un anumit număr de zile, astfel încât, de exemplu, 7daysAgo ne oferă data de acum 7 zile).

Filtrarea datelor

.
Dorind să reducem timpul de așteptare a datelor, merită să folosim filtrarea. Acesta vă permite să preluați numai datele selectate. Filtrarea este posibilă pe două niveluri: metrici și/sau dimensiuni (pentru aceasta se folosesc parametrii met_filters – filtrare după metrici și dim_filters – filtrare după dimensiuni).

 

 

Met_filter() primește următorii parametri:

  • metric – metrica după care filtrăm (de exemplu, sesiuni)
  • .

  • operator – ia una dintre următoarele valori :
  • .

  • EQUAL” – egalează
  • .

  • LESS_THAN” – mai mic decât
  • .

  • GREATER_THAN” – mai mult decât
  • .

  • IS_MISSING” – valoare lipsă
  • .

  • >comparisonValue – valoarea metricii pe care dorim să o filtrăm sau să o eliminăm
  • .

  • not – dacă ia valoarea TRUE, atunci nu includem datele care corespund filtrului în rezultate.
  • Dim_filter() – folosim această funcție cu parametrii:
  • .

  • dimensiune – dimensiunea după care filtrăm (de exemplu, tipul de dispozitiv = Desktop sau țara utilizatorului = Polonia;
  • .

  • Operator – funcționează ca și în cazul met_filter și poate lua una dintre valorile:
  • .

  • REGEXP – verifică dacă câmpul specificat în expresii se potrivește cu expresia regulată specificată
  • .

  • BEGINS_WITH – începe cu filtrul specificat
  • .

  • ENDS_WITH – se termină cu filtrul specificat
  • .

  • PARTIAL – include fragmentul specificat
  • .

  • EXACT – are o valoare exact așa cum este dată
  • .

  • NUMERIC_EQUAL – are un număr egal cu cel dat
  • .

  • NUMERIC_GREATER_THAN – este un număr mai mare decât cel dat
  • .

  • NUMERIC_LESS_THAN – este un număr mai mic decât numărul dat
  • .

  • IN_LIN_LIST – se află în lista de valori pe care o specificăm
  • .

  • Expressions – o expresie (numărul sau textul pe care îl căutăm în numele dimensiunii)
  • .

  • Casesensitive – dacă are valoarea TRUE, este sensibilă la majuscule/minuscule)
  • .

  • Nu – funcționează ca și cu met_filter.
  • .

Putem verifica lista completă a filtrelor și dimensiunilor disponibile în GA utilizând funcția ga_meta.

Exemplu de aplicație:

 

 

ga_meta function

 

Ne oferă un obiect care conține o descriere detaliată a tuturor (inclusiv a celor deja retrase – marcate ca DEPRECATE în câmpul status) dimensiunilor și metricilor.

 

 

După crearea obiectului de filtrare a metricilor și/sau a dimensiunilor, trebuie să creați un obiect de filtrare utilizând funcția filter_clause_ga4. Acesta este obiectul pe care îl folosim în funcția google_analytics. Acest lucru ne permite să construim filtre avansate pentru combinații de mai multe metrici și/sau dimensiuni.

Mai jos filtrăm datele pentru a include doar vizitele (metrică) din țara Polonia (dimensiunea numită contry ia valoarea Poland).

Creăm un filtru pentru datele în care dimensiunea country conține exact șirul Poland – adică respingem toate vizitele din alte țări decât Polonia.

 

 

Creăm un obiect filtru bazat pe acest filtru:

 

 

Folosim un obiect filtru în funcția care recuperează datele:

 

 

Codul utilizat în această secțiune este disponibil aici.

Summary

.
Mulți dintre noi, SEO, ne concentrăm pe motorul de căutare Google. Desigur, instrumente precum Direct Answer oferă o mulțime de informații despre ceea ce se întâmplă în motorul de căutare. Chiar și așa, baza oricărei analize ar trebui să fie datele de la Google însuși. Eu mi-am început aventura de a aplica programarea la SEO tocmai prin descărcarea datelor din instrumentul descris aici. Pentru mine, acest lucru s-a tradus printr-o mai bună înțelegere a ceea ce se întâmplă în motorul de căutare și, în final, prin poziții mai bune. Ca toate instrumentele, și cele de la Google necesită o înțelegere a capacităților și a limitărilor pentru a fi utilizate bine.

Cele mai importante lucruri pe care trebuie să le aveți în vedere:.

  • Datele Google Analytics nu sunt 100% aliniate cu datele Google Search Console
  • .

  • Datele Google nu împărtășesc informații despre competitori
  • .

  • Datele de analiză Google sunt colectate „de partea dumneavoastră”. – astfel încât puteți încărca o mulțime de informații suplimentare (de exemplu, pentru postările de pe blog, numele autorului sau numele producătorului din magazin)
  • .

  • Datele Google Search Console sunt colectate de partea Google – prin urmare, trebuie doar să creați un cont pentru a colecta date.

Cu ajutorul limbajului R sunteți capabil să:.

  • colectați cantități mari de date (mult mai multe decât puteți încadra în excel – puțin peste un milion de rânduri)
  • .

  • exportați datele rezultate (de exemplu, în excel)
  • .

  • combinați date din mai multe surse
  • .

  • evitați limitările instrumentelor gratuite ale Google, dacă este posibil
  • .

Vă încurajez să testați, să comentați și să implementați soluțiile pe care le-am descris aici, sau propriile idei.

Ne vedem în SERPs!


Mulțumesc pentru lectură!

Înscrieți-vă gratuit și alăturați-vă celor peste 14.000 de utilizatori Senuto ????

FAQ


Pentru a instala bibliotecile necesare, trebuie să scrieți numele lor sub forma unui vector în R, apoi să verificați dacă acestea sunt deja instalate pe computerul dvs. Dacă nu, le instalați folosind comanda install.packages().


Autorizarea pentru a colecta date din Google Search Console se face folosind comanda scr_auth(), care va deschide o fereastră de autentificare Google în browserul dvs. pentru a permite accesul aplicației la contul dvs.


Pentru a descărca date din Google Analytics, inclusiv versiunea v4, trebuie să instalați și să autorizați biblioteca googleAnalyticsR, apoi să utilizați funcții specifice pentru a extrage datele dorite, având grijă să respectați limitele impuse de API.


Dimensiunile descriu caracteristicile datelor (de exemplu, tipul de utilizator), în timp ce metricele reprezintă măsurătorile cantitative ale acestor date (de exemplu, numărul de utilizatori). Împreună, ele oferă o analiză detaliată a performanței site-ului dvs. web.


Pentru a depăși limitările standard ale Google Search Console, care permit recuperarea a doar 1.000 de rânduri într-un raport, puteți utiliza opțiunea de grupare pe loturi în biblioteca searchConsoleR, permițând descărcarea datelor în loturi de până la 25.000 de rânduri.
Distribuie aceasta postare:  
Sebastian Mioduszewski

Z branżą SEM/SEO związany od 2007 roku. Od 2012 odpowiedzialny za budowę i realizację strategii SEO dla serwisu Pracuj.

Încearcă Senuto gratuit timp de 14 zile

Încearcă gratuit

Încearcă Senuto Suite gratuit timp de 14 zile

Încearcă gratuit 14 zile

Descoperă Senuto într-o oră de training online, gratuit

Alege o dată și conectează-te