Semalt veb səhifələrini silmək üçün 5 addım təklif edir

Scrapy, fərqli veb saytdan məlumat çıxarmaq üçün açıq bir mənbə və çərçivədir. API-lərdən istifadə edir və Python-da yazılır. Scrapi hazırda Scrapinghub Ltd adlı bir veb kazıyıcı şirkəti tərəfindən aparılır.

Scrapy-dən istifadə edərək veb tarayıcı yazmaq, Craigslist-i analiz etmək və CSV formatında məlumatı necə yazmaq barədə sadə bir təlimatdır. Bu təlimatın beş əsas addımları aşağıda qeyd edilmişdir:

1. Yeni Scrapy layihəsi yaradın

2. Bir veb saytını taramaq və məlumat çıxarmaq üçün bir hörümçək yazın

3. Komut satırını istifadə edərək qırılmış məlumatları ixrac edin

4. Keçidləri izləmək üçün hörümçəyi dəyişdirin

5. Hörümçək dəlillərindən istifadə edin

1. Layihə yaradın

İlk addım bir layihə yaratmaqdır. Scrapy-ni yükləməli və quraşdırmalısınız. Axtarış çubuğunda məlumatları saxlamaq istədiyiniz qovluq adını daxil etməlisiniz. Scrapy məlumat çıxarmaq üçün müxtəlif hörümçəklərdən istifadə edir və bu hörümçəklər dizinler yaratmaq üçün ilkin istəklər edirlər. Bir hörümçəyi işə salmaq üçün dizinler siyahısına baş çəkmək və orada müəyyən bir kod qoymaq lazımdır. Cari qovluğunuzdakı fayllara diqqət yetirin və iki yeni sənədə diqqət yetirin: quotes-a.html və quotes-b.html.

2. Bir veb saytını gəzmək və məlumat çıxarmaq üçün bir hörümçək yazın:

Bir hörümçək yazmaq və məlumat çıxarmaq üçün ən yaxşı yol, Scrapy'nin qabığında fərqli selektorlar yaratmaqdır. Həmişə URL-ləri kotirovkalara əlavə etməlisiniz; Əks təqdirdə, Scrapy dərhal URLlərin xarakterini və ya adlarını dəyişdirəcəkdir. Bir hörümçəyi lazımi qaydada yazmaq üçün bir URL ətrafında ikitərəfli sitatlar istifadə etməlisiniz. Siz.extract_first () istifadə etməli və indeks səhvindən qaçınmalısınız.

3. Komut satırını istifadə edərək qırılmış məlumatları ixrac edin:

Skript satırından istifadə edərək qırılmış məlumatları ixrac etmək vacibdir. Əgər onu ixrac etməsəniz, dəqiq nəticə əldə etməyəcəksiniz. Hörümçək faydalı məlumatları ehtiva edən müxtəlif qovluqlar yaradacaqdır. Bu məlumatı daha yaxşı bir şəkildə ixrac etmək üçün məhsuldarlıq Python açar sözlərindən istifadə etməlisiniz. Məlumatın JSON fayllarına idxalı mümkündür. JSON faylları proqramçılar üçün faydalıdır. JQ kimi alətlər heç bir problem olmadan qırılmış məlumatların ixracına kömək edir.

4. Keçidləri izləmək üçün hörümçəyi dəyişdirin:

Kiçik layihələrdə bağlantıları lazımi qaydada izləmək üçün hörümçəkləri dəyişdirə bilərsiniz. Lakin bu, böyük ölçülü məlumat qırma layihələri ilə lazım deyil. Hörümçək dəyişdirdiyiniz zaman element boru kəmərləri üçün yer faylı qurulacaqdır. Bu faylı tutorial / pipelines.py bölməsində yerləşdirmək olar. Scrapy ilə, inkişaf etmiş örümcekler qura və istədiyiniz zaman yerlərini dəyişə bilərsiniz. Bir anda birdən çox sayt çıxara və müxtəlif məlumatların çıxarılması layihələrini həyata keçirə bilərsiniz.

5. Hörümçək dəlillərindən istifadə edin:

Parse_author geri çağırış, dinamik saytlardan məlumat çıxarmaq üçün istifadə edilə bilən bir hörümçək arqumentidir. Ayrıca bir kod ilə hörümçəklərə əmr satırı arqumentlərini təqdim edə bilərsiniz. Hörümçək dəlilləri heç bir zaman hörümçək atributlarına çevrilir və məlumatların ümumi görünüşünü dəyişdirir.

Bu dərslikdə yalnız Scrapy əsaslarını əhatə etdik. Bu alət üçün bir çox xüsusiyyət və seçim var. Xüsusiyyətləri haqqında daha çox məlumat əldə etmək üçün Scrapy-ni yükləmək və aktivləşdirmək lazımdır.