Molann Semalt 5 Chéim chun Leathanaigh Ghréasáin a Scrabhadh

Is foinse oscailte agus creatlach é an teiripe chun faisnéis a bhaint as an suíomh Gréasáin difriúil. Úsáideann sé APIs agus tá sé scríofa i Python. Tá an teiripe á chothabháil faoi láthair ag cuideachta scrapála gréasáin darb ainm Scrapinghub Ltd.

Is rang teagaisc simplí é ar conas crawler gréasáin a scríobh ag baint úsáide as Scrapy, parse Craigslist agus faisnéis a stóráil i bhformáid CSV. Luaitear thíos cúig phríomhchéim an teagaisc seo:

1. Cruthaigh tionscadal Scéime nua

2. Scríobh damhán alla chun suíomh Gréasáin a chraobháil agus sonraí a bhaint

3. Easpórtáil na sonraí scraped ag baint úsáide as an líne ordaithe

4. Athraigh damhán alla chun naisc a leanúint

5. Úsáid argóintí damhán alla

1. Cruthaigh tionscadal

Is é an chéad chéim ná tionscadal a chruthú. Chaithfeá Scrapy a íoslódáil agus a shuiteáil. Ina bharra cuardaigh, ba cheart duit ainm an eolaire a iontráil áit ar mhaith leat na sonraí a stóráil. Úsáideann teiripe damháin alla éagsúla chun faisnéis a bhaint, agus déanann na damháin alla seo iarratais tosaigh chun eolairí a chruthú. Chun damhán alla a chur ag obair, ní mór duit cuairt a thabhairt ar liosta na n-eolairí agus cód áirithe a chur isteach ann. Coinnigh súil ar na comhaid i do eolaire reatha agus tabhair faoi deara dhá chomhad nua: Sleachta-a.html agus Sleachta-b.html.

2. Scríobh damhán alla chun suíomh Gréasáin a chraobháil agus sonraí a bhaint:

Is é an bealach is fearr le damhán alla a scríobh agus sonraí a bhaint ná roghnóirí éagsúla a chruthú i mblaosc Scrapy. Ba cheart duit na URLanna a iamh i luachana i gcónaí; murach sin, athróidh Scrapy nádúr nó ainmneacha na URLanna sin láithreach. Ba cheart duit luachana dúbailte a úsáid timpeall ar URL chun damhán alla a scríobh go cuí. Ba cheart duit.extract_first () a úsáid agus earráid innéacs a sheachaint.

3. Easpórtáil na sonraí scraped ag baint úsáide as an líne ordaithe:

Tá sé tábhachtach na sonraí scrapáilte a easpórtáil ag úsáid na líne ordaithe. Mura ndéanann tú é a easpórtáil, ní bhfaighidh tú torthaí cruinne. Ginfidh an damhán alla eolairí éagsúla ina mbeidh faisnéis úsáideach. Ba cheart duit eochairfhocail Python toraidh a úsáid chun an fhaisnéis seo a easpórtáil ar bhealach níos fearr. Is féidir sonraí a iompórtáil go comhaid JSON. Tá na comhaid JSON úsáideach do ríomhchláraitheoirí. Cuidíonn uirlisí cosúil le JQ le sonraí scrapáilte a onnmhairiú gan aon fhadhb.

4. Athraigh damhán alla chun naisc a leanúint:

I dtionscadail bheaga, is féidir leat damháin alla a athrú chun naisc a leanúint go cuí. Ach ní gá é le tionscadail scrapála sonraí mórmhéide. Bunófar comhad áitritheora do Phíblínte Míre nuair a athraíonn tú damhán alla. Is féidir an comhad seo a fháil sa chuid teagaisc / piplines.py. Le Scrapy, is féidir leat damháin alla sofaisticiúla a thógáil agus a suíomh a athrú am ar bith. Féadfaidh tú iliomad suíomhanna a bhaint ag an am agus tionscadail éagsúla eastósctha sonraí a dhéanamh.

5. Úsáid argóintí damháin alla:

Is argóint damháin alla é an aisghlaoch parse_author is féidir a úsáid chun sonraí a bhaint as láithreáin ghréasáin dinimiciúla. Is féidir leat argóintí líne ordaithe a sholáthar do na damháin alla le cód sonrach. Is tréithe damháin alla iad na hargóintí damháin alla in am ar bith agus athraíonn siad cuma fhoriomlán do chuid sonraí.

Sa rang teagaisc seo, níor chlúdaíomar ach buneilimintí na Teiripe. Tá a lán gnéithe agus roghanna ann don uirlis seo. Níl le déanamh agat ach Scrapy a íoslódáil agus a ghníomhachtú chun níos mó eolais a fháil ar a sonraíochtaí.