Бесплатный парсер интернет-магазина Betsey Johnson
Бетси Джонсон — американский модельер, легко узнаваемая в мире моды своими причудливыми женскими дизайнами. В ее интернет-магазине вы можете найти одежду, обувь, аксессуары и ювелирные украшения. Парсер поможет вам собрать информацию о товарах, представленных в интернет-магазине betseyjohnson.com
Примерное количество товаров: 1000
Примерное количество запросов: 7000
Рекомендуемый план подписки: X-Small
ВНИМАНИЕ! Количество запросов может превышать количество товаров, потому что данные о вариациях, изображениях и др. могут парсится используя запросы к дополнительным ресурсам. Также часть данных о товаре может доставляться с помощью XHR запросов, что также увеличивает общее количество необходимых запросов.
Для его использования вы должны иметь учетную запись в нашем сервисе Diggernaut.
- Пройдите по этой ссылке для регистрации в сервисе Diggernaut
- После регистрации и подтверждения email адреса войдите в свою учетную запись
- Создайте проект с любый именем и описанием, если вы не знаете как, обратитесь к нашей документации
- Войдите во вновь созданный проект и создайте в нем диггер с любым именем, если вы не знаете как, обратитесь к нашей документации
- Скопируйте в буфер обмена приведенный ниже сценарий диггера и вставьте его в созданный вами диггер, если вы не знаете как, обратитесь к нашей документации
- Переключите режим работы диггера с Debug на Active, если вы не знаете как, обратитесь к нашей документации
- Запустите ваш диггер и дождитесь окончания его работы, если вы не знаете как, обратитесь к нашей документации
- Скачайте собранный набор данных в нужном вам формате, если вы не знаете как, обратитесь к нашей документации
В дальнейшем вы можете установить расписание для запуска вашего парсера и забирать информацию регулярно.
Сценарий парсера:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 |
--- config: debug: 2 agent: Firefox do: - walk: to: http://www.betseyjohnson.com/ do: - find: path: .off > a do: - parse: attr: href - normalize: routine: replace_substring args: '\s*#': '' - normalize: routine: url - link_add: pool: main - walk: to: links pool: main do: - find: path: .categoryNav a do: - parse: attr: href - walk: to: value do: - find: path: .viewAll do: - parse: attr: data-href - normalize: routine: url - walk: to: value do: - find: path: .mainImage do: - parse: attr: href filter: - (.+)\? - (.+) - normalize: routine: url - link_add: pool: sub - find: path: .mainImage do: - parse: attr: href filter: - (.+)\? - (.+) - normalize: routine: url - link_add: pool: sub - walk: to: links pool: sub do: - object_new: product - find: in: doc path: head do: - eval: routine: js body: '(function (){var d = new Date(); return d.toISOString()})();' - object_field_set: object: product field: date - static_get: url - object_field_set: object: product field: url - find: path: 'meta[itemprop="productID"]' do: - parse: attr: content - space_dedupe - trim - object_field_set: object: product field: sku - find: path: .breadcrumb a do: - parse - space_dedupe - trim - normalize: routine: lower - object_field_set: object: product field: category joinby: "|" - find: path: 'select.COLOR_NAME > option' do: - parse: attr: value - space_dedupe - trim - if: match: (\S) do: - object_field_set: object: product field: variations joinby: "|" - find: path: .item-name do: - parse - space_dedupe - trim - object_field_set: object: product field: name - find: path: .productPrice do: - parse: filter: - ^\s*\$\s*(\d+\.?\d*) - if: match: (\d+) do: - object_field_set: object: product field: price type: float - register_set: USD - object_field_set: object: product field: currency - find: path: script:matches(variantMatrices) do: - parse: filter: - \/\/var\s*thumbsAndStuff\s*=\s*(.+);\s* - normalize: routine: json2xml - to_block - find: path: alts do: - parse - walk: to: http://www.betseyjohnson.com/scene7_proxy.jsp?cb=&req=set,json,utf-8&id=<%register%> do: - find: path: body do: - parse - normalize: routine: replace_substring args: - \/\*jsonp\*\/\s*: '' - s7jsonResponse\(: '' - \}\}\}\,\"\"\)\;: '}}}' - normalize: routine: unescape_html - normalize: routine: json2xml - to_block - find: path: item > i > n do: - parse - register_set: http://s7d9.scene7.com/is/image/<%register%>?scl=1 - object_field_set: object: product field: images joinby: "|" - find: path: .detailsWrap > p do: - parse - space_dedupe - trim - object_field_set: object: product field: description - find: path: meta[itemprop="brand"] do: - parse: attr: content - space_dedupe - trim - object_field_set: object: product field: brand - object_save: name: product |
Ниже приведен пример датасета с несколькими товарами в формате JSON (для наглядности). Датасет может быть скачан и как CSV, XLSX, XML, и любой другой текстовый формат используя темплейтный подход.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 |
[{ "product": { "brand": "Betsey Johnson", "category": "accessories|all accessories|gifty goodies", "currency": "USD", "date": "2017-12-07T18:45:38.519Z", "description": "This pen is an extra special gift. Its candy-hued coloring gets extra girly flair with a soft, feathery accent.", "images": "http://s7d9.scene7.com/is/image/BetseyJohnson/HOLIDAY-GIVING-BUNNY-PEN_PINK?scl=1|http://s7d9.scene7.com/is/image/BetseyJohnson/HOLIDAY-GIVING-BUNNY-PEN_PINK_PACKAGED?scl=1", "name": "HOLIDAY GIVING BUNNY PEN", "price": 35, "sku": "247714", "url": "https://www.betseyjohnson.com/product/HOLIDAY-GIVING-BUNNY-PEN/247714.uts", "variations": "PINK" } } ,{ "product": { "brand": "Betsey Johnson", "category": "accessories|all accessories|gifty goodies", "currency": "USD", "date": "2017-12-07T18:45:40.633Z", "description": "This black cat pen will bring your favorite friend some good luck! Its colorful, oil slick surface is topped off by a feathery black cat embellishment.", "images": "http://s7d9.scene7.com/is/image/BetseyJohnson/HOLIDAY-GIVING-BLACK-CAT-PEN_BLACK?scl=1|http://s7d9.scene7.com/is/image/BetseyJohnson/HOLIDAY-GIVING-BLACK-CAT-PEN_BLACK_PACKAGED?scl=1", "name": "HOLIDAY GIVING BLACK CAT PEN", "price": 35, "sku": "247715", "url": "https://www.betseyjohnson.com/product/HOLIDAY-GIVING-BLACK-CAT-PEN/247715.uts", "variations": "BLACK" } } ,{ "product": { "brand": "Betsey Johnson", "category": "accessories|all accessories|gifty goodies", "currency": "USD", "date": "2017-12-07T18:45:41.840Z", "description": "This colorful parrot pen is the perfect way to add some color to the holiday season! Its pastel surface is accented by a vivid feather plump on an opal parrot.", "images": "http://s7d9.scene7.com/is/image/BetseyJohnson/HOLIDAY-GIVING-PARROT-PEN_MULTI?scl=1|http://s7d9.scene7.com/is/image/BetseyJohnson/HOLIDAY-GIVING-PARROT-PEN_MULTI_PACKAGING?scl=1", "name": "HOLIDAY GIVING PARROT PEN", "price": 35, "sku": "247716", "url": "https://www.betseyjohnson.com/product/HOLIDAY-GIVING-PARROT-PEN/247716.uts", "variations": "MULTI" } }] |