អ្នកជំនាញ Semalt: Python និង BeautifulSoup ។ កោសកន្លែងដោយភាពងាយស្រួល

នៅពេលអនុវត្តការវិភាគទិន្នន័យឬគម្រោងរៀនម៉ាស៊ីនអ្នកប្រហែលជាត្រូវបណ្តាញវេបសាយដើម្បីទទួលបានទិន្នន័យដែលត្រូវការនិងបញ្ចប់គម្រោងរបស់អ្នក។ ភាសាសរសេរកម្មវិធីពស់ថ្លាន់មានការប្រមូលផ្តុំដ៏មានអានុភាពនៃឧបករណ៍និងម៉ូឌុលដែលអាចត្រូវបានប្រើសម្រាប់គោលបំណងនេះ។ ឧទាហរណ៍អ្នកអាចប្រើម៉ូឌុល BeautifulSoup សម្រាប់ការញែក HTML ។

នៅទីនេះយើងនឹងក្រឡេកមើល BeautifulSoup និងស្វែងយល់ថាហេតុអ្វីបានជាវាត្រូវបានគេប្រើយ៉ាងទូលំទូលាយនៅក្នុងការកាត់ គេហទំព័រ

លក្ខណៈពិសេសដ៏ស្រស់ស្អាត

- វាផ្តល់នូវវិធីសាស្រ្តផ្សេងៗគ្នាដើម្បីងាយស្រួលក្នុងការរុករកការស្វែងរកនិងការកែប្រែមែកធាងដែលញែកចេញពីគ្នាដូច្នេះអ្នកអាចបែងចែកឯកសារបានយ៉ាងងាយស្រួលនិងទាញយកអ្វីៗគ្រប់យ៉ាងដែលអ្នកត្រូវការដោយមិនចាំបាច់សរសេរកូដច្រើនពេក។

- វាបំលែងឯកសារចេញជា UTF-8 ដោយស្វ័យប្រវត្តិនិងឯកសារចូលមកជាយូនីកូដ។ នេះមានន័យថាអ្នកនឹងមិនចាំបាច់ព្រួយបារម្ភអំពីការអ៊ិនកូដដែលបានផ្តល់ថាឯកសារបានបញ្ជាក់ការអ៊ិនកូដឬស៊ុបស្រស់ស្អាតអាចរកឃើញដោយស្វ័យប្រវត្តិ។

- BeautifulSoup ត្រូវបានគេចាត់ទុកថាពូកែជាងការញែក Python ដ៏ពេញនិយមដទៃទៀតដូចជា html5lib និង lxml ។ វាអនុញ្ញាតឱ្យសាកល្បងវិធីវិភាគផ្សេងៗគ្នា។ គុណវិបត្តិមួយនៃម៉ូឌុលនេះគឺថាវាផ្តល់នូវភាពបត់បែនកាន់តែច្រើនក្នុងការចំណាយល្បឿន។

តើអ្នកត្រូវការអ្វីខ្លះដើម្បីកោសគេហទំព័រជាមួយ BeautifulSoup?

ដើម្បីចាប់ផ្តើមធ្វើការជាមួយ BeautifulSoup អ្នកត្រូវមានបរិយាកាសសរសេរកម្មវិធី Python (ទាំងមូលដ្ឋានឬម៉ាស៊ីនមេ) ដែលបានតំឡើងនៅលើម៉ាស៊ីនរបស់អ្នក។ ពស់ថ្លាន់ជាធម្មតាត្រូវបានតំឡើងជាមុននៅក្នុង OS X ប៉ុន្តែប្រសិនបើអ្នកប្រើវីនដូអ្នកត្រូវទាញយកនិងតំឡើងភាសាពីគេហទំព័រផ្លូវការ។

អ្នកគួរតែតំឡើងម៉ូឌុល BeautifulSoup និងសំណើរ។

ចុងក្រោយការស្គាល់និងមានផាសុខភាពក្នុងការធ្វើការដាក់ស្លាកនិងរចនាសម្ព័ន HTML ពិតជាមានប្រយោជន៍ព្រោះអ្នកនឹងធ្វើការជាមួយទិន្នន័យប្រភពគេហទំព័រ។

ការនាំចូលនូវសំណើរនិងបណ្ណាល័យ BeautifulSoup

ជាមួយនឹងបរិស្ថានកម្មវិធី Python រៀបចំយ៉ាងល្អឥឡូវនេះអ្នកអាចបង្កើតឯកសារថ្មីមួយ (ដោយប្រើណាណូ) ជាមួយឈ្មោះណាមួយដែលអ្នកចូលចិត្ត។

បណ្ណាល័យសំណើរអនុញ្ញាតឱ្យអ្នកប្រើទំរង់ដែលមនុស្សអាចអានបាន HTTP នៅក្នុងកម្មវិធី Python របស់អ្នកខណៈពេលដែល BeautifulSoup ត្រូវបានគេបោះចោលក្នុងល្បឿនលឿន។ អ្នកអាចប្រើសេចក្តីថ្លែងការណ៍នាំចូលដើម្បីទទួលបានបណ្ណាល័យទាំងពីរ។

វិធីប្រមូលនិងញែកទំព័រគេហទំព័រ

ប្រើវិធីសាស្រ្តស្នើសុំ .get () ដើម្បីប្រមូល URL នៃគេហទំព័រដែលអ្នកចង់ស្រង់ទិន្នន័យ។ បន្ទាប់មកទៀតបង្កើតវត្ថុ BeautifulSoup ឬដើមឈើសេក។ វត្ថុនេះយកឯកសារពីសំណូមពរជាអំណះអំណាងរបស់វាហើយបន្ទាប់មកញែកវាចេញ។ ជាមួយនឹងទំព័រដែលប្រមូលបានញែកនិងរៀបចំជាវត្ថុស្អាតស៊ុបភើរបន្ទាប់មកអ្នកអាចបន្តប្រមូលទិន្នន័យដែលអ្នកត្រូវការ។

ដកស្រង់អត្ថបទដែលចង់បានពីទំព័រគេហទំព័រដែលញែក

នៅពេលណាដែលអ្នកចង់ប្រមូលទិន្នន័យគេហទំព័រអ្នកត្រូវដឹងពីរបៀបដែលទិន្នន័យនោះត្រូវបានពិពណ៌នាដោយគំរូឯកសារគំរូ (DOM) នៃគេហទំព័រ។ នៅក្នុងកម្មវិធីរុករកគេហទំព័ររបស់អ្នកសូមចុចខាងស្តាំ (ប្រសិនបើប្រើវីនដូ) ឬចុច CTRL (ប្រសិនបើប្រើ macOS) លើធាតុមួយដែលបង្កើតជាផ្នែកនៃទិន្នន័យដែលចាប់អារម្មណ៍។ ឧទាហរណ៍ប្រសិនបើអ្នកចង់ទាញទិន្នន័យអំពីសញ្ជាតិរបស់និស្សិតសូមចុចលើឈ្មោះរបស់សិស្សម្នាក់។ ម៉ឺនុយបរិបទមួយលេចឡើងហើយនៅក្នុងវាអ្នកនឹងឃើញធាតុមឺនុយដែលស្រដៀងនឹង Inspect Element (សម្រាប់ Firefox) ឬអធិការកិច្ច (សម្រាប់ Chrome) ។ ចុចលើធាតុម៉ឺនុយអធិការកិច្ចដែលពាក់ព័ន្ធហើយឧបករណ៍អភិវឌ្ឍន៍គេហទំព័រនឹងបង្ហាញនៅក្នុងកម្មវិធីរុករករបស់អ្នក។

BeautifulSoup គឺជាឧបករណ៍វិភាគអត្ថបទ HTML ដ៏សាមញ្ញប៉ុន្តែមានអនុភាពដែលអនុញ្ញាតឱ្យអ្នកមានភាពបត់បែនបានយ៉ាងច្រើននៅពេលកាត់ គេហទំព័រ ។ នៅពេលប្រើវាកុំភ្លេចសង្កេតមើលច្បាប់ទូទៅនៃការបោសសំអាតដូចជាពិនិត្យមើលល័ក្ខខ័ណ្ឌនៃគេហទំព័រ។ ការពិនិត្យមើលគេហទំព័រជាទៀងទាត់និងធ្វើបច្ចុប្បន្នភាពលេខកូដរបស់អ្នកតាមការផ្លាស់ប្តូរដែលបានធ្វើនៅលើគេហទំព័រ។ ដោយមានចំនេះដឹងអំពីការឆែកគេហទំព័រជាមួយ Python និង BeautifulSoup ឥឡូវនេះអ្នកអាចទទួលបានទិន្នន័យគេហទំព័រដែលអ្នកត្រូវការសម្រាប់គំរោងរបស់អ្នកយ៉ាងងាយស្រួល។

send email