unfluff الترتيب والملخص
- اسم الناشر:
- Tim Cuthbertson
unfluff العلامات
unfluff وصف
استخراج محتوى HTML الإحصائي في بيثون Unfluff هي أداة استخراج محتوى إحصائية مكتوبة في Python - قم بإزالة الزغب عديمة الفائدة من صفحات HTML التعسفي. "Based On Outs" على الطرق التي تمت مناقشتها (وتنفذها) في أماكن مختلفة، ولكنها أكثر مباشرة: * http://www.spicylogic.com/allenday/blog / 2008/05/27 / 27 / استخراج محتوى إحصائي المحتوى الإحصائي / * http://www2003.org/cdrom /papers/refereed/p583/p583-gupta.htmlan التجربة / العمل في التقدم. USAGES: إما أن تأخذ ملف أو عنوان URL لاستخراجه. يطبع شجرة المحتوى إلى Stdout: Unfluff /path/to/something.htmlorunfluff منو 'http://some-website.com/interesting-article.html'the مكتبة Unfluff لديها عدد قليل من الوظائف، والتي كلها تفعل كل شيء نفس الشيء عن طريق التنسيقات المختلفة: استيراد Unfluffunfluff .from_url ('http: // أيا كان /') unfluff.from_file ('/tmp/input.html') Unfluff.from_string (" محتوى مضمن
") من بين هذه الملحقات الأصلية (ج)، مما يعني أنك أفضل تبحث عنها في مدير الحزمة الودية الخاصة بك. متطلبات: بيثون lxml. SCIPY.
unfluff برامج ذات صلة