unfluff

استخراج محتوى HTML الإحصائي في بيثون
التحميل الان

unfluff الترتيب والملخص

الإعلانات

  • Rating:
  • رخصة:
  • BSD License
  • اسم الناشر:
  • Tim Cuthbertson

unfluff العلامات


unfluff وصف

استخراج محتوى HTML الإحصائي في بيثون Unfluff هي أداة استخراج محتوى إحصائية مكتوبة في Python - قم بإزالة الزغب عديمة الفائدة من صفحات HTML التعسفي. "Based On Outs" على الطرق التي تمت مناقشتها (وتنفذها) في أماكن مختلفة، ولكنها أكثر مباشرة: * http://www.spicylogic.com/allenday/blog / 2008/05/27 / 27 / استخراج محتوى إحصائي المحتوى الإحصائي / * http://www2003.org/cdrom /papers/refereed/p583/p583-gupta.htmlan التجربة / العمل في التقدم. USAGES: إما أن تأخذ ملف أو عنوان URL لاستخراجه. يطبع شجرة المحتوى إلى Stdout: Unfluff /path/to/something.htmlorunfluff منو 'http://some-website.com/interesting-article.html'the مكتبة Unfluff لديها عدد قليل من الوظائف، والتي كلها تفعل كل شيء نفس الشيء عن طريق التنسيقات المختلفة: استيراد Unfluffunfluff .from_url ('http: // أيا كان /') unfluff.from_file ('/tmp/input.html') Unfluff.from_string (" محتوى مضمن ") من بين هذه الملحقات الأصلية (ج)، مما يعني أنك أفضل تبحث عنها في مدير الحزمة الودية الخاصة بك. متطلبات: بيثون lxml. SCIPY.


unfluff برامج ذات صلة

بيت

هذا هو محلل التكوين في Nginx و Starter لعمال UWSGI ...

161

تحميل