Програмиране с Python » Форуми » Задачи

web паяк

(30 posts)

  1. nevena
    Member

    Здравейте,
    въпросът ми е относно условието на проекта web паяк. Ако една html страница има връзка към ftp сървър, трябва ли също да се разглеждат и свалят и файловете на този сървър? Не, нали?
    Благодаря.

    Posted 5 years ago #
  2. ivelin
    Member

    Смятам да поддържам: http и https. Ако някой от преподавателския екип желае ftp или нещо друго, нека го посочи в заданието.

    Posted 5 years ago #
  3. HTTP е напълно достатъчно. Няма нужда от HTTPS или FTP

    Posted 5 years ago #
  4. alive
    Member

    искам да попитам какво точно е това:
    забранени/разре

    Posted 5 years ago #
  5. ivelin
    Member

    Какво по точно не ти е ясно? Какво е М

    Posted 5 years ago #
  6. alive
    Member

    Какво е М

    Posted 5 years ago #
  7. Тук: http://en.wikipedia.org/wiki/MIME

    Posted 5 years ago #
  8. munch
    Member

    А ако в някоя страица във py-bg.net имаме връзки към python.org, примерно, това как се връзва с правилото за дължината N и с рпавилото за no-parent.

    Posted 5 years ago #
  9. Принципно считаме, че се работи винаги в рамките на едно домейн-име, без значение от стойността на no-parent. Това се прави с цел известно опростяване на задачата и поради нуждата да бъде сложен край на свалянето в някакъв момент :)

    Това ще рече, например, че ако сте започнали с начален адрес py-bg.net/some/path и намерите страница с връзка към http://google.com, вие просто игнорирате тази връзка.

    Posted 5 years ago #
  10. jvasi
    Member

    Предполагам, че не е проблем ако не работим в рамките на едно домейн име, нали? Все пак, ако потребителя иска да изтегли само един сайт може да го посочи с опцията no-parent.

    Posted 5 years ago #
  11. iavoriankov
    Member

    Аз не правя този проект, но според мен е безмислено да се сваля информация от различен домейн ... От поддомейн - да, но да се дърпат всички връзки.

    Posted 5 years ago #
  12. jvasi
    Member

    Зависи какво ти трябва. Както казах, ако човек иска да изтегли определен сайт просто ще сложи ограничение no-parent. А и така програмата има по-голяма функционалност.

    Posted 5 years ago #
  13. jvasi
    Member

    Posted 5 years ago #
  14. @jvasi, скриптовете (примерно .php) имат навика да не връщат Content-Length (yourUrllib2Obj.info().get('Content-Length', 0)) , но за тях не е голяма философия да прави

    Posted 5 years ago #
  15. dzver, така винаги ще трябва да тегли

    Posted 5 years ago #
  16. Posted 5 years ago #
  17. turki
    Member

    Някакви насоки за unit test-ове на това дето сваля файлове. Все пак трябва да му се даде някакъв адрес.

    Posted 5 years ago #
  18. turki
    Member

    Edit:
    Тъп въпрос. няма такова нещо.

    Трябва ли да подържаме аутентикаця към проксито?

    Posted 5 years ago #
  19. Мисля, че бе

    Posted 5 years ago #
  20. ivelin
    Member

    Posted 5 years ago #
  21. Коя библиотека бяхте препоръчали да ползваме за парсване на html-а?

    Posted 5 years ago #
  22. Posted 5 years ago #
  23. spooky, не те интересува как се генерира съдържанието, което ти получава

    Posted 5 years ago #
  24. SGML парсера.

    Posted 5 years ago #
  25. А защо не споменахте да не ползваме BeautifulSoup по-рано?
    Относно вън

    Posted 5 years ago #
  26. В изискването на проектите не е и споменато колко точки ще вземаме за ло

    Posted 5 years ago #
  27. Намерили са се някакви причини да го ползвам и ми свър

    Posted 5 years ago #
  28. *прозяв*

    Posted 5 years ago #
  29. turki
    Member

    предполагам, след като никой не ми отговори на въпроса за тестовете, би трябвало да се спасявам както намеря за добре и да планирам за всички установки на пускането им .

    Posted 5 years ago #
  30. turki
    Member

    ъх, вече е прекалено късно и никой няма да ми отговори, но все пак:
    Проксито тряба да е нещо дадено от потребителя да се ползва или трябва да се настройва според код 305: Use Proxy : You must use proxy specified in Location to access this resource.

    Posted 5 years ago #

RSS feed for this topic

Reply

You must log in to post.