web паяк « Програмиране с Python

Програмиране с Python » Форуми » Задачи

web паяк

(30 posts)

Started 5 years ago by nevena
Latest reply from turki

nevena
Member

Здравейте,
въпросът ми е относно условието на проекта web паяк. Ако една html страница има връзка към ftp сървър, трябва ли също да се разглеждат и свалят и файловете на този сървър? Не, нали?
Благодаря.

Posted 5 years ago #
ivelin
Member

Смятам да поддържам: http и https. Ако някой от преподавателския екип желае ftp или нещо друго, нека го посочи в заданието.

Posted 5 years ago #
nb
ключодържател

HTTP е напълно достатъчно. Няма нужда от HTTPS или FTP

Posted 5 years ago #
alive
Member

искам да попитам какво точно е това:
забранени/разре

Posted 5 years ago #
ivelin
Member

Какво по точно не ти е ясно? Какво е М

Posted 5 years ago #
alive
Member

Какво е М

Posted 5 years ago #
wireman
Митьо Питона

Тук: http://en.wikipedia.org/wiki/MIME

Posted 5 years ago #
munch
Member

А ако в някоя страица във py-bg.net имаме връзки към python.org, примерно, това как се връзва с правилото за дължината N и с рпавилото за no-parent.

Posted 5 years ago #
wireman
Митьо Питона

Принципно считаме, че се работи винаги в рамките на едно домейн-име, без значение от стойността на no-parent. Това се прави с цел известно опростяване на задачата и поради нуждата да бъде сложен край на свалянето в някакъв момент :)

Това ще рече, например, че ако сте започнали с начален адрес py-bg.net/some/path и намерите страница с връзка към http://google.com, вие просто игнорирате тази връзка.

Posted 5 years ago #
jvasi
Member

Предполагам, че не е проблем ако не работим в рамките на едно домейн име, нали? Все пак, ако потребителя иска да изтегли само един сайт може да го посочи с опцията no-parent.

Posted 5 years ago #
iavoriankov
Member

Аз не правя този проект, но според мен е безмислено да се сваля информация от различен домейн ... От поддомейн - да, но да се дърпат всички връзки.

Posted 5 years ago #
jvasi
Member

Зависи какво ти трябва. Както казах, ако човек иска да изтегли определен сайт просто ще сложи ограничение no-parent. А и така програмата има по-голяма функционалност.

Posted 5 years ago #
jvasi
Member

Posted 5 years ago #
dzver
Member

@jvasi, скриптовете (примерно .php) имат навика да не връщат Content-Length (yourUrllib2Obj.info().get('Content-Length', 0)) , но за тях не е голяма философия да прави

Posted 5 years ago #
nb
ключодържател

dzver, така винаги ще трябва да тегли

Posted 5 years ago #
wireman
Митьо Питона

Posted 5 years ago #
turki
Member

Някакви насоки за unit test-ове на това дето сваля файлове. Все пак трябва да му се даде някакъв адрес.

Posted 5 years ago #
turki
Member

Edit:
Тъп въпрос. няма такова нещо.

Трябва ли да подържаме аутентикаця към проксито?

Posted 5 years ago #
wireman
Митьо Питона

Мисля, че бе

Posted 5 years ago #
ivelin
Member

Posted 5 years ago #
Kaloyan
Member

Коя библиотека бяхте препоръчали да ползваме за парсване на html-а?

Posted 5 years ago #
spooky
Member

Posted 5 years ago #
wireman
Митьо Питона

spooky, не те интересува как се генерира съдържанието, което ти получава

Posted 5 years ago #
aquarius
Сприхав и Сърдит

SGML парсера.

Posted 5 years ago #
iff
Member

А защо не споменахте да не ползваме BeautifulSoup по-рано?
Относно вън

Posted 5 years ago #
aquarius
Сприхав и Сърдит

В изискването на проектите не е и споменато колко точки ще вземаме за ло

Posted 5 years ago #
iff
Member

Намерили са се някакви причини да го ползвам и ми свър

Posted 5 years ago #
aquarius
Сприхав и Сърдит

*прозяв*

Posted 5 years ago #
turki
Member

предполагам, след като никой не ми отговори на въпроса за тестовете, би трябвало да се спасявам както намеря за добре и да планирам за всички установки на пускането им .

Posted 5 years ago #
turki
Member

ъх, вече е прекалено късно и никой няма да ми отговори, но все пак:
Проксито тряба да е нещо дадено от потребителя да се ползва или трябва да се настройва според код 305: Use Proxy : You must use proxy specified in Location to access this resource.

Posted 5 years ago #

RSS feed for this topic

Reply

You must log in to post.

Програмиране с Python → Форуми

Програмиране с Python » Форуми » Задачи

web паяк

Reply