100 sposobów na tworzenie robotów sieciowych

100 sposobów na tworzenie robotów sieciowych
Kevin Hemenway, Tara Calishain

Kategoria: Tworzenie stron WWW, Roboty sieciowe
Wydawnictwo: HELION

Ilość stron: 384
ISBN: 83-7361-452-4
100 sposobów na tworzenie robotów sieciowych

Internet to niewyczerpane źródło informacji. Zwykle jednak znalezienie w gąszczu witryn i danych tego, co jest naprawdę potrzebne, jest zadaniem niezwykle trudnym. Wyszukiwarki internetowe, nawet te najpopularniejsze i najbardziej efektywne w działaniu, nie zawsze są odpowiednim rozwiązaniem. W takich przypadkach trzeba poszukać innego sposobu, a nawet opracować własną metodę przeszukiwania sieci.

Książka "100 sposobów na tworzenie robotów sieciowych" może służyć pomocą w wielu takich właśnie przypadkach. Przedstawia sposoby tworzenia i wykorzystywania "pająków" przeszukujących sieć pod kątem określonych zasobów. W książce poruszono następujące zagadnienia:

  • Uwarunkowania prawne dotyczące korzystania z programów przeszukujących sieć
  • Narzędzia do tworzenia robotów oraz wyszukiwania danych
  • Sposoby wyszukiwania i pobierania plików multimedialnych
  • Przeszukiwanie sieciowych baz danych
  • Metody zapisywania zbiorów danych i aktualizowania ich
  • Tworzenie zbiorów danych łatwych do przeszukiwania przez innych
  • W książce przedstawiono techniki tworzenia kompletnych programów przeszukujących sieć (pająków), umożliwiających odnalezienie wszystkich potrzebnych danych.

    Spis treści:

    Rozdział 1. Łagodne wprowadzenie (17)

    • 1. Pająki i zbieranie danych: kurs na zderzenie (17)
    • 2. Zasady obowiązujące pająka i jego użytkownika (19)
    • 3. Anatomia strony HTML (23)
    • 4. Rejestrowanie pająka (26)
    • 5. Przedstawiamy się (28)
    • 6. Ostrożnie z użyciem pająka (30)
    • 7. Szukanie wzorców w identyfikatorach (33)

    Rozdział 2. Zestaw narzędzi (37)

    • 8. Instalowanie modułów Perla (40)
    • 9. Po prostu pobieranie za pomocą LWP::Simple (42)
    • 10. Bardziej złożone żądania - LWP::UserAgent (44)
    • 11. Dodawanie do żądania nagłówków HTTP (45)
    • 12. Wysyłanie danych przez LWP (47)
    • 13. Uwierzytelnianie, ciasteczka i serwery proxy (49)
    • 14. Obsługa względnych i bezwzględnych adresów URL (53)
    • 15. Dostęp do zabezpieczonych zasobów i atrybuty przeglądarki (55)
    • 16. Ograniczanie zajmowanego pasma (56)
    • 17. Poszanowanie dla pliku robots.txt (60)
    • 18. Dodawanie w skryptach pasków postępu (61)
    • 19. Pobieranie danych za pomocą HTML::TreeBuilder (66)
    • 20. Analizowanie kodu za pomocą HTML::TokeParser (69)
    • 21. WWW::Mechanize 101 (72)
    • 22. Pobieranie danych za pomocą WWW::Mechanize (75)
    • 23. Pochwała wyrażeń regularnych (79)
    • 24. Template::Extract: bezproblemowe RSS (82)
    • 25. Wprowadzenie do XPath (85)
    • 26. Pobieranie zasobów za pomocą curl i wget (90)
    • 27. wget dla zaawansowanych (91)
    • 28. Łączenie poleceń potokami (93)
    • 29. Jednoczesne uruchamianie wielu narzędzi (98)
    • 30. Użycie Web Scraping Proxy (100)
    • 31. Zawczasu unikaj kłopotów (104)
    • 32. Liczenie się ze zmiennością witryny (107)

    Rozdział 3. Zbieranie plików multimedialnych (109)

    • 33. Sprawa dla detektywa: Newgrounds (109)
    • 34. Sprawa dla detektywa: iFilm (114)
    • 35. Pobieranie filmów z Biblioteki Kongresu USA (117)
    • 36. Pobieranie obrazów z Webshots (120)
    • 37. Pobieranie komiksów - dailystrips (124)
    • 38. Kolekcjonowanie kadrów z kamer sieciowych (126)
    • 39. News Wallpaper dla naszej witryny (130)
    • 40. Zapisywanie samych załączników wiadomości POP3 (133)
    • 41. Pobieranie plików MP3 z listy odtwarzania (139)
    • 42. Pobieranie danych z Usenetu za pomocą nget (144)

    Rozdział 4. Zbieranie danych z baz danych (147)

    • 43. Użycie yahoo2mbox do pobierania wiadomości z grup Yahoo! (147)
    • 44. Archiwizacja wiadomości z grup Yahoo! za pomocą WWW::Yahoo::Groups (149)
    • 45. Zbieranie Buzz z Yahoo! (153)
    • 46. Pająki w katalogu Yahoo! (155)
    • 47. Śledzenie nowości Yahoo! (162)
    • 48. Szukanie rozproszone w Yahoo! i Google (164)
    • 49. Idea mindshare i katalog Yahoo! w Google (168)
    • 50. Wyniki z Google bez dzienników sieciowych (172)
    • 51. Pająki, Google a wiele domen (174)
    • 52. Pobieranie recenzji z Amazon.com (178)
    • 53. Pobieranie drogą pocztową nowo dodanych na Amazon.com recenzji (180)
    • 54. Pobieranie zaleceń dla klienta Amazon.com (183)
    • 55. Publikowanie statystyk Amazon.com Associates (185)
    • 56. Sortowanie Amazon.com według ocen klientów (187)
    • 57. Alexa i produkty podobne na Amazon.com (190)
    • 58. Użycie Javy do pobierania danych z Alexy (194)
    • 59. Znajdowanie danych o albumie za pomocą FreeDB i Amazon.com (196)
    • 60. Poszerzanie swoich horyzontów muzycznych (203)
    • 61. Horoskop na co dzień (207)
    • 62. Graficzna prezentacja danych: RRDTOOL (209)
    • 63. Zbieranie notowań giełdowych (213)
    • 64. Wszystko o autorze (216)
    • 65. Bestsellery wydawnictwa O'Reilly a zainteresowanie w bibliotece (230)
    • 66. Listy książek z All Consuming (233)
    • 67. Śledzenie paczek FedEx (238)
    • 68. Szukanie nowych komentarzy w dziennikach sieciowych (240)
    • 69. Agregowanie RSS i przesyłanie zmian (244)
    • 70. Użycie Link Cosmos na Technorati (251)
    • 71. Szukanie powiązanych pakietów RSS (254)
    • 72. Automatyczne znajdowanie interesujących nas dzienników sieciowych (264)
    • 73. Pobieranie zapowiedzi programu telewizyjnego (267)
    • 74. Jaka jest pogoda u Twojego gościa? (271)
    • 75. Określanie trendów według lokalizacji (274)
    • 76. Znajdowanie najlepszych połączeń kolejowych (279)
    • 77. Palcem po mapie (282)
    • 78. Angielski słowniczek (287)
    • 79. Związki słów w Lexical Freenet (291)
    • 80. Zmiana formatowania raportów Bugtraq (294)
    • 81. Zakładki w sieci via e-mail (298)
    • 82. Publikacja w swojej witrynie zakładki Ulubione (304)
    • 83. Analiza cen gier w GameStop.com (311)
    • 84. Na zakupy z PHP (313)
    • 85. Łączenie wyników z różnych wyszukiwarek (319)
    • 86. Robot Karaoke (323)
    • 87. Przeszukiwanie Biur na Rzecz Poprawy Jakości Usług (326)
    • 88. Szukanie ocen sanitarnych (329)
    • 89. Nieprzyzwoitości mówimy nie! (332)

    Rozdział 5. W trosce o własny stan posiadania (335)

    • 90. Użycie crona do automatyzacji zadań (335)
    • 91. Terminowe wykonywanie zadań bez crona (337)
    • 92. Tworzenie kopii witryn za pomocą wget i rsync (341)
    • 93. Gromadzenie wyników poszukiwań (344)

    Rozdział 6. Teraz my dla innych (349)

    • 94. Użycie XML::RSS do przekształcania danych (350)
    • 95. Umieszczanie w witrynie nagłówków RSS (353)
    • 96. Udostępniamy naszą witrynę dla wyrażeń regularnych (356)
    • 97. Udostępnianie naszych zasobów dla automatów za pomocą interfejsu REST (362)
    • 98. Udostępnianie zasobów przy użyciu XML-RPC (365)
    • 99. Tworzenie interfejsu IM (369)
    • 100. Co dalej? (372)

    Tworzenie stron WWW, Roboty sieciowe


    Podobne książki:


    ASP.NET programowanie ASP.NET programowanie ASP.NET to jedna z najpopularniejszych obecnie technologii tworzenia dynamicznych witryn WWW i aplikacji internetowych. Autor tej technologii, Microsoft udostępnił twórcom doskonałe narzędzia programistyczne oraz bogaty zbiór bibliotek i kontrolek....
     
    ABC tworzenia stron WWW wydanie II ABC tworzenia stron WWW wydanie II Dziś posiadanie własnej witryny WWW nie jest już wyłącznie domeną przedsiębiorstw promujących w ten sposób swoją ofertę. Coraz więcej użytkowników sieci prezentuje na własnych stronach WWW wykonane przez siebie fotografie, relacje z wakacji,...
     
    HTML 4 Ćwiczenia praktyczne Strony WWW możemy śmiało powiedzieć, że są fundamentem Internetu i od nich się wszystko zaczęło. Za wygląd stron odpowiada język HTML, który podobnie jak sam Internet, przeszedł ogromne zmiany, poczynając od zwykłych tekstowych dokumentów po...