1
# Copyright (C) 2006 Canonical Ltd
 
 
3
# This program is free software; you can redistribute it and/or modify
 
 
4
# it under the terms of the GNU General Public License as published by
 
 
5
# the Free Software Foundation; either version 2 of the License, or
 
 
6
# (at your option) any later version.
 
 
8
# This program is distributed in the hope that it will be useful,
 
 
9
# but WITHOUT ANY WARRANTY; without even the implied warranty of
 
 
10
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 
 
11
# GNU General Public License for more details.
 
 
13
# You should have received a copy of the GNU General Public License
 
 
14
# along with this program; if not, write to the Free Software
 
 
15
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
 
 
20
from SimpleHTTPServer import SimpleHTTPRequestHandler
 
 
31
from bzrlib.transport import Server
 
 
34
class WebserverNotAvailable(Exception):
 
 
38
class BadWebserverPath(ValueError):
 
 
40
        return 'path %s is not in %s' % self.args
 
 
43
class TestingHTTPRequestHandler(SimpleHTTPRequestHandler):
 
 
45
    def log_message(self, format, *args):
 
 
46
        self.server.test_case.log('webserver - %s - - [%s] %s "%s" "%s"',
 
 
47
                                  self.address_string(),
 
 
48
                                  self.log_date_time_string(),
 
 
50
                                  self.headers.get('referer', '-'),
 
 
51
                                  self.headers.get('user-agent', '-'))
 
 
53
    def handle_one_request(self):
 
 
54
        """Handle a single HTTP request.
 
 
56
        You normally don't need to override this method; see the class
 
 
57
        __doc__ string for information on how to handle specific HTTP
 
 
58
        commands such as GET and POST.
 
 
61
        for i in xrange(1,11): # Don't try more than 10 times
 
 
63
                self.raw_requestline = self.rfile.readline()
 
 
64
            except socket.error, e:
 
 
65
                if e.args[0] in (errno.EAGAIN, errno.EWOULDBLOCK):
 
 
66
                    # omitted for now because some tests look at the log of
 
 
67
                    # the server and expect to see no errors.  see recent
 
 
68
                    # email thread. -- mbp 20051021. 
 
 
69
                    ## self.log_message('EAGAIN (%d) while reading from raw_requestline' % i)
 
 
75
        if not self.raw_requestline:
 
 
76
            self.close_connection = 1
 
 
78
        if not self.parse_request(): # An error code has been sent, just exit
 
 
80
        mname = 'do_' + self.command
 
 
81
        if getattr(self, mname, None) is None:
 
 
82
            self.send_error(501, "Unsupported method (%r)" % self.command)
 
 
84
        method = getattr(self, mname)
 
 
87
    _range_regexp = re.compile(r'^(?P<start>\d+)-(?P<end>\d+)$')
 
 
88
    _tail_regexp = re.compile(r'^-(?P<tail>\d+)$')
 
 
90
    def parse_ranges(self, ranges_header):
 
 
91
        """Parse the range header value and returns ranges and tail.
 
 
93
        RFC2616 14.35 says that syntactically invalid range
 
 
94
        specifiers MUST be ignored. In that case, we return 0 for
 
 
95
        tail and [] for ranges.
 
 
99
        if not ranges_header.startswith('bytes='):
 
 
100
            # Syntactically invalid header
 
 
103
        ranges_header = ranges_header[len('bytes='):]
 
 
104
        for range_str in ranges_header.split(','):
 
 
105
            # FIXME: RFC2616 says end is optional and default to file_size
 
 
106
            range_match = self._range_regexp.match(range_str)
 
 
107
            if range_match is not None:
 
 
108
                start = int(range_match.group('start'))
 
 
109
                end = int(range_match.group('end'))
 
 
111
                    # Syntactically invalid range
 
 
113
                ranges.append((start, end))
 
 
115
                tail_match = self._tail_regexp.match(range_str)
 
 
116
                if tail_match is not None:
 
 
117
                    tail = int(tail_match.group('tail'))
 
 
119
                    # Syntactically invalid range
 
 
123
    def send_range_content(self, file, start, length):
 
 
125
        self.wfile.write(file.read(length))
 
 
127
    def get_single_range(self, file, file_size, start, end):
 
 
128
        self.send_response(206)
 
 
129
        length = end - start + 1
 
 
130
        self.send_header('Accept-Ranges', 'bytes')
 
 
131
        self.send_header("Content-Length", "%d" % length)
 
 
133
        self.send_header("Content-Type", 'application/octet-stream')
 
 
134
        self.send_header("Content-Range", "bytes %d-%d/%d" % (start,
 
 
138
        self.send_range_content(file, start, length)
 
 
140
    def get_multiple_ranges(self, file, file_size, ranges):
 
 
141
        self.send_response(206)
 
 
142
        self.send_header('Accept-Ranges', 'bytes')
 
 
143
        boundary = "%d" % random.randint(0,0x7FFFFFFF)
 
 
144
        self.send_header("Content-Type",
 
 
145
                         "multipart/byteranges; boundary=%s" % boundary)
 
 
147
        for (start, end) in ranges:
 
 
148
            self.wfile.write("--%s\r\n" % boundary)
 
 
149
            self.send_header("Content-type", 'application/octet-stream')
 
 
150
            self.send_header("Content-Range", "bytes %d-%d/%d" % (start,
 
 
154
            self.send_range_content(file, start, end - start + 1)
 
 
155
            self.wfile.write("--%s\r\n" % boundary)
 
 
159
        """Serve a GET request.
 
 
161
        Handles the Range header.
 
 
164
        path = self.translate_path(self.path)
 
 
165
        ranges_header_value = self.headers.get('Range')
 
 
166
        if ranges_header_value is None or os.path.isdir(path):
 
 
167
            # Let the mother class handle most cases
 
 
168
            return SimpleHTTPRequestHandler.do_GET(self)
 
 
171
            # Always read in binary mode. Opening files in text
 
 
172
            # mode may cause newline translations, making the
 
 
173
            # actual size of the content transmitted *less* than
 
 
174
            # the content-length!
 
 
175
            file = open(path, 'rb')
 
 
177
            self.send_error(404, "File not found")
 
 
180
        file_size = os.fstat(file.fileno())[6]
 
 
181
        tail, ranges = self.parse_ranges(ranges_header_value)
 
 
182
        # Normalize tail into ranges
 
 
184
            ranges.append((file_size - tail, file_size))
 
 
186
        self._satisfiable_ranges = True
 
 
188
            self._satisfiable_ranges = False
 
 
190
            def check_range(range_specifier):
 
 
191
                start, end = range_specifier
 
 
192
                # RFC2616 14.35, ranges are invalid if start >= file_size
 
 
193
                if start >= file_size:
 
 
194
                    self._satisfiable_ranges = False # Side-effect !
 
 
196
                # RFC2616 14.35, end values should be truncated
 
 
197
                # to file_size -1 if they exceed it
 
 
198
                end = min(end, file_size - 1)
 
 
201
            ranges = map(check_range, ranges)
 
 
203
        if not self._satisfiable_ranges:
 
 
204
            # RFC2616 14.16 and 14.35 says that when a server
 
 
205
            # encounters unsatisfiable range specifiers, it
 
 
206
            # SHOULD return a 416.
 
 
208
            # FIXME: We SHOULD send a Content-Range header too,
 
 
209
            # but the implementation of send_error does not
 
 
210
            # allows that. So far.
 
 
211
            self.send_error(416, "Requested range not satisfiable")
 
 
215
            (start, end) = ranges[0]
 
 
216
            self.get_single_range(file, file_size, start, end)
 
 
218
            self.get_multiple_ranges(file, file_size, ranges)
 
 
221
    if sys.platform == 'win32':
 
 
222
        # On win32 you cannot access non-ascii filenames without
 
 
223
        # decoding them into unicode first.
 
 
224
        # However, under Linux, you can access bytestream paths
 
 
225
        # without any problems. If this function was always active
 
 
226
        # it would probably break tests when LANG=C was set
 
 
227
        def translate_path(self, path):
 
 
228
            """Translate a /-separated PATH to the local filename syntax.
 
 
230
            For bzr, all url paths are considered to be utf8 paths.
 
 
231
            On Linux, you can access these paths directly over the bytestream
 
 
232
            request, but on win32, you must decode them, and access them
 
 
235
            # abandon query parameters
 
 
236
            path = urlparse.urlparse(path)[2]
 
 
237
            path = posixpath.normpath(urllib.unquote(path))
 
 
238
            path = path.decode('utf-8')
 
 
239
            words = path.split('/')
 
 
240
            words = filter(None, words)
 
 
243
                drive, word = os.path.splitdrive(word)
 
 
244
                head, word = os.path.split(word)
 
 
245
                if word in (os.curdir, os.pardir): continue
 
 
246
                path = os.path.join(path, word)
 
 
250
class TestingHTTPServer(BaseHTTPServer.HTTPServer):
 
 
251
    def __init__(self, server_address, RequestHandlerClass, test_case):
 
 
252
        BaseHTTPServer.HTTPServer.__init__(self, server_address,
 
 
254
        self.test_case = test_case
 
 
257
class HttpServer(Server):
 
 
258
    """A test server for http transports.
 
 
260
    Subclasses can provide a specific request handler.
 
 
263
    # used to form the url that connects to this server
 
 
264
    _url_protocol = 'http'
 
 
266
    # Subclasses can provide a specific request handler
 
 
267
    def __init__(self, request_handler=TestingHTTPRequestHandler):
 
 
268
        Server.__init__(self)
 
 
269
        self.request_handler = request_handler
 
 
271
    def _get_httpd(self):
 
 
272
        return TestingHTTPServer(('localhost', 0),
 
 
273
                                  self.request_handler,
 
 
276
    def _http_start(self):
 
 
278
        httpd = self._get_httpd()
 
 
279
        host, self.port = httpd.socket.getsockname()
 
 
280
        self._http_base_url = '%s://localhost:%s/' % (self._url_protocol,
 
 
282
        self._http_starting.release()
 
 
283
        httpd.socket.settimeout(0.1)
 
 
285
        while self._http_running:
 
 
287
                httpd.handle_request()
 
 
288
            except socket.timeout:
 
 
291
    def _get_remote_url(self, path):
 
 
292
        path_parts = path.split(os.path.sep)
 
 
293
        if os.path.isabs(path):
 
 
294
            if path_parts[:len(self._local_path_parts)] != \
 
 
295
                   self._local_path_parts:
 
 
296
                raise BadWebserverPath(path, self.test_dir)
 
 
297
            remote_path = '/'.join(path_parts[len(self._local_path_parts):])
 
 
299
            remote_path = '/'.join(path_parts)
 
 
301
        return self._http_base_url + remote_path
 
 
303
    def log(self, format, *args):
 
 
304
        """Capture Server log output."""
 
 
305
        self.logs.append(format % args)
 
 
308
        """See bzrlib.transport.Server.setUp."""
 
 
309
        self._home_dir = os.getcwdu()
 
 
310
        self._local_path_parts = self._home_dir.split(os.path.sep)
 
 
311
        self._http_starting = threading.Lock()
 
 
312
        self._http_starting.acquire()
 
 
313
        self._http_running = True
 
 
314
        self._http_base_url = None
 
 
315
        self._http_thread = threading.Thread(target=self._http_start)
 
 
316
        self._http_thread.setDaemon(True)
 
 
317
        self._http_thread.start()
 
 
318
        # Wait for the server thread to start (i.e release the lock)
 
 
319
        self._http_starting.acquire()
 
 
320
        self._http_starting.release()
 
 
324
        """See bzrlib.transport.Server.tearDown."""
 
 
325
        self._http_running = False
 
 
326
        self._http_thread.join()
 
 
329
        """See bzrlib.transport.Server.get_url."""
 
 
330
        return self._get_remote_url(self._home_dir)
 
 
332
    def get_bogus_url(self):
 
 
333
        """See bzrlib.transport.Server.get_bogus_url."""
 
 
334
        # this is chosen to try to prevent trouble with proxies, weird dns,
 
 
336
        return 'http://127.0.0.1:1/'
 
 
339
class HttpServer_urllib(HttpServer):
 
 
340
    """Subclass of HttpServer that gives http+urllib urls.
 
 
342
    This is for use in testing: connections to this server will always go
 
 
343
    through urllib where possible.
 
 
346
    # urls returned by this server should require the urllib client impl
 
 
347
    _url_protocol = 'http+urllib'
 
 
350
class HttpServer_PyCurl(HttpServer):
 
 
351
    """Subclass of HttpServer that gives http+pycurl urls.
 
 
353
    This is for use in testing: connections to this server will always go
 
 
354
    through pycurl where possible.
 
 
357
    # We don't care about checking the pycurl availability as
 
 
358
    # this server will be required only when pycurl is present
 
 
360
    # urls returned by this server should require the pycurl client impl
 
 
361
    _url_protocol = 'http+pycurl'