/brz/remove-bazaar

To get this branch, use:
bzr branch http://gegoxaren.bato24.eu/bzr/brz/remove-bazaar

« back to all changes in this revision

Viewing changes to breezy/bzr/_groupcompress_py.py

[merge] robertc's integration, updated tests to check for retcode=3

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2009 Canonical Ltd
2
 
#
3
 
# This program is free software; you can redistribute it and/or modify
4
 
# it under the terms of the GNU General Public License as published by
5
 
# the Free Software Foundation; either version 2 of the License, or
6
 
# (at your option) any later version.
7
 
#
8
 
# This program is distributed in the hope that it will be useful,
9
 
# but WITHOUT ANY WARRANTY; without even the implied warranty of
10
 
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
11
 
# GNU General Public License for more details.
12
 
#
13
 
# You should have received a copy of the GNU General Public License
14
 
# along with this program; if not, write to the Free Software
15
 
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
16
 
 
17
 
"""Python version of compiled extensions for doing compression.
18
 
 
19
 
We separate the implementation from the groupcompress.py to avoid importing
20
 
useless stuff.
21
 
"""
22
 
 
23
 
from __future__ import absolute_import
24
 
 
25
 
from .. import osutils
26
 
from ..sixish import (
27
 
    indexbytes,
28
 
    int2byte,
29
 
    range,
30
 
    )
31
 
 
32
 
 
33
 
class _OutputHandler(object):
34
 
    """A simple class which just tracks how to split up an insert request."""
35
 
 
36
 
    def __init__(self, out_lines, index_lines, min_len_to_index):
37
 
        self.out_lines = out_lines
38
 
        self.index_lines = index_lines
39
 
        self.min_len_to_index = min_len_to_index
40
 
        self.cur_insert_lines = []
41
 
        self.cur_insert_len = 0
42
 
 
43
 
    def add_copy(self, start_byte, end_byte):
44
 
        # The data stream allows >64kB in a copy, but to match the compiled
45
 
        # code, we will also limit it to a 64kB copy
46
 
        for start_byte in range(start_byte, end_byte, 64 * 1024):
47
 
            num_bytes = min(64 * 1024, end_byte - start_byte)
48
 
            copy_bytes = encode_copy_instruction(start_byte, num_bytes)
49
 
            self.out_lines.append(copy_bytes)
50
 
            self.index_lines.append(False)
51
 
 
52
 
    def _flush_insert(self):
53
 
        if not self.cur_insert_lines:
54
 
            return
55
 
        if self.cur_insert_len > 127:
56
 
            raise AssertionError('We cannot insert more than 127 bytes'
57
 
                                 ' at a time.')
58
 
        self.out_lines.append(int2byte(self.cur_insert_len))
59
 
        self.index_lines.append(False)
60
 
        self.out_lines.extend(self.cur_insert_lines)
61
 
        if self.cur_insert_len < self.min_len_to_index:
62
 
            self.index_lines.extend([False] * len(self.cur_insert_lines))
63
 
        else:
64
 
            self.index_lines.extend([True] * len(self.cur_insert_lines))
65
 
        self.cur_insert_lines = []
66
 
        self.cur_insert_len = 0
67
 
 
68
 
    def _insert_long_line(self, line):
69
 
        # Flush out anything pending
70
 
        self._flush_insert()
71
 
        line_len = len(line)
72
 
        for start_index in range(0, line_len, 127):
73
 
            next_len = min(127, line_len - start_index)
74
 
            self.out_lines.append(int2byte(next_len))
75
 
            self.index_lines.append(False)
76
 
            self.out_lines.append(line[start_index:start_index + next_len])
77
 
            # We don't index long lines, because we won't be able to match
78
 
            # a line split across multiple inserts anway
79
 
            self.index_lines.append(False)
80
 
 
81
 
    def add_insert(self, lines):
82
 
        if self.cur_insert_lines != []:
83
 
            raise AssertionError('self.cur_insert_lines must be empty when'
84
 
                                 ' adding a new insert')
85
 
        for line in lines:
86
 
            if len(line) > 127:
87
 
                self._insert_long_line(line)
88
 
            else:
89
 
                next_len = len(line) + self.cur_insert_len
90
 
                if next_len > 127:
91
 
                    # Adding this line would overflow, so flush, and start over
92
 
                    self._flush_insert()
93
 
                    self.cur_insert_lines = [line]
94
 
                    self.cur_insert_len = len(line)
95
 
                else:
96
 
                    self.cur_insert_lines.append(line)
97
 
                    self.cur_insert_len = next_len
98
 
        self._flush_insert()
99
 
 
100
 
 
101
 
class LinesDeltaIndex(object):
102
 
    """This class indexes matches between strings.
103
 
 
104
 
    :ivar lines: The 'static' lines that will be preserved between runs.
105
 
    :ivar _matching_lines: A dict of {line:[matching offsets]}
106
 
    :ivar line_offsets: The byte offset for the end of each line, used to
107
 
        quickly map between a matching line number and the byte location
108
 
    :ivar endpoint: The total number of bytes in self.line_offsets
109
 
    """
110
 
 
111
 
    _MIN_MATCH_BYTES = 10
112
 
    _SOFT_MIN_MATCH_BYTES = 200
113
 
 
114
 
    def __init__(self, lines):
115
 
        self.lines = []
116
 
        self.line_offsets = []
117
 
        self.endpoint = 0
118
 
        self._matching_lines = {}
119
 
        self.extend_lines(lines, [True] * len(lines))
120
 
 
121
 
    def _update_matching_lines(self, new_lines, index):
122
 
        matches = self._matching_lines
123
 
        start_idx = len(self.lines)
124
 
        if len(new_lines) != len(index):
125
 
            raise AssertionError('The number of lines to be indexed does'
126
 
                                 ' not match the index/don\'t index flags: %d != %d'
127
 
                                 % (len(new_lines), len(index)))
128
 
        for idx, do_index in enumerate(index):
129
 
            if not do_index:
130
 
                continue
131
 
            line = new_lines[idx]
132
 
            try:
133
 
                matches[line].add(start_idx + idx)
134
 
            except KeyError:
135
 
                matches[line] = {start_idx + idx}
136
 
 
137
 
    def get_matches(self, line):
138
 
        """Return the lines which match the line in right."""
139
 
        try:
140
 
            return self._matching_lines[line]
141
 
        except KeyError:
142
 
            return None
143
 
 
144
 
    def _get_longest_match(self, lines, pos):
145
 
        """Look at all matches for the current line, return the longest.
146
 
 
147
 
        :param lines: The lines we are matching against
148
 
        :param pos: The current location we care about
149
 
        :param locations: A list of lines that matched the current location.
150
 
            This may be None, but often we'll have already found matches for
151
 
            this line.
152
 
        :return: (start_in_self, start_in_lines, num_lines)
153
 
            All values are the offset in the list (aka the line number)
154
 
            If start_in_self is None, then we have no matches, and this line
155
 
            should be inserted in the target.
156
 
        """
157
 
        range_start = pos
158
 
        range_len = 0
159
 
        prev_locations = None
160
 
        max_pos = len(lines)
161
 
        matching = self._matching_lines
162
 
        while pos < max_pos:
163
 
            try:
164
 
                locations = matching[lines[pos]]
165
 
            except KeyError:
166
 
                # No more matches, just return whatever we have, but we know
167
 
                # that this last position is not going to match anything
168
 
                pos += 1
169
 
                break
170
 
            # We have a match
171
 
            if prev_locations is None:
172
 
                # This is the first match in a range
173
 
                prev_locations = locations
174
 
                range_len = 1
175
 
                locations = None  # Consumed
176
 
            else:
177
 
                # We have a match started, compare to see if any of the
178
 
                # current matches can be continued
179
 
                next_locations = locations.intersection([loc + 1 for loc
180
 
                                                         in prev_locations])
181
 
                if next_locations:
182
 
                    # At least one of the regions continues to match
183
 
                    prev_locations = set(next_locations)
184
 
                    range_len += 1
185
 
                    locations = None  # Consumed
186
 
                else:
187
 
                    # All current regions no longer match.
188
 
                    # This line does still match something, just not at the
189
 
                    # end of the previous matches. We will return locations
190
 
                    # so that we can avoid another _matching_lines lookup.
191
 
                    break
192
 
            pos += 1
193
 
        if prev_locations is None:
194
 
            # We have no matches, this is a pure insert
195
 
            return None, pos
196
 
        smallest = min(prev_locations)
197
 
        return (smallest - range_len + 1, range_start, range_len), pos
198
 
 
199
 
    def get_matching_blocks(self, lines, soft=False):
200
 
        """Return the ranges in lines which match self.lines.
201
 
 
202
 
        :param lines: lines to compress
203
 
        :return: A list of (old_start, new_start, length) tuples which reflect
204
 
            a region in self.lines that is present in lines.  The last element
205
 
            of the list is always (old_len, new_len, 0) to provide a end point
206
 
            for generating instructions from the matching blocks list.
207
 
        """
208
 
        # In this code, we iterate over multiple _get_longest_match calls, to
209
 
        # find the next longest copy, and possible insert regions. We then
210
 
        # convert that to the simple matching_blocks representation, since
211
 
        # otherwise inserting 10 lines in a row would show up as 10
212
 
        # instructions.
213
 
        result = []
214
 
        pos = 0
215
 
        max_pos = len(lines)
216
 
        result_append = result.append
217
 
        min_match_bytes = self._MIN_MATCH_BYTES
218
 
        if soft:
219
 
            min_match_bytes = self._SOFT_MIN_MATCH_BYTES
220
 
        while pos < max_pos:
221
 
            block, pos = self._get_longest_match(lines, pos)
222
 
            if block is not None:
223
 
                # Check to see if we match fewer than min_match_bytes. As we
224
 
                # will turn this into a pure 'insert', rather than a copy.
225
 
                # block[-1] is the number of lines. A quick check says if we
226
 
                # have more lines than min_match_bytes, then we know we have
227
 
                # enough bytes.
228
 
                if block[-1] < min_match_bytes:
229
 
                    # This block may be a 'short' block, check
230
 
                    old_start, new_start, range_len = block
231
 
                    matched_bytes = sum(map(len, lines[new_start:new_start + range_len]))
232
 
                    if matched_bytes < min_match_bytes:
233
 
                        block = None
234
 
            if block is not None:
235
 
                result_append(block)
236
 
        result_append((len(self.lines), len(lines), 0))
237
 
        return result
238
 
 
239
 
    def extend_lines(self, lines, index):
240
 
        """Add more lines to the left-lines list.
241
 
 
242
 
        :param lines: A list of lines to add
243
 
        :param index: A True/False for each node to define if it should be
244
 
            indexed.
245
 
        """
246
 
        self._update_matching_lines(lines, index)
247
 
        self.lines.extend(lines)
248
 
        endpoint = self.endpoint
249
 
        for line in lines:
250
 
            endpoint += len(line)
251
 
            self.line_offsets.append(endpoint)
252
 
        if len(self.line_offsets) != len(self.lines):
253
 
            raise AssertionError('Somehow the line offset indicator'
254
 
                                 ' got out of sync with the line counter.')
255
 
        self.endpoint = endpoint
256
 
 
257
 
    def _flush_insert(self, start_linenum, end_linenum,
258
 
                      new_lines, out_lines, index_lines):
259
 
        """Add an 'insert' request to the data stream."""
260
 
        bytes_to_insert = b''.join(new_lines[start_linenum:end_linenum])
261
 
        insert_length = len(bytes_to_insert)
262
 
        # Each insert instruction is at most 127 bytes long
263
 
        for start_byte in range(0, insert_length, 127):
264
 
            insert_count = min(insert_length - start_byte, 127)
265
 
            out_lines.append(int2byte(insert_count))
266
 
            # Don't index the 'insert' instruction
267
 
            index_lines.append(False)
268
 
            insert = bytes_to_insert[start_byte:start_byte + insert_count]
269
 
            as_lines = osutils.split_lines(insert)
270
 
            out_lines.extend(as_lines)
271
 
            index_lines.extend([True] * len(as_lines))
272
 
 
273
 
    def _flush_copy(self, old_start_linenum, num_lines,
274
 
                    out_lines, index_lines):
275
 
        if old_start_linenum == 0:
276
 
            first_byte = 0
277
 
        else:
278
 
            first_byte = self.line_offsets[old_start_linenum - 1]
279
 
        stop_byte = self.line_offsets[old_start_linenum + num_lines - 1]
280
 
        num_bytes = stop_byte - first_byte
281
 
        # The data stream allows >64kB in a copy, but to match the compiled
282
 
        # code, we will also limit it to a 64kB copy
283
 
        for start_byte in range(first_byte, stop_byte, 64 * 1024):
284
 
            num_bytes = min(64 * 1024, stop_byte - start_byte)
285
 
            copy_bytes = encode_copy_instruction(start_byte, num_bytes)
286
 
            out_lines.append(copy_bytes)
287
 
            index_lines.append(False)
288
 
 
289
 
    def make_delta(self, new_lines, bytes_length, soft=False):
290
 
        """Compute the delta for this content versus the original content."""
291
 
        # reserved for content type, content length
292
 
        out_lines = [b'', b'', encode_base128_int(bytes_length)]
293
 
        index_lines = [False, False, False]
294
 
        output_handler = _OutputHandler(out_lines, index_lines,
295
 
                                        self._MIN_MATCH_BYTES)
296
 
        blocks = self.get_matching_blocks(new_lines, soft=soft)
297
 
        current_line_num = 0
298
 
        # We either copy a range (while there are reusable lines) or we
299
 
        # insert new lines. To find reusable lines we traverse
300
 
        for old_start, new_start, range_len in blocks:
301
 
            if new_start != current_line_num:
302
 
                # non-matching region, insert the content
303
 
                output_handler.add_insert(
304
 
                    new_lines[current_line_num:new_start])
305
 
            current_line_num = new_start + range_len
306
 
            if range_len:
307
 
                # Convert the line based offsets into byte based offsets
308
 
                if old_start == 0:
309
 
                    first_byte = 0
310
 
                else:
311
 
                    first_byte = self.line_offsets[old_start - 1]
312
 
                last_byte = self.line_offsets[old_start + range_len - 1]
313
 
                output_handler.add_copy(first_byte, last_byte)
314
 
        return out_lines, index_lines
315
 
 
316
 
 
317
 
def encode_base128_int(val):
318
 
    """Convert an integer into a 7-bit lsb encoding."""
319
 
    data = bytearray()
320
 
    count = 0
321
 
    while val >= 0x80:
322
 
        data.append((val | 0x80) & 0xFF)
323
 
        val >>= 7
324
 
    data.append(val)
325
 
    return bytes(data)
326
 
 
327
 
 
328
 
def decode_base128_int(data):
329
 
    """Decode an integer from a 7-bit lsb encoding."""
330
 
    offset = 0
331
 
    val = 0
332
 
    shift = 0
333
 
    bval = indexbytes(data, offset)
334
 
    while bval >= 0x80:
335
 
        val |= (bval & 0x7F) << shift
336
 
        shift += 7
337
 
        offset += 1
338
 
        bval = indexbytes(data, offset)
339
 
    val |= bval << shift
340
 
    offset += 1
341
 
    return val, offset
342
 
 
343
 
 
344
 
def encode_copy_instruction(offset, length):
345
 
    """Convert this offset into a control code and bytes."""
346
 
    copy_command = 0x80
347
 
    copy_bytes = [None]
348
 
 
349
 
    for copy_bit in (0x01, 0x02, 0x04, 0x08):
350
 
        base_byte = offset & 0xff
351
 
        if base_byte:
352
 
            copy_command |= copy_bit
353
 
            copy_bytes.append(int2byte(base_byte))
354
 
        offset >>= 8
355
 
    if length is None:
356
 
        raise ValueError("cannot supply a length of None")
357
 
    if length > 0x10000:
358
 
        raise ValueError("we don't emit copy records for lengths > 64KiB")
359
 
    if length == 0:
360
 
        raise ValueError("We cannot emit a copy of length 0")
361
 
    if length != 0x10000:
362
 
        # A copy of length exactly 64*1024 == 0x10000 is sent as a length of 0,
363
 
        # since that saves bytes for large chained copies
364
 
        for copy_bit in (0x10, 0x20):
365
 
            base_byte = length & 0xff
366
 
            if base_byte:
367
 
                copy_command |= copy_bit
368
 
                copy_bytes.append(int2byte(base_byte))
369
 
            length >>= 8
370
 
    copy_bytes[0] = int2byte(copy_command)
371
 
    return b''.join(copy_bytes)
372
 
 
373
 
 
374
 
def decode_copy_instruction(bytes, cmd, pos):
375
 
    """Decode a copy instruction from the next few bytes.
376
 
 
377
 
    A copy instruction is a variable number of bytes, so we will parse the
378
 
    bytes we care about, and return the new position, as well as the offset and
379
 
    length referred to in the bytes.
380
 
 
381
 
    :param bytes: A string of bytes
382
 
    :param cmd: The command code
383
 
    :param pos: The position in bytes right after the copy command
384
 
    :return: (offset, length, newpos)
385
 
        The offset of the copy start, the number of bytes to copy, and the
386
 
        position after the last byte of the copy
387
 
    """
388
 
    if cmd & 0x80 != 0x80:
389
 
        raise ValueError('copy instructions must have bit 0x80 set')
390
 
    offset = 0
391
 
    length = 0
392
 
    if (cmd & 0x01):
393
 
        offset = indexbytes(bytes, pos)
394
 
        pos += 1
395
 
    if (cmd & 0x02):
396
 
        offset = offset | (indexbytes(bytes, pos) << 8)
397
 
        pos += 1
398
 
    if (cmd & 0x04):
399
 
        offset = offset | (indexbytes(bytes, pos) << 16)
400
 
        pos += 1
401
 
    if (cmd & 0x08):
402
 
        offset = offset | (indexbytes(bytes, pos) << 24)
403
 
        pos += 1
404
 
    if (cmd & 0x10):
405
 
        length = indexbytes(bytes, pos)
406
 
        pos += 1
407
 
    if (cmd & 0x20):
408
 
        length = length | (indexbytes(bytes, pos) << 8)
409
 
        pos += 1
410
 
    if (cmd & 0x40):
411
 
        length = length | (indexbytes(bytes, pos) << 16)
412
 
        pos += 1
413
 
    if length == 0:
414
 
        length = 65536
415
 
    return (offset, length, pos)
416
 
 
417
 
 
418
 
def make_delta(source_bytes, target_bytes):
419
 
    """Create a delta from source to target."""
420
 
    if not isinstance(source_bytes, bytes):
421
 
        raise TypeError('source is not bytes')
422
 
    if not isinstance(target_bytes, bytes):
423
 
        raise TypeError('target is not bytes')
424
 
    line_locations = LinesDeltaIndex(osutils.split_lines(source_bytes))
425
 
    delta, _ = line_locations.make_delta(osutils.split_lines(target_bytes),
426
 
                                         bytes_length=len(target_bytes))
427
 
    return b''.join(delta)
428
 
 
429
 
 
430
 
def apply_delta(basis, delta):
431
 
    """Apply delta to this object to become new_version_id."""
432
 
    if not isinstance(basis, bytes):
433
 
        raise TypeError('basis is not bytes')
434
 
    if not isinstance(delta, bytes):
435
 
        raise TypeError('delta is not bytes')
436
 
    target_length, pos = decode_base128_int(delta)
437
 
    lines = []
438
 
    len_delta = len(delta)
439
 
    while pos < len_delta:
440
 
        cmd = indexbytes(delta, pos)
441
 
        pos += 1
442
 
        if cmd & 0x80:
443
 
            offset, length, pos = decode_copy_instruction(delta, cmd, pos)
444
 
            last = offset + length
445
 
            if last > len(basis):
446
 
                raise ValueError('data would copy bytes past the'
447
 
                                 'end of source')
448
 
            lines.append(basis[offset:last])
449
 
        else:  # Insert of 'cmd' bytes
450
 
            if cmd == 0:
451
 
                raise ValueError('Command == 0 not supported yet')
452
 
            lines.append(delta[pos:pos + cmd])
453
 
            pos += cmd
454
 
    data = b''.join(lines)
455
 
    if len(data) != target_length:
456
 
        raise ValueError('Delta claimed to be %d long, but ended up'
457
 
                         ' %d long' % (target_length, len(bytes)))
458
 
    return data
459
 
 
460
 
 
461
 
def apply_delta_to_source(source, delta_start, delta_end):
462
 
    """Extract a delta from source bytes, and apply it."""
463
 
    source_size = len(source)
464
 
    if delta_start >= source_size:
465
 
        raise ValueError('delta starts after source')
466
 
    if delta_end > source_size:
467
 
        raise ValueError('delta ends after source')
468
 
    if delta_start >= delta_end:
469
 
        raise ValueError('delta starts after it ends')
470
 
    delta_bytes = source[delta_start:delta_end]
471
 
    return apply_delta(source, delta_bytes)