/brz/remove-bazaar

To get this branch, use:
bzr branch http://gegoxaren.bato24.eu/bzr/brz/remove-bazaar

« back to all changes in this revision

Viewing changes to bzrlib/weave.py

  • Committer: Martin Pool
  • Date: 2005-09-13 08:20:13 UTC
  • Revision ID: mbp@sourcefrog.net-20050913082013-15b0ffec911f2a0c
- fix up imports

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
#! /usr/bin/python
 
2
 
 
3
# Copyright (C) 2005 Canonical Ltd
 
4
 
 
5
# This program is free software; you can redistribute it and/or modify
 
6
# it under the terms of the GNU General Public License as published by
 
7
# the Free Software Foundation; either version 2 of the License, or
 
8
# (at your option) any later version.
 
9
 
 
10
# This program is distributed in the hope that it will be useful,
 
11
# but WITHOUT ANY WARRANTY; without even the implied warranty of
 
12
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 
13
# GNU General Public License for more details.
 
14
 
 
15
# You should have received a copy of the GNU General Public License
 
16
# along with this program; if not, write to the Free Software
 
17
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
 
18
 
 
19
# Author: Martin Pool <mbp@canonical.com>
 
20
 
 
21
 
 
22
"""Weave - storage of related text file versions"""
 
23
 
 
24
# before intset (r923) 2000 versions in 41.5s
 
25
# with intset (r926) 2000 versions in 93s !!!
 
26
# better to just use plain sets.
 
27
 
 
28
# making _extract build and return a list, rather than being a generator
 
29
# takes 37.94s
 
30
 
 
31
# with python -O, r923 does 2000 versions in 36.87s
 
32
 
 
33
# with optimizations to avoid mutating lists - 35.75!  I guess copying
 
34
# all the elements every time costs more than the small manipulations.
 
35
# a surprisingly small change.
 
36
 
 
37
# r931, which avoids using a generator for extract, does 36.98s
 
38
 
 
39
# with memoized inclusions, takes 41.49s; not very good
 
40
 
 
41
# with slots, takes 37.35s; without takes 39.16, a bit surprising
 
42
 
 
43
# with the delta calculation mixed in with the add method, rather than
 
44
# separated, takes 36.78s
 
45
 
 
46
# with delta folded in and mutation of the list, 36.13s
 
47
 
 
48
# with all this and simplification of add code, 33s
 
49
 
 
50
 
 
51
 
 
52
 
 
53
 
 
54
# TODO: Perhaps have copy method for Weave instances?
 
55
 
 
56
# XXX: If we do weaves this way, will a merge still behave the same
 
57
# way if it's done in a different order?  That's a pretty desirable
 
58
# property.
 
59
 
 
60
# TODO: Nothing here so far assumes the lines are really \n newlines,
 
61
# rather than being split up in some other way.  We could accomodate
 
62
# binaries, perhaps by naively splitting on \n or perhaps using
 
63
# something like a rolling checksum.
 
64
 
 
65
# TODO: End marker for each version so we can stop reading?
 
66
 
 
67
# TODO: Check that no insertion occurs inside a deletion that was
 
68
# active in the version of the insertion.
 
69
 
 
70
# TODO: In addition to the SHA-1 check, perhaps have some code that
 
71
# checks structural constraints of the weave: ie that insertions are
 
72
# properly nested, that there is no text outside of an insertion, that
 
73
# insertions or deletions are not repeated, etc.
 
74
 
 
75
# TODO: Parallel-extract that passes back each line along with a
 
76
# description of which revisions include it.  Nice for checking all
 
77
# shas in parallel.
 
78
 
 
79
# TODO: Using a single _extract routine and then processing the output
 
80
# is probably inefficient.  It's simple enough that we can afford to
 
81
# have slight specializations for different ways its used: annotate,
 
82
# basis for add, get, etc.
 
83
 
 
84
# TODO: Perhaps the API should work only in names to hide the integer
 
85
# indexes from the user?
 
86
 
 
87
 
 
88
 
 
89
import sha
 
90
from cStringIO import StringIO
 
91
 
 
92
 
 
93
class WeaveError(Exception):
 
94
    """Exception in processing weave"""
 
95
 
 
96
 
 
97
class WeaveFormatError(WeaveError):
 
98
    """Weave invariant violated"""
 
99
    
 
100
 
 
101
class Weave(object):
 
102
    """weave - versioned text file storage.
 
103
    
 
104
    A Weave manages versions of line-based text files, keeping track
 
105
    of the originating version for each line.
 
106
 
 
107
    To clients the "lines" of the file are represented as a list of strings.
 
108
    These strings  will typically have terminal newline characters, but
 
109
    this is not required.  In particular files commonly do not have a newline
 
110
    at the end of the file.
 
111
 
 
112
    Texts can be identified in either of two ways:
 
113
 
 
114
    * a nonnegative index number.
 
115
 
 
116
    * a version-id string. (not implemented yet)
 
117
 
 
118
    Typically the index number will be valid only inside this weave and
 
119
    the version-id is used to reference it in the larger world.
 
120
 
 
121
    The weave is represented as a list mixing edit instructions and
 
122
    literal text.  Each entry in _weave can be either a string (or
 
123
    unicode), or a tuple.  If a string, it means that the given line
 
124
    should be output in the currently active revisions.
 
125
 
 
126
    If a tuple, it gives a processing instruction saying in which
 
127
    revisions the enclosed lines are active.  The tuple has the form
 
128
    (instruction, version).
 
129
 
 
130
    The instruction can be '{' or '}' for an insertion block, and '['
 
131
    and ']' for a deletion block respectively.  The version is the
 
132
    integer version index.  There is no replace operator, only deletes
 
133
    and inserts.  For '}', the end of an insertion, there is no
 
134
    version parameter because it always closes the most recently
 
135
    opened insertion.
 
136
 
 
137
    Constraints/notes:
 
138
 
 
139
    * A later version can delete lines that were introduced by any
 
140
      number of ancestor versions; this implies that deletion
 
141
      instructions can span insertion blocks without regard to the
 
142
      insertion block's nesting.
 
143
 
 
144
    * Similarly, deletions need not be properly nested with regard to
 
145
      each other, because they might have been generated by
 
146
      independent revisions.
 
147
 
 
148
    * Insertions are always made by inserting a new bracketed block
 
149
      into a single point in the previous weave.  This implies they
 
150
      can nest but not overlap, and the nesting must always have later
 
151
      insertions on the inside.
 
152
 
 
153
    * It doesn't seem very useful to have an active insertion
 
154
      inside an inactive insertion, but it might happen.
 
155
      
 
156
    * Therefore, all instructions are always"considered"; that
 
157
      is passed onto and off the stack.  An outer inactive block
 
158
      doesn't disable an inner block.
 
159
 
 
160
    * Lines are enabled if the most recent enclosing insertion is
 
161
      active and none of the enclosing deletions are active.
 
162
 
 
163
    * There is no point having a deletion directly inside its own
 
164
      insertion; you might as well just not write it.  And there
 
165
      should be no way to get an earlier version deleting a later
 
166
      version.
 
167
 
 
168
    _weave
 
169
        Text of the weave; list of control instruction tuples and strings.
 
170
 
 
171
    _parents
 
172
        List of parents, indexed by version number.
 
173
        It is only necessary to store the minimal set of parents for
 
174
        each version; the parent's parents are implied.
 
175
 
 
176
    _sha1s
 
177
        List of hex SHA-1 of each version.
 
178
 
 
179
    _names
 
180
        List of symbolic names for each version.  Each should be unique.
 
181
 
 
182
    _name_map
 
183
        For each name, the version number.
 
184
 
 
185
    _weave_name
 
186
        Descriptive name of this weave; typically the filename if known.
 
187
        Set by read_weave.
 
188
    """
 
189
 
 
190
    __slots__ = ['_weave', '_parents', '_sha1s', '_names', '_name_map',
 
191
                 '_weave_name']
 
192
    
 
193
    def __init__(self, weave_name=None):
 
194
        self._weave = []
 
195
        self._parents = []
 
196
        self._sha1s = []
 
197
        self._names = []
 
198
        self._name_map = {}
 
199
        self._weave_name = weave_name
 
200
 
 
201
 
 
202
    def __eq__(self, other):
 
203
        if not isinstance(other, Weave):
 
204
            return False
 
205
        return self._parents == other._parents \
 
206
               and self._weave == other._weave \
 
207
               and self._sha1s == other._sha1s 
 
208
 
 
209
    
 
210
    def __ne__(self, other):
 
211
        return not self.__eq__(other)
 
212
 
 
213
 
 
214
    def lookup(self, name):
 
215
        try:
 
216
            return self._name_map[name]
 
217
        except KeyError:
 
218
            raise WeaveError("name %s not present in weave %s" %
 
219
                             (name, self._weave_name))
 
220
 
 
221
 
 
222
    def idx_to_name(self, version):
 
223
        return self._names[version]
 
224
 
 
225
        
 
226
    def add(self, name, parents, text):
 
227
        """Add a single text on top of the weave.
 
228
  
 
229
        Returns the index number of the newly added version.
 
230
 
 
231
        name
 
232
            Symbolic name for this version.
 
233
            (Typically the revision-id of the revision that added it.)
 
234
 
 
235
        parents
 
236
            List or set of direct parent version numbers.
 
237
            
 
238
        text
 
239
            Sequence of lines to be added in the new version."""
 
240
 
 
241
        assert isinstance(name, basestring)
 
242
        if name in self._name_map:
 
243
            raise WeaveError("name %r already present in weave" % name)
 
244
        
 
245
        self._check_versions(parents)
 
246
        ## self._check_lines(text)
 
247
        new_version = len(self._parents)
 
248
 
 
249
        s = sha.new()
 
250
        map(s.update, text)
 
251
        sha1 = s.hexdigest()
 
252
        del s
 
253
 
 
254
        # if we abort after here the (in-memory) weave will be corrupt because only
 
255
        # some fields are updated
 
256
        self._parents.append(parents[:])
 
257
        self._sha1s.append(sha1)
 
258
        self._names.append(name)
 
259
        self._name_map[name] = new_version
 
260
 
 
261
            
 
262
        if not parents:
 
263
            # special case; adding with no parents revision; can do
 
264
            # this more quickly by just appending unconditionally.
 
265
            # even more specially, if we're adding an empty text we
 
266
            # need do nothing at all.
 
267
            if text:
 
268
                self._weave.append(('{', new_version))
 
269
                self._weave.extend(text)
 
270
                self._weave.append(('}', None))
 
271
        
 
272
            return new_version
 
273
 
 
274
        if len(parents) == 1:
 
275
            pv = list(parents)[0]
 
276
            if sha1 == self._sha1s[pv]:
 
277
                # special case: same as the single parent
 
278
                return new_version
 
279
            
 
280
 
 
281
        ancestors = self.inclusions(parents)
 
282
 
 
283
        l = self._weave
 
284
 
 
285
        # basis a list of (origin, lineno, line)
 
286
        basis_lineno = []
 
287
        basis_lines = []
 
288
        for origin, lineno, line in self._extract(ancestors):
 
289
            basis_lineno.append(lineno)
 
290
            basis_lines.append(line)
 
291
 
 
292
        # another small special case: a merge, producing the same text
 
293
        # as auto-merge
 
294
        if text == basis_lines:
 
295
            return new_version            
 
296
 
 
297
        # add a sentinal, because we can also match against the final line
 
298
        basis_lineno.append(len(self._weave))
 
299
 
 
300
        # XXX: which line of the weave should we really consider
 
301
        # matches the end of the file?  the current code says it's the
 
302
        # last line of the weave?
 
303
 
 
304
        #print 'basis_lines:', basis_lines
 
305
        #print 'new_lines:  ', lines
 
306
 
 
307
        from difflib import SequenceMatcher
 
308
        s = SequenceMatcher(None, basis_lines, text)
 
309
 
 
310
        # offset gives the number of lines that have been inserted
 
311
        # into the weave up to the current point; if the original edit instruction
 
312
        # says to change line A then we actually change (A+offset)
 
313
        offset = 0
 
314
 
 
315
        for tag, i1, i2, j1, j2 in s.get_opcodes():
 
316
            # i1,i2 are given in offsets within basis_lines; we need to map them
 
317
            # back to offsets within the entire weave
 
318
            #print 'raw match', tag, i1, i2, j1, j2
 
319
            if tag == 'equal':
 
320
                continue
 
321
 
 
322
            i1 = basis_lineno[i1]
 
323
            i2 = basis_lineno[i2]
 
324
 
 
325
            assert 0 <= j1 <= j2 <= len(text)
 
326
 
 
327
            #print tag, i1, i2, j1, j2
 
328
 
 
329
            # the deletion and insertion are handled separately.
 
330
            # first delete the region.
 
331
            if i1 != i2:
 
332
                self._weave.insert(i1+offset, ('[', new_version))
 
333
                self._weave.insert(i2+offset+1, (']', new_version))
 
334
                offset += 2
 
335
 
 
336
            if j1 != j2:
 
337
                # there may have been a deletion spanning up to
 
338
                # i2; we want to insert after this region to make sure
 
339
                # we don't destroy ourselves
 
340
                i = i2 + offset
 
341
                self._weave[i:i] = ([('{', new_version)] 
 
342
                                    + text[j1:j2] 
 
343
                                    + [('}', None)])
 
344
                offset += 2 + (j2 - j1)
 
345
 
 
346
        return new_version
 
347
 
 
348
 
 
349
    def inclusions(self, versions):
 
350
        """Return set of all ancestors of given version(s)."""
 
351
        i = set(versions)
 
352
        v = max(versions)
 
353
        try:
 
354
            while v >= 0:
 
355
                if v in i:
 
356
                    # include all its parents
 
357
                    i.update(self._parents[v])
 
358
                v -= 1
 
359
            return i
 
360
        except IndexError:
 
361
            raise ValueError("version %d not present in weave" % v)
 
362
 
 
363
 
 
364
    def parents(self, version):
 
365
        return self._parents[version]
 
366
 
 
367
 
 
368
    def minimal_parents(self, version):
 
369
        """Find the minimal set of parents for the version."""
 
370
        included = self._parents[version]
 
371
        if not included:
 
372
            return []
 
373
        
 
374
        li = list(included)
 
375
        li.sort(reverse=True)
 
376
 
 
377
        mininc = []
 
378
        gotit = set()
 
379
 
 
380
        for pv in li:
 
381
            if pv not in gotit:
 
382
                mininc.append(pv)
 
383
                gotit.update(self.inclusions(pv))
 
384
 
 
385
        assert mininc[0] >= 0
 
386
        assert mininc[-1] < version
 
387
        return mininc
 
388
 
 
389
 
 
390
 
 
391
    def _check_lines(self, text):
 
392
        if not isinstance(text, list):
 
393
            raise ValueError("text should be a list, not %s" % type(text))
 
394
 
 
395
        for l in text:
 
396
            if not isinstance(l, basestring):
 
397
                raise ValueError("text line should be a string or unicode, not %s"
 
398
                                 % type(l))
 
399
        
 
400
 
 
401
 
 
402
    def _check_versions(self, indexes):
 
403
        """Check everything in the sequence of indexes is valid"""
 
404
        for i in indexes:
 
405
            try:
 
406
                self._parents[i]
 
407
            except IndexError:
 
408
                raise IndexError("invalid version number %r" % i)
 
409
 
 
410
    
 
411
    def annotate(self, index):
 
412
        return list(self.annotate_iter(index))
 
413
 
 
414
 
 
415
    def annotate_iter(self, version):
 
416
        """Yield list of (index-id, line) pairs for the specified version.
 
417
 
 
418
        The index indicates when the line originated in the weave."""
 
419
        for origin, lineno, text in self._extract([version]):
 
420
            yield origin, text
 
421
 
 
422
 
 
423
    def _walk(self):
 
424
        """Walk the weave.
 
425
 
 
426
        Yields sequence of
 
427
        (lineno, insert, deletes, text)
 
428
        for each literal line.
 
429
        """
 
430
        
 
431
        istack = []
 
432
        dset = set()
 
433
 
 
434
        lineno = 0         # line of weave, 0-based
 
435
 
 
436
        for l in self._weave:
 
437
            if isinstance(l, tuple):
 
438
                c, v = l
 
439
                isactive = None
 
440
                if c == '{':
 
441
                    istack.append(v)
 
442
                elif c == '}':
 
443
                    istack.pop()
 
444
                elif c == '[':
 
445
                    assert v not in dset
 
446
                    dset.add(v)
 
447
                elif c == ']':
 
448
                    dset.remove(v)
 
449
                else:
 
450
                    raise WeaveFormatError('unexpected instruction %r'
 
451
                                           % v)
 
452
            else:
 
453
                assert isinstance(l, basestring)
 
454
                assert istack
 
455
                yield lineno, istack[-1], dset, l
 
456
            lineno += 1
 
457
 
 
458
 
 
459
 
 
460
    def _extract(self, versions):
 
461
        """Yield annotation of lines in included set.
 
462
 
 
463
        Yields a sequence of tuples (origin, lineno, text), where
 
464
        origin is the origin version, lineno the index in the weave,
 
465
        and text the text of the line.
 
466
 
 
467
        The set typically but not necessarily corresponds to a version.
 
468
        """
 
469
        for i in versions:
 
470
            if not isinstance(i, int):
 
471
                raise ValueError(i)
 
472
            
 
473
        included = self.inclusions(versions)
 
474
 
 
475
        istack = []
 
476
        dset = set()
 
477
 
 
478
        lineno = 0         # line of weave, 0-based
 
479
 
 
480
        isactive = None
 
481
 
 
482
        result = []
 
483
 
 
484
        WFE = WeaveFormatError
 
485
 
 
486
        for l in self._weave:
 
487
            if isinstance(l, tuple):
 
488
                c, v = l
 
489
                isactive = None
 
490
                if c == '{':
 
491
                    assert v not in istack
 
492
                    istack.append(v)
 
493
                elif c == '}':
 
494
                    istack.pop()
 
495
                elif c == '[':
 
496
                    if v in included:
 
497
                        assert v not in dset
 
498
                        dset.add(v)
 
499
                else:
 
500
                    assert c == ']'
 
501
                    if v in included:
 
502
                        assert v in dset
 
503
                        dset.remove(v)
 
504
            else:
 
505
                assert isinstance(l, basestring)
 
506
                if isactive is None:
 
507
                    isactive = (not dset) and istack and (istack[-1] in included)
 
508
                if isactive:
 
509
                    result.append((istack[-1], lineno, l))
 
510
            lineno += 1
 
511
 
 
512
        if istack:
 
513
            raise WFE("unclosed insertion blocks at end of weave",
 
514
                                   istack)
 
515
        if dset:
 
516
            raise WFE("unclosed deletion blocks at end of weave",
 
517
                                   dset)
 
518
 
 
519
        return result
 
520
    
 
521
 
 
522
 
 
523
    def get_iter(self, version):
 
524
        """Yield lines for the specified version."""
 
525
        for origin, lineno, line in self._extract([version]):
 
526
            yield line
 
527
 
 
528
 
 
529
    def get_text(self, version):
 
530
        assert isinstance(version, int)
 
531
        s = StringIO()
 
532
        s.writelines(self.get_iter(version))
 
533
        return s.getvalue()
 
534
 
 
535
 
 
536
    def get(self, index):
 
537
        return list(self.get_iter(index))
 
538
 
 
539
 
 
540
    def mash_iter(self, included):
 
541
        """Return composed version of multiple included versions."""
 
542
        for origin, lineno, text in self._extract(included):
 
543
            yield text
 
544
 
 
545
 
 
546
    def dump(self, to_file):
 
547
        from pprint import pprint
 
548
        print >>to_file, "Weave._weave = ",
 
549
        pprint(self._weave, to_file)
 
550
        print >>to_file, "Weave._parents = ",
 
551
        pprint(self._parents, to_file)
 
552
 
 
553
 
 
554
 
 
555
    def numversions(self):
 
556
        l = len(self._parents)
 
557
        assert l == len(self._sha1s)
 
558
        return l
 
559
 
 
560
 
 
561
    def __len__(self):
 
562
        return self.numversions()
 
563
 
 
564
 
 
565
    def check(self, progress_bar=None):
 
566
        # check no circular inclusions
 
567
        for version in range(self.numversions()):
 
568
            inclusions = list(self._parents[version])
 
569
            if inclusions:
 
570
                inclusions.sort()
 
571
                if inclusions[-1] >= version:
 
572
                    raise WeaveFormatError("invalid included version %d for index %d"
 
573
                                           % (inclusions[-1], version))
 
574
 
 
575
        # try extracting all versions; this is a bit slow and parallel
 
576
        # extraction could be used
 
577
        nv = self.numversions()
 
578
        for version in range(nv):
 
579
            if progress_bar:
 
580
                progress_bar.update('checking text', version, nv)
 
581
            s = sha.new()
 
582
            for l in self.get_iter(version):
 
583
                s.update(l)
 
584
            hd = s.hexdigest()
 
585
            expected = self._sha1s[version]
 
586
            if hd != expected:
 
587
                raise WeaveError("mismatched sha1 for version %d; "
 
588
                                 "got %s, expected %s"
 
589
                                 % (version, hd, expected))
 
590
 
 
591
        # TODO: check insertions are properly nested, that there are
 
592
        # no lines outside of insertion blocks, that deletions are
 
593
        # properly paired, etc.
 
594
 
 
595
 
 
596
 
 
597
    def merge(self, merge_versions):
 
598
        """Automerge and mark conflicts between versions.
 
599
 
 
600
        This returns a sequence, each entry describing alternatives
 
601
        for a chunk of the file.  Each of the alternatives is given as
 
602
        a list of lines.
 
603
 
 
604
        If there is a chunk of the file where there's no diagreement,
 
605
        only one alternative is given.
 
606
        """
 
607
 
 
608
        # approach: find the included versions common to all the
 
609
        # merged versions
 
610
        raise NotImplementedError()
 
611
 
 
612
 
 
613
 
 
614
    def _delta(self, included, lines):
 
615
        """Return changes from basis to new revision.
 
616
 
 
617
        The old text for comparison is the union of included revisions.
 
618
 
 
619
        This is used in inserting a new text.
 
620
 
 
621
        Delta is returned as a sequence of
 
622
        (weave1, weave2, newlines).
 
623
 
 
624
        This indicates that weave1:weave2 of the old weave should be
 
625
        replaced by the sequence of lines in newlines.  Note that
 
626
        these line numbers are positions in the total weave and don't
 
627
        correspond to the lines in any extracted version, or even the
 
628
        extracted union of included versions.
 
629
 
 
630
        If line1=line2, this is a pure insert; if newlines=[] this is a
 
631
        pure delete.  (Similar to difflib.)
 
632
        """
 
633
 
 
634
 
 
635
            
 
636
    def plan_merge(self, ver_a, ver_b):
 
637
        """Return pseudo-annotation indicating how the two versions merge.
 
638
 
 
639
        This is computed between versions a and b and their common
 
640
        base.
 
641
 
 
642
        Weave lines present in none of them are skipped entirely.
 
643
        """
 
644
        inc_a = self.inclusions([ver_a])
 
645
        inc_b = self.inclusions([ver_b])
 
646
        inc_c = inc_a & inc_b
 
647
 
 
648
        for lineno, insert, deleteset, line in self._walk():
 
649
            if deleteset & inc_c:
 
650
                # killed in parent; can't be in either a or b
 
651
                # not relevant to our work
 
652
                yield 'killed-base', line
 
653
            elif insert in inc_c:
 
654
                # was inserted in base
 
655
                killed_a = bool(deleteset & inc_a)
 
656
                killed_b = bool(deleteset & inc_b)
 
657
                if killed_a and killed_b:
 
658
                    yield 'killed-both', line
 
659
                elif killed_a:
 
660
                    yield 'killed-a', line
 
661
                elif killed_b:
 
662
                    yield 'killed-b', line
 
663
                else:
 
664
                    yield 'unchanged', line
 
665
            elif insert in inc_a:
 
666
                if deleteset & inc_a:
 
667
                    yield 'ghost-a', line
 
668
                else:
 
669
                    # new in A; not in B
 
670
                    yield 'new-a', line
 
671
            elif insert in inc_b:
 
672
                if deleteset & inc_b:
 
673
                    yield 'ghost-b', line
 
674
                else:
 
675
                    yield 'new-b', line
 
676
            else:
 
677
                # not in either revision
 
678
                yield 'irrelevant', line
 
679
 
 
680
        yield 'unchanged', ''           # terminator
 
681
 
 
682
 
 
683
 
 
684
    def weave_merge(self, plan):
 
685
        lines_a = []
 
686
        lines_b = []
 
687
        ch_a = ch_b = False
 
688
 
 
689
        for state, line in plan:
 
690
            if state == 'unchanged' or state == 'killed-both':
 
691
                # resync and flush queued conflicts changes if any
 
692
                if not lines_a and not lines_b:
 
693
                    pass
 
694
                elif ch_a and not ch_b:
 
695
                    # one-sided change:                    
 
696
                    for l in lines_a: yield l
 
697
                elif ch_b and not ch_a:
 
698
                    for l in lines_b: yield l
 
699
                elif lines_a == lines_b:
 
700
                    for l in lines_a: yield l
 
701
                else:
 
702
                    yield '<<<<\n'
 
703
                    for l in lines_a: yield l
 
704
                    yield '====\n'
 
705
                    for l in lines_b: yield l
 
706
                    yield '>>>>\n'
 
707
 
 
708
                del lines_a[:]
 
709
                del lines_b[:]
 
710
                ch_a = ch_b = False
 
711
                
 
712
            if state == 'unchanged':
 
713
                if line:
 
714
                    yield line
 
715
            elif state == 'killed-a':
 
716
                ch_a = True
 
717
                lines_b.append(line)
 
718
            elif state == 'killed-b':
 
719
                ch_b = True
 
720
                lines_a.append(line)
 
721
            elif state == 'new-a':
 
722
                ch_a = True
 
723
                lines_a.append(line)
 
724
            elif state == 'new-b':
 
725
                ch_b = True
 
726
                lines_b.append(line)
 
727
            else:
 
728
                assert state in ('irrelevant', 'ghost-a', 'ghost-b', 'killed-base',
 
729
                                 'killed-both'), \
 
730
                       state
 
731
 
 
732
                
 
733
 
 
734
 
 
735
 
 
736
 
 
737
 
 
738
def weave_toc(w):
 
739
    """Show the weave's table-of-contents"""
 
740
    print '%6s %50s %10s %10s' % ('ver', 'name', 'sha1', 'parents')
 
741
    for i in (6, 50, 10, 10):
 
742
        print '-' * i,
 
743
    print
 
744
    for i in range(w.numversions()):
 
745
        sha1 = w._sha1s[i]
 
746
        name = w._names[i]
 
747
        parent_str = ' '.join(map(str, w._parents[i]))
 
748
        print '%6d %-50.50s %10.10s %s' % (i, name, sha1, parent_str)
 
749
 
 
750
 
 
751
 
 
752
def weave_stats(weave_file):
 
753
    from bzrlib.progress import ProgressBar
 
754
    from bzrlib.weavefile import read_weave
 
755
 
 
756
    pb = ProgressBar()
 
757
 
 
758
    wf = file(weave_file, 'rb')
 
759
    w = read_weave(wf)
 
760
    # FIXME: doesn't work on pipes
 
761
    weave_size = wf.tell()
 
762
 
 
763
    total = 0
 
764
    vers = len(w)
 
765
    for i in range(vers):
 
766
        pb.update('checking sizes', i, vers)
 
767
        for line in w.get_iter(i):
 
768
            total += len(line)
 
769
 
 
770
    pb.clear()
 
771
 
 
772
    print 'versions          %9d' % vers
 
773
    print 'weave file        %9d bytes' % weave_size
 
774
    print 'total contents    %9d bytes' % total
 
775
    print 'compression ratio %9.2fx' % (float(total) / float(weave_size))
 
776
    if vers:
 
777
        avg = total/vers
 
778
        print 'average size      %9d bytes' % avg
 
779
        print 'relative size     %9.2fx' % (float(weave_size) / float(avg))
 
780
 
 
781
 
 
782
def usage():
 
783
    print """bzr weave tool
 
784
 
 
785
Experimental tool for weave algorithm.
 
786
 
 
787
usage:
 
788
    weave init WEAVEFILE
 
789
        Create an empty weave file
 
790
    weave get WEAVEFILE VERSION
 
791
        Write out specified version.
 
792
    weave check WEAVEFILE
 
793
        Check consistency of all versions.
 
794
    weave toc WEAVEFILE
 
795
        Display table of contents.
 
796
    weave add WEAVEFILE NAME [BASE...] < NEWTEXT
 
797
        Add NEWTEXT, with specified parent versions.
 
798
    weave annotate WEAVEFILE VERSION
 
799
        Display origin of each line.
 
800
    weave mash WEAVEFILE VERSION...
 
801
        Display composite of all selected versions.
 
802
    weave merge WEAVEFILE VERSION1 VERSION2 > OUT
 
803
        Auto-merge two versions and display conflicts.
 
804
 
 
805
example:
 
806
 
 
807
    % weave init foo.weave
 
808
    % vi foo.txt
 
809
    % weave add foo.weave ver0 < foo.txt
 
810
    added version 0
 
811
 
 
812
    (create updated version)
 
813
    % vi foo.txt
 
814
    % weave get foo.weave 0 | diff -u - foo.txt
 
815
    % weave add foo.weave ver1 0 < foo.txt
 
816
    added version 1
 
817
 
 
818
    % weave get foo.weave 0 > foo.txt       (create forked version)
 
819
    % vi foo.txt
 
820
    % weave add foo.weave ver2 0 < foo.txt
 
821
    added version 2
 
822
 
 
823
    % weave merge foo.weave 1 2 > foo.txt   (merge them)
 
824
    % vi foo.txt                            (resolve conflicts)
 
825
    % weave add foo.weave merged 1 2 < foo.txt     (commit merged version)     
 
826
    
 
827
"""
 
828
    
 
829
 
 
830
 
 
831
def main(argv):
 
832
    import sys
 
833
    import os
 
834
    from weavefile import write_weave, read_weave
 
835
    from bzrlib.progress import ProgressBar
 
836
 
 
837
    try:
 
838
        import psyco
 
839
        psyco.full()
 
840
    except ImportError:
 
841
        pass
 
842
 
 
843
    if len(argv) < 2:
 
844
        usage()
 
845
        return 0
 
846
 
 
847
    cmd = argv[1]
 
848
 
 
849
    def readit():
 
850
        return read_weave(file(argv[2], 'rb'))
 
851
    
 
852
    if cmd == 'help':
 
853
        usage()
 
854
    elif cmd == 'add':
 
855
        w = readit()
 
856
        # at the moment, based on everything in the file
 
857
        name = argv[3]
 
858
        parents = map(int, argv[4:])
 
859
        lines = sys.stdin.readlines()
 
860
        ver = w.add(name, parents, lines)
 
861
        write_weave(w, file(argv[2], 'wb'))
 
862
        print 'added version %r %d' % (name, ver)
 
863
    elif cmd == 'init':
 
864
        fn = argv[2]
 
865
        if os.path.exists(fn):
 
866
            raise IOError("file exists")
 
867
        w = Weave()
 
868
        write_weave(w, file(fn, 'wb'))
 
869
    elif cmd == 'get': # get one version
 
870
        w = readit()
 
871
        sys.stdout.writelines(w.get_iter(int(argv[3])))
 
872
        
 
873
    elif cmd == 'mash': # get composite
 
874
        w = readit()
 
875
        sys.stdout.writelines(w.mash_iter(map(int, argv[3:])))
 
876
 
 
877
    elif cmd == 'annotate':
 
878
        w = readit()
 
879
        # newline is added to all lines regardless; too hard to get
 
880
        # reasonable formatting otherwise
 
881
        lasto = None
 
882
        for origin, text in w.annotate(int(argv[3])):
 
883
            text = text.rstrip('\r\n')
 
884
            if origin == lasto:
 
885
                print '      | %s' % (text)
 
886
            else:
 
887
                print '%5d | %s' % (origin, text)
 
888
                lasto = origin
 
889
                
 
890
    elif cmd == 'toc':
 
891
        weave_toc(readit())
 
892
 
 
893
    elif cmd == 'stats':
 
894
        weave_stats(argv[2])
 
895
        
 
896
    elif cmd == 'check':
 
897
        w = readit()
 
898
        pb = ProgressBar()
 
899
        w.check(pb)
 
900
        pb.clear()
 
901
        print '%d versions ok' % w.numversions()
 
902
 
 
903
    elif cmd == 'inclusions':
 
904
        w = readit()
 
905
        print ' '.join(map(str, w.inclusions([int(argv[3])])))
 
906
 
 
907
    elif cmd == 'parents':
 
908
        w = readit()
 
909
        print ' '.join(map(str, w._parents[int(argv[3])]))
 
910
 
 
911
    elif cmd == 'plan-merge':
 
912
        w = readit()
 
913
        for state, line in w.plan_merge(int(argv[3]), int(argv[4])):
 
914
            if line:
 
915
                print '%14s | %s' % (state, line),
 
916
 
 
917
    elif cmd == 'merge':
 
918
        w = readit()
 
919
        p = w.plan_merge(int(argv[3]), int(argv[4]))
 
920
        sys.stdout.writelines(w.weave_merge(p))
 
921
            
 
922
    elif cmd == 'mash-merge':
 
923
        if len(argv) != 5:
 
924
            usage()
 
925
            return 1
 
926
 
 
927
        w = readit()
 
928
        v1, v2 = map(int, argv[3:5])
 
929
 
 
930
        basis = w.inclusions([v1]).intersection(w.inclusions([v2]))
 
931
 
 
932
        base_lines = list(w.mash_iter(basis))
 
933
        a_lines = list(w.get(v1))
 
934
        b_lines = list(w.get(v2))
 
935
 
 
936
        from bzrlib.merge3 import Merge3
 
937
        m3 = Merge3(base_lines, a_lines, b_lines)
 
938
 
 
939
        name_a = 'version %d' % v1
 
940
        name_b = 'version %d' % v2
 
941
        sys.stdout.writelines(m3.merge_lines(name_a=name_a, name_b=name_b))
 
942
    else:
 
943
        raise ValueError('unknown command %r' % cmd)
 
944
    
 
945
 
 
946
 
 
947
def profile_main(argv): 
 
948
    import tempfile, hotshot, hotshot.stats
 
949
 
 
950
    prof_f = tempfile.NamedTemporaryFile()
 
951
 
 
952
    prof = hotshot.Profile(prof_f.name)
 
953
 
 
954
    ret = prof.runcall(main, argv)
 
955
    prof.close()
 
956
 
 
957
    stats = hotshot.stats.load(prof_f.name)
 
958
    #stats.strip_dirs()
 
959
    stats.sort_stats('cumulative')
 
960
    ## XXX: Might like to write to stderr or the trace file instead but
 
961
    ## print_stats seems hardcoded to stdout
 
962
    stats.print_stats(20)
 
963
            
 
964
    return ret
 
965
 
 
966
 
 
967
if __name__ == '__main__':
 
968
    import sys
 
969
    if '--profile' in sys.argv:
 
970
        args = sys.argv[:]
 
971
        args.remove('--profile')
 
972
        sys.exit(profile_main(args))
 
973
    else:
 
974
        sys.exit(main(sys.argv))
 
975